<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      王云鶴眼中的Harness:復(fù)雜優(yōu)化問題,AGI靈魂?duì)帄Z之戰(zhàn)

      0
      分享至



      機(jī)器之心轉(zhuǎn)載

      最近一段時(shí)間,Agent 又一次成為 AI 圈最熱的關(guān)鍵詞。

      OpenClaw 這類開源項(xiàng)目走紅之后,關(guān)于 Agent 的討論迅速升溫:Agent 到底是什么?應(yīng)該怎么做?長期會(huì)演進(jìn)到哪里?這些問題重新被擺到臺(tái)面上。

      近日,王云鶴在知乎上圍繞這一問題發(fā)表了一篇文章,討論了自己對(duì)Harness Engineering的看法,引起了AI 社區(qū)的關(guān)注與討論。

      機(jī)器之心經(jīng)授權(quán)轉(zhuǎn)載,讓我們看下他對(duì)Harness 的觀點(diǎn)



      原文地址:https://zhuanlan.zhihu.com/p/2038669387150927679

      其實(shí)長久以來,一直有一個(gè)問題沒有被定義清楚,到底什么是 Agent?LLM 和 Agent 的邊界在哪里?我也經(jīng)常會(huì)跟人討論,自主規(guī)劃、自己判斷、執(zhí)行任務(wù)……

      但是其實(shí)一直也沒有個(gè)公論,隨著 LLM 的能力持續(xù)提升,甚至很多時(shí)候有一種 Base model as Agent 的趨勢,加上各種工具調(diào)用軌跡數(shù)據(jù)的回流后。比如問模型今天的日期和天氣,模型去讀取了本地的信息,這種時(shí)候,是叫它 LLM 還是叫它 Agent?

      回到當(dāng)下,從 OpenClaw 出來,關(guān)于 Agent 到底是什么,應(yīng)該怎么做,長期演進(jìn)方向是什么的討論非常多,也衍生出來很多新的機(jī)會(huì),無論是算法研究還是工程創(chuàng)新。

      最早我跟人討論的是 Agent 已經(jīng)進(jìn)階到需要我們討論 AgentOS 層面(非通信、協(xié)議等)了,Agent = Base Models+AgentOS。很多人會(huì)聯(lián)想到上個(gè)時(shí)代的 OS,Android、Linux,但是此 OS 非彼 OS,AgentOS 里面包含了很多組件來進(jìn)一步釋放大模型本身的能力和拓展其應(yīng)用邊界。后來逐步大家收斂到 Harness Engineering 的概念 [r1],也就是 Agent = Model+Harness。到現(xiàn)在,也有了更多的關(guān)于 AgentOS 和 Harness 的討論和推演 [r2,r3],我覺得無論是 AgentOS 還是 Harness,都是在告訴我們,Base model 很重要,但是怎么把它使用的更好,可能,更重要。

      另外一個(gè)值得深度思考的問題是,Harness 是否會(huì)長期存在,以及,Harness 會(huì)不會(huì)被模型吃掉?有人會(huì)說,Harness 只是一個(gè)新概念,像以前的 rag、向量數(shù)據(jù)庫一樣會(huì)隨著模型長序列能力的提升而消亡,但實(shí)際上呢?Rag 其實(shí)在升級(jí)而不是消失,加上了 prompt、工具調(diào)用、更多的知識(shí)等變成了 skills。很多 Harness 里面的元素都是一直存在的,并且隨著模型能力和業(yè)界的算法與工程算法創(chuàng)新不斷進(jìn)化。并且 Harness 真正意義上的把所有的圍繞模型的所有高價(jià)值元素都聯(lián)動(dòng)在了一起,是 Agent 時(shí)代最重要的事情之一。

      好了,那我們現(xiàn)在可以回答最初的問題了,就是 Agent 是 Base Model(可以是 LLM、VLM、VLA……)加上 Harness 層面的任何優(yōu)化,哪怕是多加一點(diǎn)點(diǎn) prompt 優(yōu)化,多加了一點(diǎn)工具調(diào)用,而不是 Base Model as Agent。那回到我自己的觀點(diǎn),我覺得 Agent 可能要更進(jìn)一步,還是要變成 Agent = Models+Harness,也就是說多模型配合可以產(chǎn)生更好的 Agent 能力。先講為什么:

      1.模型 “七國八制”:我覺得模型的終局還早,先不談中美模型的差距,立足當(dāng)下國內(nèi)的模型格局,還是一個(gè)七國八制的情況,各家模型根據(jù)自己的業(yè)務(wù)屬性、根據(jù)自己的數(shù)據(jù)、根據(jù)自己最早 bet 的路線,一定會(huì)出現(xiàn)特異化的情況(有的生活?yuàn)蕵奉惐憩F(xiàn)好、有的注重?cái)?shù)學(xué)、有的 coding 能力強(qiáng)、有的長序列做的好),而且,價(jià)格也不一樣。Claude Code 內(nèi)部還會(huì)調(diào)用多款模型(opus、sonnet、haiku 等)來實(shí)現(xiàn)綜合最優(yōu)解。此外,不同模型盡管評(píng)測相差不大,但是在具體任務(wù)上的表現(xiàn)差異可能很大,甚至執(zhí)行結(jié)果會(huì)跟 benchmark 關(guān)聯(lián)度很小,還記得去年很火的 AI 量化的項(xiàng)目,qwen、deepseek、gpt、gemini、claude、grok 六個(gè)比拼的結(jié)果,最后勝出的是 deepseek 和 qwen,讓人大跌眼球的是 gpt。后來我也跟朋友們分析過,結(jié)論是 gpt 太安全了,遇到高風(fēng)險(xiǎn)場景不敢做決策,但是往往那些才是收益率最大的地方。另外,服務(wù)于模型的 benchmark 也是非常多的,當(dāng)然也有主觀評(píng)測的榜單,這就導(dǎo)致了以不同基準(zhǔn)不同體系評(píng)價(jià)出來的最優(yōu)模型也是不一樣的。

      2.模型中的任務(wù)會(huì) “打架”:在機(jī)器學(xué)習(xí)中很多任務(wù)是沒法用一個(gè)統(tǒng)一的 loss function 來表達(dá)的,并且是不能用一個(gè)模型來學(xué)出來的。語言模型這塊有一點(diǎn)不一樣,首先 raw data 的 representation 是一致的,然后,通過 pre-training 和 scaling law 會(huì)抵消很多,但是還是有一些跡象。比如,快慢思考合一(非 prompt 切換)我們?cè)?25 年 4 月份就努力的放到一起過,但是后來幾乎所有人都放棄了。其實(shí)關(guān)于這個(gè)很早做 IPT(Pretrained Image Processing Transformer [r4])的時(shí)候就遇到過,圖像超分和圖像去模糊是最容易沖突的兩個(gè)任務(wù),放在一個(gè)基模里面學(xué)不好,本質(zhì)上這兩個(gè)東西一個(gè)是高通濾波,一個(gè)是低通濾波,我覺得快慢思考從信號(hào)處理的角度也是一樣的,于是后面我們又做了 instruct IPT [r5]。所以,哪怕模型同質(zhì)化,不同的任務(wù)最優(yōu)的模型,也會(huì)有差異性,除非所有人都對(duì)所有任務(wù)給同樣的權(quán)重。

      3.復(fù)雜任務(wù)更需要多模型:語言模型本身是個(gè)確定性的事情,大家在這個(gè)方向上已經(jīng)足夠卷了,排名靠前的幾個(gè)模型不存在顯著的性能上的差距。但是,Beyond LLM,未來還有更多復(fù)雜的任務(wù),比如多模態(tài)理解和生成,具身智能的 agent 等,需要多個(gè)模型來協(xié)同,比如短劇生成,文案轉(zhuǎn)寫用什么模型?視頻生成用什么模型?中間過程比如轉(zhuǎn)場后的穩(wěn)定性用什么模型和方法保障?具身智能更是需要多模型協(xié)同來做感知、決策、運(yùn)控、預(yù)測、記憶等等。如果說基模的愿景是一個(gè)最強(qiáng)的模型吞噬掉所有的 Harness,那這個(gè)事情相較于上面兩條,給 Harness 這一層的時(shí)間窗更大,甚至要 3-5 年以上了。

      回到我為什么要對(duì) Harness 這件事極度感興趣,首先是各種模型能力的持續(xù)提升,尤其是 coding 和 planning 能力的爆發(fā),迎來了 OpenClaw 這么史無前例的開源項(xiàng)目,也涌現(xiàn)了非常多的生產(chǎn)力應(yīng)用,那如果進(jìn)一步思考 Agent 解決問題的能力,其實(shí)是要解決一個(gè)復(fù)雜的優(yōu)化問題的。比如,我們給定了一個(gè)任務(wù),和一些可以用的 Base Models,那對(duì)應(yīng)每一個(gè)模型,Harness 當(dāng)中的每一個(gè)模組需要調(diào)整的可能是不一樣的,也就是模型 vs agent 有很多子特性上的匹配。這也跟上面一段講的 “七國八制” 有關(guān)。比如,有的模型 prompt 可以增長補(bǔ)充提升精度、有些模型 rag 掛多了反而會(huì)影響精度、有的安全加多了模型能力會(huì)劇烈下降。

      所以,我對(duì) Harness 這一層的認(rèn)知是,這是一個(gè)非常非常非常復(fù)雜的,優(yōu)化和系統(tǒng)工程問題,值得投入。



      光是求解這個(gè)復(fù)雜的優(yōu)化問題來帶來更好的 agent 就是一個(gè)令人覺得有趣且有價(jià)值的事情了。但是,從公式 1 的角度,M 也未嘗不可以被優(yōu)化,尤其是在 Harness 上積累的數(shù)據(jù),對(duì)下一階段的模型也至關(guān)重要。這二者一定不是互斥的,甚至 Anthropic 告訴我們的道理是,基模很重要,但是 Harness 做好了可以反哺基模的進(jìn)化,于是有了 opus 4-claude code 1.0-opus4.5-claude code2.0-opus4.6…… 的迭代。上一個(gè)時(shí)代,大家瞄著 AGI 要做的事情是,給定數(shù)據(jù)集,大家優(yōu)化模型參數(shù)。當(dāng)前這個(gè)階段,Agent 在干的所有事情其實(shí),都是給定模型,大家優(yōu)化 Harness parameters。那如果,我們把 model parameters 也帶入進(jìn)來一起優(yōu)化呢?對(duì)應(yīng)的下一代 AGI 路徑很有可能就是



      即,Model Parameters 和 Harness Parameters 迭代優(yōu)化,或者,聯(lián)合優(yōu)化。那么,Harness 最觸動(dòng)我的事情是什么?

      AI “靈魂” 之爭:廣義上,大家會(huì)覺得大模型才是真正智能的大腦,是所有應(yīng)用的核心源泉,就好比是汽車?yán)锏陌l(fā)動(dòng)機(jī),手機(jī)里面的芯片一樣,然后 Harness 是駕馭大模型,是自動(dòng)駕駛系統(tǒng),是整個(gè)手機(jī)的軟硬協(xié)同。但,如果公式 1 成立,要控制模型,甚至選擇模型,AI 的大腦,或者說靈魂到底是在 Base Model 還是 Harness 呢?如果公式 2 存在可能性,那就是我們還要基于 Harness 來進(jìn)一步增訓(xùn)模型,實(shí)現(xiàn) Agent 中的自主進(jìn)化,那靈魂到底屬于誰呢?

      [r1] Trivedy, Vivek. "The Anatomy of an Agent Harness." LangChain Blog, 10 Mar. 2026, http://www.langchain.com/blog/the-anatomy-of-an-agent-harness.

      [r2] Liu, Rui, et al. "AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem." arXiv preprint arXiv:2603.08938 (2026).

      [r3] He, Chaoyue, et al. "Harness Engineering for Language Agents: The Harness Layer as Control, Agency, and Runtime." (2026).

      [r4] Chen, Hanting, et al. "Pre-trained image processing transformer." CVPR 2021.

      [r5] Tian, Yuchuan, et al. "Instruct-ipt: All-in-one image processing transformer via weight modulation." arXiv preprint arXiv:2407.00676 (2024).

      [r6] Yang, Chengrun, et al. "Large language models as optimizers." ICLR 2024.

      [r7] Trivedi, Prashant, et al. "Align-pro: A principled approach to prompt optimization for llm alignment." AAAI 2025.

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      同樣奪冠后崩盤!能等克洛普,為什么不等斯洛特?3個(gè)原因太現(xiàn)實(shí)

      同樣奪冠后崩盤!能等克洛普,為什么不等斯洛特?3個(gè)原因太現(xiàn)實(shí)

      吳朑愛游泳
      2026-05-19 21:03:55
      比算命還要準(zhǔn)一百倍的天規(guī),我整整讀了十遍,看完就大徹大悟了

      比算命還要準(zhǔn)一百倍的天規(guī),我整整讀了十遍,看完就大徹大悟了

      心理觀察局
      2026-05-18 11:28:11
      勵(lì)志!方媛原來是個(gè)安徽農(nóng)家女,曾在上海做過導(dǎo)購,母親還曾失業(yè)

      勵(lì)志!方媛原來是個(gè)安徽農(nóng)家女,曾在上海做過導(dǎo)購,母親還曾失業(yè)

      魔都姐姐雜談
      2026-05-19 08:58:40
      林園損失慘重,不少產(chǎn)品慘遭劇烈贖回!碧桂園賣飛長鑫,或少賺300億

      林園損失慘重,不少產(chǎn)品慘遭劇烈贖回!碧桂園賣飛長鑫,或少賺300億

      金石隨筆
      2026-05-20 00:15:34
      人根本不用刻意養(yǎng)老:最好的晚年底氣,從來都是自己給的

      人根本不用刻意養(yǎng)老:最好的晚年底氣,從來都是自己給的

      青蘋果sht
      2026-05-18 05:17:32
      是否覺得自己是世界最佳?文班:我只覺得很累,80億人有80億個(gè)觀點(diǎn)

      是否覺得自己是世界最佳?文班:我只覺得很累,80億人有80億個(gè)觀點(diǎn)

      懂球帝
      2026-05-19 14:48:24
      夢鴿李天一赴美不歸?看到85歲李雙江“現(xiàn)狀”,原來?xiàng)詈榛鶝]說謊

      夢鴿李天一赴美不歸?看到85歲李雙江“現(xiàn)狀”,原來?xiàng)詈榛鶝]說謊

      阿纂看事
      2024-11-05 11:54:58
      德國前總理默克爾評(píng)特朗普:別低估這位拼盡全力實(shí)現(xiàn)目標(biāo)的人

      德國前總理默克爾評(píng)特朗普:別低估這位拼盡全力實(shí)現(xiàn)目標(biāo)的人

      澎湃新聞
      2026-05-19 14:37:11
      紐約時(shí)報(bào)刷屏長文:硅谷正在準(zhǔn)備迎接「永久底層階級(jí)」!AI時(shí)代的四個(gè)新階層,你的孩子將被困在哪一層?

      紐約時(shí)報(bào)刷屏長文:硅谷正在準(zhǔn)備迎接「永久底層階級(jí)」!AI時(shí)代的四個(gè)新階層,你的孩子將被困在哪一層?

      新浪財(cái)經(jīng)
      2026-05-19 09:11:27
      基德轟然下課,烏杰里果然是個(gè)狠人,弗拉格是唯一非賣品

      基德轟然下課,烏杰里果然是個(gè)狠人,弗拉格是唯一非賣品

      世界體育圈
      2026-05-20 09:36:32
      隊(duì)報(bào):皇馬許多官員曾竭盡全力勸阻老佛爺,認(rèn)為穆帥已經(jīng)過時(shí)

      隊(duì)報(bào):皇馬許多官員曾竭盡全力勸阻老佛爺,認(rèn)為穆帥已經(jīng)過時(shí)

      懂球帝
      2026-05-19 17:16:34
      配角的實(shí)力有多強(qiáng)?當(dāng)志愿軍浴血奮戰(zhàn)時(shí),朝鮮人民軍在干什么?

      配角的實(shí)力有多強(qiáng)?當(dāng)志愿軍浴血奮戰(zhàn)時(shí),朝鮮人民軍在干什么?

      混沌錄
      2026-05-19 20:17:54
      合資團(tuán)滅!4月車市銷量前五驚變,小米把誰擠下去了?

      合資團(tuán)滅!4月車市銷量前五驚變,小米把誰擠下去了?

      凡兮說
      2026-05-17 14:01:36
      華爾街看空金價(jià),這一價(jià)位很關(guān)鍵

      華爾街看空金價(jià),這一價(jià)位很關(guān)鍵

      新浪財(cái)經(jīng)
      2026-05-19 18:36:11
      CBA最新消息!廣東宏遠(yuǎn)更換教練,于德豪離開山東男籃

      CBA最新消息!廣東宏遠(yuǎn)更換教練,于德豪離開山東男籃

      呀古銅
      2026-05-20 10:28:19
      私生活被扒底朝天僅半月,官媒出手,竇靖童迎好消息,王菲沒說錯(cuò)

      私生活被扒底朝天僅半月,官媒出手,竇靖童迎好消息,王菲沒說錯(cuò)

      春日筆記
      2026-05-20 09:23:28
      中方果斷不救日元,日本國債遭瘋拋,高市沒想到,更慘的還在后頭

      中方果斷不救日元,日本國債遭瘋拋,高市沒想到,更慘的還在后頭

      凡知
      2026-05-20 11:24:01
      湖北女老板發(fā)現(xiàn)男員工酷似亡夫,直到見到員工父母,她愣在當(dāng)場

      湖北女老板發(fā)現(xiàn)男員工酷似亡夫,直到見到員工父母,她愣在當(dāng)場

      紅豆講堂
      2025-05-06 10:34:03
      美國計(jì)劃對(duì)電動(dòng)汽車征收道路養(yǎng)護(hù)費(fèi) 每年130美元

      美國計(jì)劃對(duì)電動(dòng)汽車征收道路養(yǎng)護(hù)費(fèi) 每年130美元

      CNMO科技
      2026-05-19 14:58:12
      鄭強(qiáng)翻車:鋼絲上走11年,終于掉下來了

      鄭強(qiáng)翻車:鋼絲上走11年,終于掉下來了

      霹靂炮
      2026-05-19 23:01:58
      2026-05-20 12:19:00
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      13039文章數(shù) 142651關(guān)注度
      往期回顧 全部

      科技要聞

      一文看懂谷歌I/O2026:谷歌打響智能體大戰(zhàn)

      頭條要聞

      洪水最高沒過2樓樓頂 女子紅了眼眶:家里東西全沒了

      頭條要聞

      洪水最高沒過2樓樓頂 女子紅了眼眶:家里東西全沒了

      體育要聞

      文班亞馬:沒拿到MVP,就證明自己是MVP

      娛樂要聞

      舒淇大方承認(rèn):卸了妝就是50 歲的模樣

      財(cái)經(jīng)要聞

      白酒榜|汾酒營收凈利雙增 口子窖"造富"

      汽車要聞

      煥新極氪009上市41.38萬起 齊家版讓MPV回歸家庭

      態(tài)度原創(chuàng)

      教育
      健康
      家居
      公開課
      軍事航空

      教育要聞

      特朗普會(huì)改變美國留學(xué)政策嗎?英國兩名校合并說明了什么?

      藥監(jiān)局為何沒批抗衰老干細(xì)胞產(chǎn)品?

      家居要聞

      日常印記 靜謐溫馨

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      特朗普暫緩打擊伊朗 稱系應(yīng)中東三國請(qǐng)求

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 欧美伊人久久大香线蕉综合| 国产ts在线视频专区| 噜噜爱蜜芽色爱爱| 最近中文字幕av在线| 色狠狠一区二区三区香蕉| 亚洲少妇人妻无码视频| 在线观看网站国产| 无码内射中文字幕岛国片| 中文字幕日韩国产精品| 免费毛片在线观看av| 日产精品中文一区二区三区| 99国产精品丝袜久久久久| 欧美吹潮视频| 国产免费无码一区二区三区| 国产毛多水多高潮高清 | 亚洲精品国产精品国在线| 印度AV免费观看| 国产精品17p| 福利网站导航| 一区二区三区精品视频日本| 亚洲尤码不卡av麻豆| 国产v自拍| 丰满多毛的大隂户视频| 在线观看成人av天堂不卡| 亚太无码| 国内精品极品久久免费看| 丁香五月婷激情综合第九色| 国产成人精品视频一区二区三| 你懂的视频在线一区二区| 亚洲日本午夜| 亚洲国产综合91麻豆| 久久无码国产日本欧美| 国产午夜福利久久精品| 一区二区亚洲精品国产精| 精品制服丝袜亚洲专区| 国产午夜福利视频在线观看| 国产凸凹视频一区二区| 亚洲国产精品嫩草影院| 国产精品电影久久久久电影网| 2020久久国产综合精品swag| 中文字幕AV伊人AV无码AV狼人|