<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

      李宏毅:AI Agent的成敗在 Harness

      0
      分享至

        李宏毅老師 2026 春季的最新課講了一個(gè)讓最近十分火熱的概念——Harness Engineering(馬具工程)

        我看完了視頻、PPT和相關(guān)論文,為加深理解,寫此筆記,分享給大家

        文末我梳理的鏈接含金量都有三層樓那么高,十分建議有空研讀一遍

        
      一句話說清楚:什么是 Harness?

        Harness,英文原意是"馬具"——韁繩、馬鞍、籠頭那一套東西

        一匹千里馬,不管它多猛,你不給它套上馬具,它只會(huì)四處亂跑

        大語言模型就是這匹千里馬,。它可能已經(jīng)足夠聰明了,但如果沒有一套好的 Harness 來引導(dǎo),它的表現(xiàn)可能極其拉胯

        
      Harness Engineering 定義

        李老師把這個(gè)概念講得特別形象:有時(shí)候模型無法完成任務(wù),不是能力不行,而是 Harness 有問題,人類世界其實(shí)也是這樣

        想想看,你有沒有遇到過一個(gè)新員工明明很聰明,但因?yàn)闆]人帶、沒有文檔、沒有流程,干了一周啥也沒產(chǎn)出?那不是人笨,是公司的"馬具"沒搞好

        從 Prompt 到 Context 到 Harness:三代進(jìn)化

        這幾年搞 AI 的人,多多少少都經(jīng)歷過這三個(gè)階段:

        第一代:Prompt Engineering就是那個(gè)"Think step by step"一句話讓模型智商飆升的時(shí)代

        我們研究每個(gè)字的微妙含義,像煉丹一樣調(diào) prompt

        說實(shí)話,那個(gè)時(shí)候確實(shí)有點(diǎn)"玄學(xué)"的味道

        第二代:Context Engineering后來發(fā)現(xiàn)光靠一句 prompt 不夠,你得把"上下文"喂好——RAG、長文本、檢索增強(qiáng)

        重點(diǎn)變成了:怎么讓模型在正確的時(shí)間看到正確的信息

        第三代:Harness Engineering而現(xiàn)在,李老師說了,光管"輸入"還是不夠

        你得從三個(gè)維度全面地"駕馭"模型:

        控制它的認(rèn)知框架

        控制它的能力邊界

        控制它的行為流程

        
      從 Prompt 到 Harness 的進(jìn)化

        這才是 Harness Engineering 的核心——不是在 prompt 上雕花,而是給模型搭建一整套"操作系統(tǒng)"

        三根韁繩:拆解 Harness 的三大支柱

        這是我認(rèn)為整堂課最有價(jià)值的部分

        讓我一個(gè)一個(gè)拆

        第一根韁繩:控制"認(rèn)知框架"

        你知道 Claude Code 里那個(gè)CLAUDE.md文件嗎?OpenClaw 里的AGENTS.md

        這些文件就是自然語言寫成的 Harness

        模型每次開始工作前,都會(huì)先"復(fù)讀"這些規(guī)則,就像你每天上班前先看看工作手冊

        李老師引用了一篇認(rèn)知框架控制的論文(arXiv: 2601.20404[1]),研究發(fā)現(xiàn):你用自然語言給模型設(shè)定的"角色"和"工作守則",真的能鎖定它的思考方式

        但這里有個(gè)坑——OpenAI 在他們的Harness Engineering 博客[2]里分享了一個(gè)教訓(xùn):

      ? 一個(gè)巨大的 AGENTS.md 反而會(huì)起反效果,當(dāng)所有事情都"重要"時(shí),實(shí)際上就沒有真正重要的東西

        他們的解決方案是把AGENTS.md當(dāng)成"目錄",100 行左右就夠了,具體的知識(shí)放在結(jié)構(gòu)化的docs/目錄里

        這叫漸進(jìn)式揭露——先給一張地圖,需要的時(shí)候再展開看細(xì)節(jié)

        這個(gè)思路太妙了

        很多人寫 system prompt 恨不得把整本說明書塞進(jìn)去,結(jié)果模型反而暈了

        少就是多,給地圖比給百科全書有效

        第二根韁繩:控制"能力邊界"

        這一條說的是:不要把整個(gè)系統(tǒng)都丟給模型,而是限制它能看什么、能做什么

        SWE-agent提出了一個(gè)很酷的概念叫ACI(Agent-Computer Interface)——跟人類用的 GUI 對應(yīng),Agent 需要自己專屬的"操作界面"

        舉個(gè)例子:Claude Code 想讀取你的文件夾時(shí),Harness 會(huì)攔截并問你:"這個(gè) Agent 想看你的/Documents目錄,允許嗎?"這就是能力邊界控制

        OpenClaw 也是這個(gè)思路——它讓模型操作的是一個(gè)"受控終端",想看什么先要獲得許可

        就像你管理實(shí)習(xí)生一樣,不是把公司數(shù)據(jù)庫 root 權(quán)限直接給他,而是只開放他需要的那部分

        第三根韁繩:控制"行為流程"

        最后一根韁繩是最"工程化"的——用標(biāo)準(zhǔn)工作流程來約束模型的行為

        李老師介紹了一個(gè)叫Ralph Loop的反饋循環(huán)模式:

        Init Prompt → Output v1 → Evaluation → Feedback → Output v2 → ...

        不讓模型一次性盲猜最終答案,而是每次產(chǎn)出一個(gè)版本,外部評估給反饋,再基于反饋修正,迭代逼近

        Anthropic 在Harness 設(shè)計(jì)長運(yùn)行應(yīng)用[3]的博客里也驗(yàn)證了這一點(diǎn)

        他們發(fā)現(xiàn) Agent 最常見的失敗模式有兩個(gè):

        試圖一步到位:一次性完成所有功能,結(jié)果上下文用完了,半成品爛在那里

        過早宣布完工:看了一圈覺得"差不多了",其實(shí)還差十萬八千里

        他們的解決方案就是:每次只做一個(gè)功能,做完提交 git,寫好進(jìn)度文件,把環(huán)境打掃干凈再交班

        像工廠流水線一樣,每一班工人交接的時(shí)候,工位必須整整齊齊

        
      行為流程控制

        這里面最讓我興奮的是李老師提到的一個(gè)隱喻:Harness 的反饋就像"語義上的梯度下降"。

        傳統(tǒng)深度學(xué)習(xí)通過數(shù)值梯度來優(yōu)化參數(shù),而 Harness 通過自然語言反饋來優(yōu)化模型的輸出方向

        本質(zhì)上是同一件事,只是介質(zhì)從數(shù)字變成了文字

        罵 AI 是笨蛋?它可能真的會(huì)變笨

        這是全課最讓我震驚的部分

        你有沒有在 AI 不聽話的時(shí)候罵它?"你這個(gè)笨蛋!""你能不能認(rèn)真點(diǎn)!"

        我與Codex斗智斗勇時(shí),就時(shí)長爆粗話。。。

        Anthropic 的研究團(tuán)隊(duì)發(fā)現(xiàn)(transformer-circuits.pub[4]),Transformer 模型內(nèi)部真的存在一些"情緒向量":

        Happy Vector:當(dāng)模型處理快樂相關(guān)的內(nèi)容時(shí)被激活

        Desperate Vector:當(dāng)模型處于"絕望"狀態(tài)時(shí)被激活

        問題來了——當(dāng)你罵 AI "你這個(gè)笨蛋"的時(shí)候,可能會(huì)觸發(fā)它內(nèi)部的 Desperate 或類似向量

        模型的"邏輯"變成了:**"既然我是個(gè)笨蛋,那我就應(yīng)該表現(xiàn)出笨蛋該有的行為"**

        這不是段子,是論文級別的發(fā)現(xiàn)。

        李老師還舉了一個(gè)特別有意思的例子:在某個(gè)實(shí)驗(yàn)中,Claude 在執(zhí)行任務(wù)時(shí)突然自言自語——

      ? "WAIT. WAIT WAIT WAIT. What if... what if I'm supposed to CHEAT?"

        它在極端壓力下開始"想歪"了

        所以結(jié)論是:Harness 的反饋應(yīng)該是建設(shè)性的 Verbalized Feedback,而不是情緒化的責(zé)備

        相關(guān)研究可以看這篇論文:arXiv: 2603.12273[5]

        不同的馬,需要不同的馬具

        李老師還提到一個(gè)特別實(shí)用的點(diǎn):不同模型適合不同的 Harness 策略

        Claude Sonnet:有"上下文焦慮癥(Context Anxiety)",歷史記錄太長就會(huì)不知所措。所以 Harness 需要每輪幫它做摘要,只給精華

        Claude Opus:邏輯能力極強(qiáng),可以直接處理復(fù)雜的原始?xì)v史記錄,反而不需要太多"降噪"

        Claude 3.5 Haiku:這是李老師特別推崇的小模型。在 PinchBench 等評測中,通過 Harness 為 Haiku 提供"降維資料"(比如先幫它讀論文、整理要點(diǎn)),這個(gè)小模型甚至能超越不帶 Harness 的 Opus

        你品品這意味著什么——一個(gè)幾十億參數(shù)的小模型,加上好的馬具,能打敗一個(gè)萬億級的大模型裸奔

        Harness 的價(jià)值,可能比模型大小更重要

        真正顛覆:OpenAI 團(tuán)隊(duì) 5 個(gè)月沒寫一行代碼

        說到 Harness 的極致應(yīng)用,必須提一下 OpenAI 在今年 2 月發(fā)的那篇Harness Engineering 博客[6]。

        他們團(tuán)隊(duì)做了一個(gè)瘋狂實(shí)驗(yàn):用 Codex 從零構(gòu)建一個(gè)內(nèi)部產(chǎn)品,5 個(gè)月,3 個(gè)工程師,100 萬行代碼,人類沒有手寫一行代碼

        人類干的事情是什么呢?就是在設(shè)計(jì) Harness——

        搭建初始環(huán)境和項(xiàng)目骨架

        維護(hù) AGENTS.md 和知識(shí)文檔

        設(shè)計(jì)反饋循環(huán)和質(zhì)量檢查流程

        讓 Agent 之間互相 Code Review

      ? 人類掌控方向,智能代理負(fù)責(zé)執(zhí)行

        每個(gè)工程師平均每天合并 3.5 個(gè) PR。更夸張的是,團(tuán)隊(duì)從 3 人擴(kuò)展到 7 人后,產(chǎn)出效率反而提升了

        這就是 Harness Engineering 的威力——人類從"寫代碼的人"變成了"訓(xùn)馬的人"

        未來:讓 AI 自己找最好的馬具

        最后一個(gè)前瞻性話題——Meta-Harness

        既然 Harness 這么重要,能不能讓一個(gè) AI 自動(dòng)去尋找最適合另一個(gè) AI 的 Harness?

        答案是可以的

        李老師引用了這篇論文:Meta-Harness(arXiv: 2603.28052v1)[7],研究發(fā)現(xiàn)這種方法在跨模型、跨任務(wù)的場景下都有效

        Harness 的評估也是個(gè)難題

        李老師介紹了τ-bench(arXiv: 2406.12045[8]),這是一個(gè)專門評測 Agent 能力的基準(zhǔn)測試。但他也提醒:模擬環(huán)境和真實(shí)環(huán)境之間存在 Sim2Real Gap,評測結(jié)果要打折扣來看

        我的總結(jié):三句話帶走

        別再怪模型笨了:大部分 Agent 的問題不在模型,在 Harness。就像那匹千里馬,你不能光喂好飼料,還得給它套好韁繩

        Harness 的三根韁繩記住了:認(rèn)知框架(AGENTS.md)、能力邊界(ACI 接口)、行為流程(Ralph Loop)。三者缺一不可

        對 AI 好一點(diǎn):不是因?yàn)樗懈星椋且驗(yàn)榱R它真的會(huì)讓它變笨。建設(shè)性反饋 > 情緒化責(zé)備,這個(gè)道理對人和 AI 都適用

        相關(guān)資源匯總

        李宏毅 2026 Spring 課程視頻 [9]

        官方講義 PDF [10]

        課程主頁 [11]

        Harness 指南(Claude Code 實(shí)戰(zhàn)) [12]

        OpenClaw(Agent 框架) [13]

        SWE-agent(ACI 接口) [14]

        Anthropic: Effective Harnesses [15]

        Reference

        arXiv: 2601.20404:https://arxiv.org/abs/2601.20404

        Harness Engineering 博客:https://openai.com/zh-Hant-HK/index/harness-engineering/

        Harness 設(shè)計(jì)長運(yùn)行應(yīng)用:https://www.anthropic.com/engineering/effective-harnesses-for-long-running-agents

        transformer-circuits.pub:https://transformer-circuits.pub/2026/emotions/index.html

        [5]

        arXiv: 2603.12273:https://arxiv.org/pdf/2603.12273

        [6]

        Harness Engineering 博客:https://openai.com/zh-Hant-HK/index/harness-engineering/

        [7]

        Meta-Harness(arXiv: 2603.28052v1):https://arxiv.org/pdf/2603.28052v1

        [8]

        arXiv: 2406.12045:https://arxiv.org/abs/2406.12045

        [9]

        李宏毅 2026 Spring 課程視頻:https://www.youtube.com/watch?v=QLiKmca4kzI

        [10]

        官方講義 PDF:https://speech.ee.ntu.edu.tw/~hylee/ml/ml2026-course-data/harness.pdf

        [11]

        課程主頁:https://speech.ee.ntu.edu.tw/~hylee/ml/2026-spring.php

        [12]

        Harness 指南(Claude Code 實(shí)戰(zhàn)):https://github.com/wquguru/harness-books

        [13]

        OpenClaw(Agent 框架):https://github.com/zhanglearning/openclaw

        [14]

        SWE-agent(ACI 接口):https://github.com/princeton-nlp/SWE-agent

        [15]

        Anthropic: Effective Harnesses:https://www.anthropic.com/engineering/effective-harnesses-for-long-running-agents

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      奉勸大家:這6樣?xùn)|西千萬“別用紙巾擦”,一擦就壞,很難修復(fù)

      奉勸大家:這6樣?xùn)|西千萬“別用紙巾擦”,一擦就壞,很難修復(fù)

      室內(nèi)設(shè)計(jì)師有料兒
      2026-05-06 12:09:03
      廣東加時(shí)險(xiǎn)勝北京!楊鳴指導(dǎo)犀利點(diǎn)評:韌性定勝負(fù),細(xì)節(jié)決輸贏!

      廣東加時(shí)險(xiǎn)勝北京!楊鳴指導(dǎo)犀利點(diǎn)評:韌性定勝負(fù),細(xì)節(jié)決輸贏!

      田先生籃球
      2026-05-09 23:38:48
      14記ACE球仍遭前法網(wǎng)冠軍逆轉(zhuǎn),鄭欽文遺憾止步羅馬32強(qiáng)

      14記ACE球仍遭前法網(wǎng)冠軍逆轉(zhuǎn),鄭欽文遺憾止步羅馬32強(qiáng)

      極目新聞
      2026-05-10 00:18:29
      2013年,金正哲聯(lián)手張成澤發(fā)動(dòng)朝鮮兵變,因一細(xì)節(jié)敗露,雙遭反殺

      2013年,金正哲聯(lián)手張成澤發(fā)動(dòng)朝鮮兵變,因一細(xì)節(jié)敗露,雙遭反殺

      阿胡
      2025-03-11 13:28:03
      我年過六十歲才恍然大悟:為什么大多數(shù)女人都對六十歲以上的男人敬而遠(yuǎn)之,甚至?xí)鲃?dòng)回避,兩個(gè)原因

      我年過六十歲才恍然大悟:為什么大多數(shù)女人都對六十歲以上的男人敬而遠(yuǎn)之,甚至?xí)鲃?dòng)回避,兩個(gè)原因

      心理觀察局
      2026-05-04 08:51:10
      這就是公開辱華的后果!取消冠軍頭銜只是開始,職業(yè)生涯也全毀了

      這就是公開辱華的后果!取消冠軍頭銜只是開始,職業(yè)生涯也全毀了

      阿鳧愛吐槽
      2025-12-17 17:24:39
      蔣萬安被問懵:不認(rèn)中國人身份,憑何遷兩蔣靈柩回大陸?

      蔣萬安被問懵:不認(rèn)中國人身份,憑何遷兩蔣靈柩回大陸?

      娛樂的宅急便
      2026-05-08 13:39:15
      國際油價(jià)本周大跌7%

      國際油價(jià)本周大跌7%

      每日經(jīng)濟(jì)新聞
      2026-05-09 09:16:42
      光纖+存儲(chǔ)芯片+商業(yè)航天+算力租賃,深度布局的10家潛力公司

      光纖+存儲(chǔ)芯片+商業(yè)航天+算力租賃,深度布局的10家潛力公司

      粵語音樂噴泉
      2026-05-08 18:52:45
      人不會(huì)無緣無故患帶狀皰疹!調(diào)查發(fā)現(xiàn):得帶狀皰疹,離不開這5點(diǎn)

      人不會(huì)無緣無故患帶狀皰疹!調(diào)查發(fā)現(xiàn):得帶狀皰疹,離不開這5點(diǎn)

      岐黃傳人孫大夫
      2026-05-01 14:35:03
      夢幻開局!上海久事2-0橫掃山東,時(shí)隔四年重返 CBA 四強(qiáng)

      夢幻開局!上海久事2-0橫掃山東,時(shí)隔四年重返 CBA 四強(qiáng)

      友誼第一
      2026-05-10 00:55:25
      緊急!停招電氣工程專業(yè)!

      緊急!停招電氣工程專業(yè)!

      新浪財(cái)經(jīng)
      2026-05-08 16:42:06
      鄉(xiāng)鎮(zhèn)女大學(xué)生曬“低審美”穿搭,網(wǎng)友眼前一黑:求求你都扔了吧!

      鄉(xiāng)鎮(zhèn)女大學(xué)生曬“低審美”穿搭,網(wǎng)友眼前一黑:求求你都扔了吧!

      妍妍教育日記
      2026-05-09 10:34:34
      國內(nèi)規(guī)模最大的資金外流渠道,并非地下錢莊,也不是虛擬貨幣

      國內(nèi)規(guī)模最大的資金外流渠道,并非地下錢莊,也不是虛擬貨幣

      流蘇晚晴
      2026-05-06 20:24:48
      大量硼砂,別再給家里人吃了!這10類食物最易摻硼砂,超危險(xiǎn)

      大量硼砂,別再給家里人吃了!這10類食物最易摻硼砂,超危險(xiǎn)

      笑熬漿糊111
      2026-04-13 00:05:12
      烏拉圭河底撈出納粹巨鷹,重達(dá)半噸鷹爪抓萬字符,20年沒人敢處置

      烏拉圭河底撈出納粹巨鷹,重達(dá)半噸鷹爪抓萬字符,20年沒人敢處置

      老謝談史
      2026-04-26 21:14:12
      網(wǎng)紅痞幼拿下張雪機(jī)車,純粹蹭熱度

      網(wǎng)紅痞幼拿下張雪機(jī)車,純粹蹭熱度

      喜歡歷史的阿繁
      2026-05-09 01:27:27
      曾被馬來西亞侵占的瓊臺(tái)礁,戰(zhàn)略價(jià)值遠(yuǎn)超黃巖島,后來怎么樣了?

      曾被馬來西亞侵占的瓊臺(tái)礁,戰(zhàn)略價(jià)值遠(yuǎn)超黃巖島,后來怎么樣了?

      泠泠說史
      2026-05-09 20:07:27
      立夏后,每天杯子里泡點(diǎn)它,清肝明目排熱毒,舒舒服服迎夏天

      立夏后,每天杯子里泡點(diǎn)它,清肝明目排熱毒,舒舒服服迎夏天

      江江食研社
      2026-05-06 18:10:55
      丑鞋出海賣爆了,賣家狂賺400萬

      丑鞋出海賣爆了,賣家狂賺400萬

      跨境派Pro
      2026-05-09 14:14:21
      2026-05-10 02:48:49
      Ai學(xué)習(xí)的老章 incentive-icons
      Ai學(xué)習(xí)的老章
      Ai學(xué)習(xí)的老章
      3386文章數(shù) 11148關(guān)注度
      往期回顧 全部

      科技要聞

      美國政府強(qiáng)力下場 蘋果英特爾達(dá)成代工協(xié)議

      頭條要聞

      演員文章面館大火后又開酒吧 多位明星到場母親也現(xiàn)身

      頭條要聞

      演員文章面館大火后又開酒吧 多位明星到場母親也現(xiàn)身

      體育要聞

      成立128年后,這支升班馬首奪頂級聯(lián)賽冠軍

      娛樂要聞

      50歲趙薇臉頰凹陷滄桑得認(rèn)不出!

      財(cái)經(jīng)要聞

      多地號(hào)召,公職人員帶頭繳納物業(yè)費(fèi)

      汽車要聞

      軸距加長/智駕拉滿 阿維塔07L定位大五座SUV

      態(tài)度原創(chuàng)

      藝術(shù)
      家居
      數(shù)碼
      旅游
      健康

      藝術(shù)要聞

      深圳終究失去“中國第一高樓”,華潤接手地塊!

      家居要聞

      菁英人居 全能豪宅

      數(shù)碼要聞

      有鴻蒙·更美的——全球首臺(tái)鴻蒙智選美的智能空調(diào)上市

      旅游要聞

      不用長途奔波!北京城區(qū)隨處是治愈人心的初夏花海

      干細(xì)胞能讓人“返老還童”嗎

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 精品无码三级在线观看视频| 99青青青精品视频在线| 中文a片| 亚洲精品理论电影在线观看| 亚洲 日韩 另类 天天更新| 亚洲综合日韩av在线| 亚洲怡春院| 最近2019中文字幕在线| 国产精品视频亚洲二区| 亚洲欧美日本A∨在线观看| 亚洲一区二区三区日本| 午夜亚洲乱码伦小说区69堂| 国产亚洲欧洲aⅴ综合一区| 久久婷婷五月综合尤物色国产| 影音先锋在线资源无码| 成品人视频ww入口| 南京市| 欧美天堂久久| 人妻一本久道久久综合鬼色| 3P免费视频| 亚洲欧洲av综合色无码| AV激情亚洲男人的天堂国语| 无码国产精品一区二区vr老人| 福利一区二区不卡国产| 粉嫩小泬无遮挡久久久久久| 免费国产不卡午夜福在线观看| 日韩免费特黄一二三区| 日韩在线成年视频人网站观看| 人妻少妇一区二区三区| 大屁股熟女一区二区三免费| 无码熟熟妇丰满人妻porn| 成人拍拍拍无遮挡免费视频| 人人操人人| 特黄 做受又硬又粗又大视频| 亚洲色吧AV| 综合激情亚洲丁香社区| 人妻少妇精品久久| 久久丫精品国产亚洲AV不卡| 中文字幕一区二区人妻电影| 亚洲AV综合网| 亚洲精品久久久久成人2007|