<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      AI成功率從20%飆到100%!只需一個(gè)Harness文件

      0
      分享至


      新智元報(bào)道


      【新智元導(dǎo)讀】Anthropic實(shí)錘:Claude裸跑模型,9美元全廢;但是套上Harness花200美元效果直接起飛。AI效果不好?別再糾結(jié)換模型了!OpenAI和Anthropic都在用的Harness工程,一文講透。

      最近,AI圈子里一個(gè)逃不開的話題就是Harness

      甚至,連DeepSeek最近也在開始招聘Harness工程師。


      那么,到底什么是Harness?


      Harness,圍繞AI編程智能體搭建的一整套工程基礎(chǔ)設(shè)施,由五個(gè)子系統(tǒng)組成:指令、工具、環(huán)境、狀態(tài)、反饋。


      為什么值得專門講它?

      因?yàn)?026年前后,Anthropic和OpenAI幾乎同時(shí)在各自的工程實(shí)驗(yàn)里給出了同一個(gè)結(jié)論——AI編程智能體頻頻失敗,問題不在模型,在模型之外的Harness

      兩家分別用一組對(duì)照實(shí)驗(yàn)當(dāng)證據(jù)。先看數(shù)據(jù)。

      兩組數(shù)據(jù)對(duì)照

      Anthropic對(duì)照實(shí)驗(yàn)——同一個(gè)Opus 4.5模型,同一道編程題:

      多花的191美元,全花在驗(yàn)證循環(huán)上——每寫一段代碼就跑測(cè)試,不通過就改,直到真正通過。


      OpenAI百萬行實(shí)驗(yàn),Codex團(tuán)隊(duì)在真實(shí)倉(cāng)庫(kù)上驗(yàn)證:

      實(shí)驗(yàn)只改了一件事——倉(cāng)庫(kù)根目錄加了一個(gè)AGENTS.md文件,不到100行markdown。


      Harness是什么

      Harness不是工具,也不是提示詞技巧,是圍繞智能體的一整套工程基礎(chǔ)設(shè)施,由五個(gè)子系統(tǒng)組成,每一個(gè)對(duì)應(yīng)一種具體失敗模式。


      指令子系統(tǒng)(Instructions)

      倉(cāng)庫(kù)根目錄的一個(gè)markdown文件——OpenAI陣營(yíng)叫AGENTS.md,Anthropic陣營(yíng)叫CLAUDE.md。

      Codex、Claude Code、Cursor啟動(dòng)時(shí)自動(dòng)讀取并注入「系統(tǒng)提示詞」。

      解決:智能體不知道項(xiàng)目約定,瞎寫代碼(風(fēng)格不一致、用錯(cuò)包管理器、隨手執(zhí)行破壞性命令)。


      不到15行,把項(xiàng)目約定從反復(fù)重申變成啟動(dòng)時(shí)自動(dòng)注入。

      工具子系統(tǒng)(Tools)

      限定智能體能調(diào)用哪些命令。

      Claude Code用.claude/settings.json,Codex用~/.codex/config.toml。

      解決:越權(quán)操作(rm-rf誤刪、gitpush--force覆蓋遠(yuǎn)端、不該聯(lián)網(wǎng)時(shí)調(diào)外部API)。


      允許的直接跑,禁止的直接拒,灰色地帶的彈確認(rèn)。

      環(huán)境子系統(tǒng)(Environment)

      鎖定依賴版本、運(yùn)行時(shí)配置、數(shù)據(jù)庫(kù)狀態(tài)。

      實(shí)現(xiàn):setup.sh/Dockerfile/devcontainer.json。

      解決:這臺(tái)機(jī)器上能跑的虛假環(huán)境(本地通過,CI一跑就廢)。


      關(guān)鍵一行--frozen-lockfile——智能體無法擅自升級(jí)任何依賴。

      狀態(tài)子系統(tǒng)(State)

      把跨會(huì)話進(jìn)度、斷點(diǎn)、未完成任務(wù)持久化到PROGRESS.md,新會(huì)話第一件事讀它。

      解決:跨會(huì)話失憶(第二個(gè)會(huì)話從零開始,寫出和第一個(gè)會(huì)話沖突的代碼)。


      在AGENTS.md固化約定:新會(huì)話第一件事讀PROGRESS.md;任務(wù)完成或斷點(diǎn)變化,立即回寫

      反饋?zhàn)酉到y(tǒng)(Feedback)

      機(jī)器可執(zhí)行的驗(yàn)證命令——測(cè)試、lint、類型檢查、構(gòu)建。

      智能體宣布完成前必須跑通,退出碼不為0就不算完成。

      解決:過早宣布勝利(說Done!但一行跑不通)——Anthropic 9美元裸跑實(shí)驗(yàn)的核心死因。


      三大致命失敗模式

      Anthropic和OpenAI的實(shí)驗(yàn),不約而同指向了智能體最常見的三種致命失敗模式。


      過早宣布勝利

      場(chǎng)景:智能體寫完500行功能,輸出已完成。合并代碼——CI紅屏,type check報(bào)12個(gè)錯(cuò),單測(cè)一個(gè)沒跑過。

      根因:沒有強(qiáng)制反饋循環(huán)。判定來自自我感覺,不來自機(jī)器可驗(yàn)證的事實(shí)。

      解法:反饋?zhàn)酉到y(tǒng)。把判定權(quán)移交給退出碼——退出碼≠0,任務(wù)≠完成。

      上下文焦慮(ContextAnxiety)

      場(chǎng)景:長(zhǎng)任務(wù)做到70%,上下文Token數(shù)快撐滿窗口。智能體開始趕進(jìn)度——跳過測(cè)試、刪邊界處理、寫stub收尾、宣布完成。

      根因:沒有斷點(diǎn)續(xù)傳。感知到上下文壓力時(shí),智能體會(huì)試圖在這個(gè)會(huì)話內(nèi)做完所有事,哪怕代價(jià)是質(zhì)量崩塌。

      解法:狀態(tài)子系統(tǒng)+主動(dòng)重啟。每完成一個(gè)子任務(wù)立即回寫PROGRESS.md;上下文Token用量超70%,主動(dòng)停下、寫完斷點(diǎn)、開新會(huì)話。

      跨會(huì)話失憶(Cross-SessionAmnesia)

      場(chǎng)景:第一個(gè)會(huì)話寫了用戶模塊,第二個(gè)會(huì)話寫訂單模塊——智能體不知道用戶模塊已存在,又寫了一遍getUserById,跟前一版接口簽名沖突。

      根因:沒有持久化狀態(tài)+沒有首讀約定。

      解法:狀態(tài)子系統(tǒng)+指令子系統(tǒng)組合。PROGRESS.md維護(hù)已完成功能清單;AGENTS.md寫明開會(huì)話第一件事讀PROGRESS.md;沖突時(shí)以代碼為準(zhǔn)——倉(cāng)庫(kù)本身是唯一事實(shí)來源。

      五步從零搭一個(gè)Harness

      搭建一個(gè)Harness,并不難。

      下面五步用文本編輯器即可完成,加起來不超過200行配置。


      第1步·根目錄建AGENTS.md

      touch AGENTS.md。至少三塊:項(xiàng)目說明、禁止操作、完成定義。

      第2步·配permissions

      .claude/settings.json或~/.codex/config.toml。最小兩條:

      第3步·寫setup.sh鎖環(huán)境

      已有Dockerfile/devcontainer.json可跳過。

      否則寫一個(gè)setup.sh,把所有版本寫死。最關(guān)鍵一行:pnpminstall--frozen-lockfile。

      第4步·建PROGRESS.md

      touchPROGRESS.md,四塊:已完成、進(jìn)行中、待辦、已知問題。提交進(jìn)git,當(dāng)成項(xiàng)目自身的一部分維護(hù)。

      第5步·在AGENTS.md末尾固化完成定義

      寫明pnpm type check/test/lint/build四個(gè)命令,退出碼不為0就不算完成。如果項(xiàng)目還沒有這些命令,今天就配上。

      沒有反饋循環(huán),Harness等于沒裝——這是Anthropic 9美元實(shí)驗(yàn)的核心教訓(xùn):前四步全做對(duì),第五步缺位,依然全廢。

      兩家殊途同歸

      過去一年所有人都在追下一個(gè)更強(qiáng)的模型。

      2026年,Anthropic和OpenAI用兩組不同的實(shí)驗(yàn)給出了同一個(gè)答案——別先換模型,先把Harness裝好

      模型能力決定上限,Harness決定你能用到上限的幾成。

      沒有Harness,Opus 4.5跑出的代碼連編譯都過不去;有了Harness,小一檔的模型也能穩(wěn)定交付。

      下一個(gè)更強(qiáng)的模型當(dāng)然會(huì)再抬一截上限。但今天連Harness都沒裝,下一個(gè)模型來了,成功率依然停在20%。

      與其等下一個(gè)模型,現(xiàn)在就安裝Harness。

      參考資料:

      https://walkinglabs.github.io/learn-harness-engineering/en/

      編輯:大衛(wèi)

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      上海水果攤老板免費(fèi)送楊梅,一上午送出5000斤!“爛在樹上很可惜,都有檢測(cè)證書的”

      上海水果攤老板免費(fèi)送楊梅,一上午送出5000斤!“爛在樹上很可惜,都有檢測(cè)證書的”

      大風(fēng)新聞
      2026-05-24 11:19:04
      17分鐘連丟2球,申花不敵深圳遭六輪不勝

      17分鐘連丟2球,申花不敵深圳遭六輪不勝

      五星體育
      2026-05-24 22:07:03
      越南那邊,可能要出大事了

      越南那邊,可能要出大事了

      回京歷史夢(mèng)
      2026-05-23 16:35:45
      亨德森:安菲爾德球迷讓我起雞皮疙瘩,感謝薩拉赫做的一切

      亨德森:安菲爾德球迷讓我起雞皮疙瘩,感謝薩拉赫做的一切

      懂球帝
      2026-05-25 01:58:31
      中央氣象臺(tái):江蘇、上海、浙江西部、安徽南部、湖北東部和南部等地出現(xiàn)較強(qiáng)雷達(dá)回波

      中央氣象臺(tái):江蘇、上海、浙江西部、安徽南部、湖北東部和南部等地出現(xiàn)較強(qiáng)雷達(dá)回波

      大風(fēng)新聞
      2026-05-24 10:26:30
      雅馬哈和杜卡迪掀桌子,聯(lián)合眾車隊(duì)向賽會(huì)施壓,這樣下去沒法玩了

      雅馬哈和杜卡迪掀桌子,聯(lián)合眾車隊(duì)向賽會(huì)施壓,這樣下去沒法玩了

      長(zhǎng)江濁酒客
      2026-05-24 15:43:38
      香港女航天員黎家盈還未出征先成照妖鏡,別有用心的人到底想干嘛

      香港女航天員黎家盈還未出征先成照妖鏡,別有用心的人到底想干嘛

      大魚簡(jiǎn)科
      2026-05-24 16:44:36
      兩日連墜毀兩架,還全是中國(guó)戰(zhàn)機(jī)!巴基斯坦一口咬定:非人為失誤

      兩日連墜毀兩架,還全是中國(guó)戰(zhàn)機(jī)!巴基斯坦一口咬定:非人為失誤

      凡知
      2026-05-23 17:47:32
      塵埃落定!決賽2-3輸球僅1天,日籍主帥下課懸念揭曉,董路怒批!

      塵埃落定!決賽2-3輸球僅1天,日籍主帥下課懸念揭曉,董路怒批!

      大秦壁虎白話體育
      2026-05-24 08:54:31
      山西礦難遇難者家屬講述:父親年過半百,我們心疼他,一直勸他別干了,他總說再干兩年,多攢攢錢

      山西礦難遇難者家屬講述:父親年過半百,我們心疼他,一直勸他別干了,他總說再干兩年,多攢攢錢

      大風(fēng)新聞
      2026-05-24 16:51:03
      人數(shù)都統(tǒng)計(jì)不清楚,還能指望他們什么?

      人數(shù)都統(tǒng)計(jì)不清楚,還能指望他們什么?

      歷史總在押韻
      2026-05-24 18:54:04
      央視三胎宣傳片惹爭(zhēng)議,脫離現(xiàn)實(shí)強(qiáng)行把孕婦塑造成超人式幸福?

      央視三胎宣傳片惹爭(zhēng)議,脫離現(xiàn)實(shí)強(qiáng)行把孕婦塑造成超人式幸福?

      番外行
      2026-05-24 09:14:38
      “榛樹”導(dǎo)彈打出去,俄羅斯更加沒牌了

      “榛樹”導(dǎo)彈打出去,俄羅斯更加沒牌了

      山河路口
      2026-05-24 19:54:50
      一定要多讀書,書讀的多了才會(huì)明白:“底層無貴人、底層無社交”

      一定要多讀書,書讀的多了才會(huì)明白:“底層無貴人、底層無社交”

      心理觀察局
      2026-05-24 06:57:19
      逼瘋了!湖州一商業(yè)廣場(chǎng)內(nèi),一名商戶情緒失控,當(dāng)眾怒砸自家店鋪

      逼瘋了!湖州一商業(yè)廣場(chǎng)內(nèi),一名商戶情緒失控,當(dāng)眾怒砸自家店鋪

      火山詩話
      2026-05-24 17:24:10
      不打了!西決報(bào)銷!雷霆傷病潮來了

      不打了!西決報(bào)銷!雷霆傷病潮來了

      籃球教學(xué)論壇
      2026-05-24 09:17:30
      范德芬:沒想到最后一場(chǎng)還要為保級(jí)而戰(zhàn),往后再也不能這樣了

      范德芬:沒想到最后一場(chǎng)還要為保級(jí)而戰(zhàn),往后再也不能這樣了

      懂球帝
      2026-05-25 02:09:59
      留神峪煤礦瓦斯爆炸事故82人遇難,山西博主感慨:礦難這件事,我已經(jīng)麻木了

      留神峪煤礦瓦斯爆炸事故82人遇難,山西博主感慨:礦難這件事,我已經(jīng)麻木了

      齊天候
      2026-05-24 22:33:34
      烏克蘭收復(fù)400平方公里領(lǐng)土,俄軍星鏈終端被定向斷網(wǎng),指揮系統(tǒng)癱瘓

      烏克蘭收復(fù)400平方公里領(lǐng)土,俄軍星鏈終端被定向斷網(wǎng),指揮系統(tǒng)癱瘓

      爆角追蹤
      2026-05-24 17:27:23
      致敬傳奇,曼城主場(chǎng)阿提哈德球場(chǎng)的瓜迪奧拉看臺(tái)今日將滿座開放

      致敬傳奇,曼城主場(chǎng)阿提哈德球場(chǎng)的瓜迪奧拉看臺(tái)今日將滿座開放

      懂球帝
      2026-05-24 22:06:20
      2026-05-25 02:16:49
      新智元 incentive-icons
      新智元
      AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
      15296文章數(shù) 66884關(guān)注度
      往期回顧 全部

      科技要聞

      我戴著攝像頭上班,正在幫AI搶走我飯碗

      頭條要聞

      山西礦難遇難者家屬:父親年過半百 我們一直勸他別干了

      頭條要聞

      山西礦難遇難者家屬:父親年過半百 我們一直勸他別干了

      體育要聞

      唐斯發(fā)牌,大頭逆襲:騎士跌向殘忍夏季

      娛樂要聞

      王鶴棣掉粉超20萬!代言和作品遭抵制

      財(cái)經(jīng)要聞

      什么情況下,本輪AI大行情會(huì)結(jié)束?

      汽車要聞

      國(guó)民家轎再上新 帝豪向上系列限時(shí)5.59萬起

      態(tài)度原創(chuàng)

      時(shí)尚
      數(shù)碼
      家居
      本地
      公開課

      《低智商犯罪》一半驚喜,一半可惜

      數(shù)碼要聞

      618游戲本怎么選?ROG魔霸新銳2026來襲,福利秒殺讓戰(zhàn)力飛

      家居要聞

      低調(diào)傳承 溫潤(rùn)沉靜

      本地新聞

      用云錦的方式,打開江蘇南京

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 色婷婷久久综合中文久久蜜桃av| 香蕉久久夜色精品国产尤物| 国产精品夜夜春夜夜爽久久| 久久人人爽人人人人爽av| 狼人久久尹人香蕉尹人 | 福利视频导航网| 人妻少妇精品无码专区二区| 亚洲欧洲日韩av综合| 色呦呦在线视频| 日本高清激情乱一区二区三区| 国产精品无码专区| 性福利导航| 免费女人高潮流视频在线| 亚洲av男人电影天堂热app| 午夜精品久久久久久久久久老司机| 91丨九色丨人妻丨白浆| 国产69精品久久久久久妇女迅雷| 久久综合精品成人一本| 婷婷久久香蕉五月综合加勒比| 无码中文人妻| 婷婷国产成人精品视频| 综合色区亚洲熟女妇p| 精品系列无码一区二区三区| 国产视频有码字幕一区二区| 国产精品久视频| 3751色视频| 国产精品久久久久久亚洲影视内衣 | 亚洲成在人线AⅤ中文字幕| 日韩av每日免费观看| 国产在线不卡精品网站| 国产成人不卡无码免费视频| 99red国产| www.色人妻.com| 亚洲精品人成网线在播放VA | 图片区 小说区 区 亚洲五月| 亚洲图片综合图区20p| 五月激情婷婷丁香综合基地| 亚洲中文字幕av| 国产又色又刺激高潮视频| 黄色三级片网站| 国产尤物在线播放|