<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>

<p id="tp1vn"></p>

<sub id="tp1vn"><p id="tp1vn"></p></sub>

<u id="tp1vn"><rp id="tp1vn"></rp></u>

<meter id="tp1vn"></meter>

<wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>

日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao

<tfoot id="ycpmq"><center id="ycpmq"></center></tfoot>

<del id="ycpmq"></del>

<output id="ycpmq"></output>

<wbr id="ycpmq"></wbr>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

AI成功率從20%飆到100%！只需一個Harness文件

2026-05-24 09:04:00　來源: 新智元

北京舉報

0

分享至

新智元報道

【新智元導讀】Anthropic實錘：Claude裸跑模型，9美元全廢；但是套上Harness花200美元效果直接起飛。AI效果不好？別再糾結換模型了！OpenAI和Anthropic都在用的Harness工程，一文講透。

最近，AI圈子里一個逃不開的話題就是Harness。

甚至，連DeepSeek最近也在開始招聘Harness工程師。

那么，到底什么是Harness？

Harness，圍繞AI編程智能體搭建的一整套工程基礎設施，由五個子系統組成：指令、工具、環境、狀態、反饋。

為什么值得專門講它？

因為2026年前后，Anthropic和OpenAI幾乎同時在各自的工程實驗里給出了同一個結論——AI編程智能體頻頻失敗，問題不在模型，在模型之外的Harness。

兩家分別用一組對照實驗當證據。先看數據。

兩組數據對照

Anthropic對照實驗——同一個Opus 4.5模型，同一道編程題：

多花的191美元，全花在驗證循環上——每寫一段代碼就跑測試，不通過就改，直到真正通過。

OpenAI百萬行實驗，Codex團隊在真實倉庫上驗證：

實驗只改了一件事——倉庫根目錄加了一個AGENTS.md文件，不到100行markdown。

Harness是什么

Harness不是工具，也不是提示詞技巧，是圍繞智能體的一整套工程基礎設施，由五個子系統組成，每一個對應一種具體失敗模式。

指令子系統（Instructions）

倉庫根目錄的一個markdown文件——OpenAI陣營叫AGENTS.md，Anthropic陣營叫CLAUDE.md。

Codex、Claude Code、Cursor啟動時自動讀取并注入「系統提示詞」。

解決：智能體不知道項目約定，瞎寫代碼（風格不一致、用錯包管理器、隨手執行破壞性命令）。

不到15行，把項目約定從反復重申變成啟動時自動注入。

工具子系統（Tools）

限定智能體能調用哪些命令。

Claude Code用.claude/settings.json，Codex用~/.codex/config.toml。

解決：越權操作（rm-rf誤刪、gitpush--force覆蓋遠端、不該聯網時調外部API）。

允許的直接跑，禁止的直接拒，灰色地帶的彈確認。

環境子系統（Environment）

鎖定依賴版本、運行時配置、數據庫狀態。

實現：setup.sh/Dockerfile/devcontainer.json。

解決：這臺機器上能跑的虛假環境（本地通過，CI一跑就廢）。

關鍵一行--frozen-lockfile——智能體無法擅自升級任何依賴。

狀態子系統（State）

把跨會話進度、斷點、未完成任務持久化到PROGRESS.md，新會話第一件事讀它。

解決：跨會話失憶（第二個會話從零開始，寫出和第一個會話沖突的代碼）。

在AGENTS.md固化約定：新會話第一件事讀PROGRESS.md；任務完成或斷點變化，立即回寫。

反饋子系統（Feedback）

機器可執行的驗證命令——測試、lint、類型檢查、構建。

智能體宣布完成前必須跑通，退出碼不為0就不算完成。

解決：過早宣布勝利（說Done!但一行跑不通）——Anthropic 9美元裸跑實驗的核心死因。

三大致命失敗模式

Anthropic和OpenAI的實驗，不約而同指向了智能體最常見的三種致命失敗模式。

過早宣布勝利

場景：智能體寫完500行功能，輸出已完成。合并代碼——CI紅屏，type check報12個錯，單測一個沒跑過。

根因：沒有強制反饋循環。判定來自自我感覺，不來自機器可驗證的事實。

解法：反饋子系統。把判定權移交給退出碼——退出碼≠0，任務≠完成。

上下文焦慮（ContextAnxiety）

場景：長任務做到70%，上下文Token數快撐滿窗口。智能體開始趕進度——跳過測試、刪邊界處理、寫stub收尾、宣布完成。

根因：沒有斷點續傳。感知到上下文壓力時，智能體會試圖在這個會話內做完所有事，哪怕代價是質量崩塌。

解法：狀態子系統+主動重啟。每完成一個子任務立即回寫PROGRESS.md；上下文Token用量超70%，主動停下、寫完斷點、開新會話。

跨會話失憶（Cross-SessionAmnesia）

場景：第一個會話寫了用戶模塊，第二個會話寫訂單模塊——智能體不知道用戶模塊已存在，又寫了一遍getUserById，跟前一版接口簽名沖突。

根因：沒有持久化狀態+沒有首讀約定。

解法：狀態子系統+指令子系統組合。PROGRESS.md維護已完成功能清單；AGENTS.md寫明開會話第一件事讀PROGRESS.md；沖突時以代碼為準——倉庫本身是唯一事實來源。

五步從零搭一個Harness

搭建一個Harness，并不難。

下面五步用文本編輯器即可完成，加起來不超過200行配置。

第1步·根目錄建AGENTS.md

touch AGENTS.md。至少三塊：項目說明、禁止操作、完成定義。

第2步·配permissions

.claude/settings.json或~/.codex/config.toml。最小兩條：

第3步·寫setup.sh鎖環境

已有Dockerfile/devcontainer.json可跳過。

否則寫一個setup.sh，把所有版本寫死。最關鍵一行：pnpminstall--frozen-lockfile。

第4步·建PROGRESS.md

touchPROGRESS.md，四塊：已完成、進行中、待辦、已知問題。提交進git，當成項目自身的一部分維護。

第5步·在AGENTS.md末尾固化完成定義

寫明pnpm type check/test/lint/build四個命令，退出碼不為0就不算完成。如果項目還沒有這些命令，今天就配上。

沒有反饋循環，Harness等于沒裝——這是Anthropic 9美元實驗的核心教訓：前四步全做對，第五步缺位，依然全廢。

兩家殊途同歸

過去一年所有人都在追下一個更強的模型。

2026年，Anthropic和OpenAI用兩組不同的實驗給出了同一個答案——別先換模型，先把Harness裝好。

模型能力決定上限，Harness決定你能用到上限的幾成。

沒有Harness，Opus 4.5跑出的代碼連編譯都過不去；有了Harness，小一檔的模型也能穩定交付。

下一個更強的模型當然會再抬一截上限。但今天連Harness都沒裝，下一個模型來了，成功率依然停在20%。

與其等下一個模型，現在就安裝Harness。

參考資料：

https://walkinglabs.github.io/learn-harness-engineering/en/

編輯：大衛

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

ICML 2026｜智能體的下半場：為什么「答對」已經不夠了？

機器之心Pro 2026-05-22 14:09:10
0 跟貼 0
當Token成為一種KPI

吳曉波頻道 2026-05-24 08:31:16
0 跟貼 0

AI四巨頭內部報告首度公開：AI正在學會撒謊求生

新智元 2026-05-24 09:03:44
0 跟貼 0

大模型最難的AI Infra，用Vibe Coding搞定

機器之心Pro 2026-01-07 15:33:06
0 跟貼 0
AlphaGo之父把AI扔進23年的人造社會：智能體3塊最硬骨頭全在這

新智元 2026-05-23 09:08:25
9 跟貼 9

剛賺了創紀錄的錢，轉頭就裁8000人，小扎要用AI重寫Meta

新智元 2026-05-23 13:15:23
0 跟貼 0

支持遠程操控和通用GUI操作3

機器之心Pro 2026-03-02 13:36:13
0 跟貼 0
大神程序員蒸餾自己，用16個skill給AI注入軟件工程之魂

量子位 2026-05-12 03:08:58
0 跟貼 0

百度不再戀戰大模型

虎嗅APP 2026-05-23 22:28:25
5 跟貼 5
騰訊會議這波 AI 功能，讓我徹底戒掉了整理焦慮

愛范兒 2026-04-02 19:57:25
0 跟貼 0
對談樓天城：Harness會成為AI時代最關鍵的能力之一

量子位 2026-05-06 15:41:08
0 跟貼 0
00后小哥復刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0
楊梅果農說泡藥翻不來本，楊梅果農說最吃虧的是種植戶，多的時候一個人賣五六百斤

瀟湘晨報 2026-05-23 17:43:12
1476 跟貼 1476
美國解封絕密 X-1127 文件，坐標直指南極地下 3 千米

富貴春天 2026-05-21 08:02:24
0 跟貼 0
AReaL v1.0開源，智能體強化學習「一鍵接入」

機器之心Pro 2026-03-05 14:46:18
0 跟貼 0
成為程序員的真相：沒人愿意說的那個硬門檻

野生運營 2026-05-24 02:45:10
0 跟貼 0
白紙模型助瓷磚嚴絲合縫

超市王小小 2026-05-21 21:35:19
4 跟貼 4
媒體：針對兩岸關系鄭麗文最新表態說了句很直白的話

環球網資訊 2026-05-23 21:26:31
65 跟貼 65
水蜜桃飲品中水蜜桃添加量0.01克，康師傅回應稱符合標準

南方都市報 2026-05-21 19:55:57
1164 跟貼 1164
新傳考研名詞解釋：AI幻覺

禿頭研究所新傳考研 2026-05-23 16:08:05
0 跟貼 0
OpenAI大神教你如何榨干Codex

量子位 2026-05-23 17:48:44
4 跟貼 4
人手一個數據庫，Kimi背后這套AI基建到底有多能扛？

量子位 2026-05-14 22:54:30
0 跟貼 0
智能體從「單兵作戰」到「精銳團隊」 -2

機器之心Pro 2026-04-28 16:56:00
0 跟貼 0
Hytale服務器擴容：我們踩過的三個坑

賽博蘭博 2026-05-23 00:46:26
0 跟貼 0
能隨意竊取數據！這款熱門 AI 編程工具曝重大隱患

鈦媒體APP 2026-05-24 09:06:33
0 跟貼 0
集中爆發！寧波多地驚現罕見景觀！有人半夜11點刷到立馬起床出發，連夜奔赴

上觀新聞 2026-05-23 11:46:10
914 跟貼 914
米盧為東北超開球，沈陽隊大連隊獲勝，看球“第二現場”火爆

澎湃新聞 2026-05-24 00:34:11
99 跟貼 99
總決賽打浙江廣廈，上海男籃的硬仗才開始

上觀新聞 2026-05-24 10:43:24
2 跟貼 2
內蒙古一地野生動物保護站，狼王看手勢秒懂指令乖巧倒地，超配合

星視頻 2026-05-22 17:14:58
0 跟貼 0
進口蛋白粉先漲價再優惠淘寶618大促比日常價格還高

大風新聞 2026-05-23 17:12:31
251 跟貼 251
Anthropic CEO：如果我是25歲，不會選編程，會選

機器之心Pro 2026-04-18 12:00:00
0 跟貼 0
浙江男子幾口下肚，痛到崩潰！“當時覺得特別鮮”，醫生：別拿命賭，有毒，沒有特效解藥

環球網資訊 2026-05-24 07:11:28
57 跟貼 57
伊朗嚴令：高濃縮鈾必留境內，穆杰塔巴下達鐵腕指令

肋骨雕刻成玫瑰d 2026-05-24 08:36:59
0 跟貼 0
武漢雨后出現奇觀！視頻迅速傳播

極目新聞 2026-05-23 15:30:24
371 跟貼 371
主人訓練狗子聽指令跳水，4只狗800心眼，知道邊牧為啥不能當警犬

爆笑大白 2026-05-23 16:37:41
5 跟貼 5
怪物全都被下達指令，不能越過地球八千米

寒松說劇呀 2026-05-23 00:00:00
0 跟貼 0
軟件代碼類侵犯商業秘密罪案件，怎么辯護？

知產刑辯何國銘律師 2026-05-24 10:08:18
0 跟貼 0
風行CEO易正朝：真正的全產業殺手應用是AI編程，相比AI視頻，AI編程對企業經營的意義更大

量子位 2026-05-21 08:05:56
0 跟貼 0
媒體：毛焦爾上任后匈牙利對烏克蘭政策"又變回去了"

新民周刊 2026-05-24 09:07:11
3 跟貼 3
女子從蛇身上跨過毫無察覺

瀟湘晨報 2026-05-23 16:20:05
153 跟貼 153

SpaceX新火箭首飛：33臺發動機熄了2臺，還是進了太空

SpaceX新火箭首飛：33臺發動機熄了2臺，還是進了太空

歷史的塵埃發

2026-05-23 08:38:02

很多人在說：性蕭條時代來臨了

華人星光

2026-05-23 10:48:28

0-3陷入絕境，騎士108-121尼克斯，誰是罪魁禍首，數據不會說謊

0-3陷入絕境，騎士108-121尼克斯，誰是罪魁禍首，數據不會說謊

越嶺尋蹤

2026-05-24 11:09:21

002916，火了！迎近140家機構調研！一季度業績大增逾70%

002916，火了！迎近140家機構調研！一季度業績大增逾70%

證券時報e公司

2026-05-24 10:46:36

敘利亞，為什么沒人再提了？

民間胡扯老哥

2026-05-22 06:48:12

5.24早評|重磅公布！衛星大消息！下周起飛？

5.24早評|重磅公布！衛星大消息！下周起飛？

龍行天下虎

2026-05-24 01:43:36

中國切斷日本稀土供應4個月，日方派人赴華，開口要求解除禁令？

中國切斷日本稀土供應4個月，日方派人赴華，開口要求解除禁令？

小祁談歷史

2026-05-24 09:29:29

三星罷工驚魂夜：一個公司停擺，整個國家發抖，這病得治！

三星罷工驚魂夜：一個公司停擺，整個國家發抖，這病得治！

清衣渡a

2026-05-24 10:52:00

沉默45年，中國終于迎來第二輪“嚴打”！目標改變總體戰正式打響

沉默45年，中國終于迎來第二輪“嚴打”！目標改變總體戰正式打響

聞識

2026-05-04 08:59:03

從卡脖子到技術超越，俄羅斯開始后悔，不該轉讓給中國AL-31F技術

從卡脖子到技術超越，俄羅斯開始后悔，不該轉讓給中國AL-31F技術

混沌錄

2026-05-21 17:49:50

山西煤礦事故已致90人遇難，有工人戴自救呼吸器逃生...該礦曾因安全問題接連被罰

山西煤礦事故已致90人遇難，有工人戴自救呼吸器逃生...該礦曾因安全問題接連被罰

新民周刊

2026-05-23 16:32:03

寧可另起爐灶，也不帶哈國玩，核心技術合作，中國還是防了一手

寧可另起爐灶，也不帶哈國玩，核心技術合作，中國還是防了一手

小濤叨叨

2026-05-22 19:41:30

手舉6個蛋暗諷樊振東，前國手劉丁碩引發熱議，現已關閉社媒評論

手舉6個蛋暗諷樊振東，前國手劉丁碩引發熱議，現已關閉社媒評論

兵鑒史

2026-05-22 10:55:13

安妮·海瑟薇差點辭演：看完自己的表演，她說"太糟糕了"

安妮·海瑟薇差點辭演：看完自己的表演，她說"太糟糕了"

赴一場山海啊

2026-05-23 00:57:56

美大使館警告：俄可能在24小時內對烏克蘭發動大規模打擊

美大使館警告：俄可能在24小時內對烏克蘭發動大規模打擊

桂系007

2026-05-24 02:51:23

1010萬！創歷史紀錄！太權威了！

1010萬！創歷史紀錄！太權威了！

柚子說球

2026-05-23 19:55:05

于娜節目自曝胖到230斤原因，跟媽媽住，不吃主食一頓吃5個菜

于娜節目自曝胖到230斤原因，跟媽媽住，不吃主食一頓吃5個菜

卷史

2026-05-21 11:11:04

為什么中國軍力嚇不倒日本，石破茂曾一針見血，還是會走老路的！

為什么中國軍力嚇不倒日本，石破茂曾一針見血，還是會走老路的！

華史談

2026-05-24 08:55:41

曝安德森同意加盟曼城！曼聯執行B計劃，今夏首簽或高達4500萬

曝安德森同意加盟曼城！曼聯執行B計劃，今夏首簽或高達4500萬

體壇鑒春秋

2026-05-23 11:46:11

老婆給小舅子50萬，我取光存款旅游，3小時后岳母來電：出大事了

老婆給小舅子50萬，我取光存款旅游，3小時后岳母來電：出大事了

千秋文化

2026-05-10 19:50:58

AI產業主平臺領航智能+時代

15289文章數 66880關注度

往期回顧全部

科技要聞

我戴著攝像頭上班，正在幫AI搶走我飯碗

頭條要聞

牛彈琴：特朗普宣布大消息后發地圖伊朗被星條旗覆蓋

頭條要聞

牛彈琴：特朗普宣布大消息后發地圖伊朗被星條旗覆蓋

體育要聞

少年意氣，正在改變中國足球

娛樂要聞

李晨鄭愷沖上熱搜！跑男停宣引熱議

財經要聞

爆炸致82人遇難留神峪煤業存違法行為

汽車要聞

2027款星途瑤光上市把"全球車"標準卷進13萬級市場

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

旅游

房產

親子

公開課

本地新聞

用云錦的方式，打開江蘇南京

旅游要聞

“樂爽中陽”2026年文化旅游消費季啟幕

房產要聞

瘋搶511輪！今年海南最魔幻的地塊，被福建能源企業搶了！

親子要聞

家長們可以讓孩子多喝這個湯，每周一到兩次，幫助孩子長高點

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：日本做受高潮好舒服视频| 国产三级视频在线播放线观看| 亚洲精品久久激情国产片| 西西大胆午夜人体视频| 亚洲精品电影院| Jizz国产一区二区| 久久久久免费看成人影片| 午夜福利无码不卡在线观看| 精品偷拍被偷拍在线观看| 超碰97成人| 色综合99久久久无码国产精品| 日韩在线观看精品亚洲| 日本亚洲一区二区三区| 亚洲自拍色综合图第一页区| 东港市| 国产成人AV在线免播放观看新 | 国产明星精品无码AV换脸| 国产精品亲子乱子伦XXXX裸| 91在线中文| 亚a∨国av综av涩涩涩| 99久久人妻无码精品系列蜜桃| 国产日产精品久久一区| 国产熟睡乱子伦午夜视频| 开心五月深深爱天天天操| 丁香五月综合| 无码a∨高潮抽搐流白浆| 亚洲乱码一区二三四区AVA| 日韩在线欧美在线| 丰满饥渴老女人hd| 久久综合受美利坚合众国保护| 久久天堂av综合色无码专区| 国产一区二区三区色成人| 最新亚洲av日韩av二区| 高清精品久久久久一二三日本不卡视频 | 99久久人人爽亚洲精品美女| 国产成人亚洲欧美激情| 51国产黑色丝袜高跟鞋| 久久男人av资源网站无码 | 国产一区二区视频在线看| 成人欧美一区二区三区白人| 真实国产乱子伦精品一区二区三区|