<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      AI成功率從20%飆到100%!只需一個Harness文件

      0
      分享至


      新智元報道


      【新智元導讀】Anthropic實錘:Claude裸跑模型,9美元全廢;但是套上Harness花200美元效果直接起飛。AI效果不好?別再糾結換模型了!OpenAI和Anthropic都在用的Harness工程,一文講透。

      最近,AI圈子里一個逃不開的話題就是Harness

      甚至,連DeepSeek最近也在開始招聘Harness工程師。


      那么,到底什么是Harness?


      Harness,圍繞AI編程智能體搭建的一整套工程基礎設施,由五個子系統組成:指令、工具、環境、狀態、反饋。


      為什么值得專門講它?

      因為2026年前后,Anthropic和OpenAI幾乎同時在各自的工程實驗里給出了同一個結論——AI編程智能體頻頻失敗,問題不在模型,在模型之外的Harness

      兩家分別用一組對照實驗當證據。先看數據。

      兩組數據對照

      Anthropic對照實驗——同一個Opus 4.5模型,同一道編程題:

      多花的191美元,全花在驗證循環上——每寫一段代碼就跑測試,不通過就改,直到真正通過。


      OpenAI百萬行實驗,Codex團隊在真實倉庫上驗證:

      實驗只改了一件事——倉庫根目錄加了一個AGENTS.md文件,不到100行markdown。


      Harness是什么

      Harness不是工具,也不是提示詞技巧,是圍繞智能體的一整套工程基礎設施,由五個子系統組成,每一個對應一種具體失敗模式。


      指令子系統(Instructions)

      倉庫根目錄的一個markdown文件——OpenAI陣營叫AGENTS.md,Anthropic陣營叫CLAUDE.md。

      Codex、Claude Code、Cursor啟動時自動讀取并注入「系統提示詞」。

      解決:智能體不知道項目約定,瞎寫代碼(風格不一致、用錯包管理器、隨手執行破壞性命令)。


      不到15行,把項目約定從反復重申變成啟動時自動注入。

      工具子系統(Tools)

      限定智能體能調用哪些命令。

      Claude Code用.claude/settings.json,Codex用~/.codex/config.toml。

      解決:越權操作(rm-rf誤刪、gitpush--force覆蓋遠端、不該聯網時調外部API)。


      允許的直接跑,禁止的直接拒,灰色地帶的彈確認。

      環境子系統(Environment)

      鎖定依賴版本、運行時配置、數據庫狀態。

      實現:setup.sh/Dockerfile/devcontainer.json。

      解決:這臺機器上能跑的虛假環境(本地通過,CI一跑就廢)。


      關鍵一行--frozen-lockfile——智能體無法擅自升級任何依賴。

      狀態子系統(State)

      把跨會話進度、斷點、未完成任務持久化到PROGRESS.md,新會話第一件事讀它。

      解決:跨會話失憶(第二個會話從零開始,寫出和第一個會話沖突的代碼)。


      在AGENTS.md固化約定:新會話第一件事讀PROGRESS.md;任務完成或斷點變化,立即回寫

      反饋子系統(Feedback)

      機器可執行的驗證命令——測試、lint、類型檢查、構建。

      智能體宣布完成前必須跑通,退出碼不為0就不算完成。

      解決:過早宣布勝利(說Done!但一行跑不通)——Anthropic 9美元裸跑實驗的核心死因。


      三大致命失敗模式

      Anthropic和OpenAI的實驗,不約而同指向了智能體最常見的三種致命失敗模式。


      過早宣布勝利

      場景:智能體寫完500行功能,輸出已完成。合并代碼——CI紅屏,type check報12個錯,單測一個沒跑過。

      根因:沒有強制反饋循環。判定來自自我感覺,不來自機器可驗證的事實。

      解法:反饋子系統。把判定權移交給退出碼——退出碼≠0,任務≠完成。

      上下文焦慮(ContextAnxiety)

      場景:長任務做到70%,上下文Token數快撐滿窗口。智能體開始趕進度——跳過測試、刪邊界處理、寫stub收尾、宣布完成。

      根因:沒有斷點續傳。感知到上下文壓力時,智能體會試圖在這個會話內做完所有事,哪怕代價是質量崩塌。

      解法:狀態子系統+主動重啟。每完成一個子任務立即回寫PROGRESS.md;上下文Token用量超70%,主動停下、寫完斷點、開新會話。

      跨會話失憶(Cross-SessionAmnesia)

      場景:第一個會話寫了用戶模塊,第二個會話寫訂單模塊——智能體不知道用戶模塊已存在,又寫了一遍getUserById,跟前一版接口簽名沖突。

      根因:沒有持久化狀態+沒有首讀約定。

      解法:狀態子系統+指令子系統組合。PROGRESS.md維護已完成功能清單;AGENTS.md寫明開會話第一件事讀PROGRESS.md;沖突時以代碼為準——倉庫本身是唯一事實來源。

      五步從零搭一個Harness

      搭建一個Harness,并不難。

      下面五步用文本編輯器即可完成,加起來不超過200行配置。


      第1步·根目錄建AGENTS.md

      touch AGENTS.md。至少三塊:項目說明、禁止操作、完成定義。

      第2步·配permissions

      .claude/settings.json或~/.codex/config.toml。最小兩條:

      第3步·寫setup.sh鎖環境

      已有Dockerfile/devcontainer.json可跳過。

      否則寫一個setup.sh,把所有版本寫死。最關鍵一行:pnpminstall--frozen-lockfile。

      第4步·建PROGRESS.md

      touchPROGRESS.md,四塊:已完成、進行中、待辦、已知問題。提交進git,當成項目自身的一部分維護。

      第5步·在AGENTS.md末尾固化完成定義

      寫明pnpm type check/test/lint/build四個命令,退出碼不為0就不算完成。如果項目還沒有這些命令,今天就配上。

      沒有反饋循環,Harness等于沒裝——這是Anthropic 9美元實驗的核心教訓:前四步全做對,第五步缺位,依然全廢。

      兩家殊途同歸

      過去一年所有人都在追下一個更強的模型。

      2026年,Anthropic和OpenAI用兩組不同的實驗給出了同一個答案——別先換模型,先把Harness裝好

      模型能力決定上限,Harness決定你能用到上限的幾成。

      沒有Harness,Opus 4.5跑出的代碼連編譯都過不去;有了Harness,小一檔的模型也能穩定交付。

      下一個更強的模型當然會再抬一截上限。但今天連Harness都沒裝,下一個模型來了,成功率依然停在20%。

      與其等下一個模型,現在就安裝Harness。

      參考資料:

      https://walkinglabs.github.io/learn-harness-engineering/en/

      編輯:大衛

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      SpaceX新火箭首飛:33臺發動機熄了2臺,還是進了太空

      SpaceX新火箭首飛:33臺發動機熄了2臺,還是進了太空

      歷史的塵埃發
      2026-05-23 08:38:02
      很多人在說:性蕭條時代來臨了

      很多人在說:性蕭條時代來臨了

      華人星光
      2026-05-23 10:48:28
      0-3陷入絕境,騎士108-121尼克斯,誰是罪魁禍首,數據不會說謊

      0-3陷入絕境,騎士108-121尼克斯,誰是罪魁禍首,數據不會說謊

      越嶺尋蹤
      2026-05-24 11:09:21
      002916,火了!迎近140家機構調研!一季度業績大增逾70%

      002916,火了!迎近140家機構調研!一季度業績大增逾70%

      證券時報e公司
      2026-05-24 10:46:36
      敘利亞,為什么沒人再提了?

      敘利亞,為什么沒人再提了?

      民間胡扯老哥
      2026-05-22 06:48:12
      5.24早評|重磅公布!衛星大消息!下周起飛?

      5.24早評|重磅公布!衛星大消息!下周起飛?

      龍行天下虎
      2026-05-24 01:43:36
      中國切斷日本稀土供應4個月,日方派人赴華,開口要求解除禁令?

      中國切斷日本稀土供應4個月,日方派人赴華,開口要求解除禁令?

      小祁談歷史
      2026-05-24 09:29:29
      三星罷工驚魂夜:一個公司停擺,整個國家發抖,這病得治!

      三星罷工驚魂夜:一個公司停擺,整個國家發抖,這病得治!

      清衣渡a
      2026-05-24 10:52:00
      沉默45年,中國終于迎來第二輪“嚴打”!目標改變總體戰正式打響

      沉默45年,中國終于迎來第二輪“嚴打”!目標改變總體戰正式打響

      聞識
      2026-05-04 08:59:03
      從卡脖子到技術超越,俄羅斯開始后悔,不該轉讓給中國AL-31F技術

      從卡脖子到技術超越,俄羅斯開始后悔,不該轉讓給中國AL-31F技術

      混沌錄
      2026-05-21 17:49:50
      山西煤礦事故已致90人遇難,有工人戴自救呼吸器逃生...該礦曾因安全問題接連被罰

      山西煤礦事故已致90人遇難,有工人戴自救呼吸器逃生...該礦曾因安全問題接連被罰

      新民周刊
      2026-05-23 16:32:03
      寧可另起爐灶,也不帶哈國玩,核心技術合作,中國還是防了一手

      寧可另起爐灶,也不帶哈國玩,核心技術合作,中國還是防了一手

      小濤叨叨
      2026-05-22 19:41:30
      手舉6個蛋暗諷樊振東,前國手劉丁碩引發熱議,現已關閉社媒評論

      手舉6個蛋暗諷樊振東,前國手劉丁碩引發熱議,現已關閉社媒評論

      兵鑒史
      2026-05-22 10:55:13
      安妮·海瑟薇差點辭演:看完自己的表演,她說"太糟糕了"

      安妮·海瑟薇差點辭演:看完自己的表演,她說"太糟糕了"

      赴一場山海啊
      2026-05-23 00:57:56
      美大使館警告:俄可能在24小時內對烏克蘭發動大規模打擊

      美大使館警告:俄可能在24小時內對烏克蘭發動大規模打擊

      桂系007
      2026-05-24 02:51:23
      1010萬!創歷史紀錄!太權威了!

      1010萬!創歷史紀錄!太權威了!

      柚子說球
      2026-05-23 19:55:05
      于娜節目自曝胖到230斤原因,跟媽媽住,不吃主食一頓吃5個菜

      于娜節目自曝胖到230斤原因,跟媽媽住,不吃主食一頓吃5個菜

      卷史
      2026-05-21 11:11:04
      為什么中國軍力嚇不倒日本,石破茂曾一針見血,還是會走老路的!

      為什么中國軍力嚇不倒日本,石破茂曾一針見血,還是會走老路的!

      華史談
      2026-05-24 08:55:41
      曝安德森同意加盟曼城!曼聯執行B計劃,今夏首簽或高達4500萬

      曝安德森同意加盟曼城!曼聯執行B計劃,今夏首簽或高達4500萬

      體壇鑒春秋
      2026-05-23 11:46:11
      老婆給小舅子50萬,我取光存款旅游,3小時后岳母來電:出大事了

      老婆給小舅子50萬,我取光存款旅游,3小時后岳母來電:出大事了

      千秋文化
      2026-05-10 19:50:58
      2026-05-24 11:44:49
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      15289文章數 66880關注度
      往期回顧 全部

      科技要聞

      我戴著攝像頭上班,正在幫AI搶走我飯碗

      頭條要聞

      牛彈琴:特朗普宣布大消息后發地圖 伊朗被星條旗覆蓋

      頭條要聞

      牛彈琴:特朗普宣布大消息后發地圖 伊朗被星條旗覆蓋

      體育要聞

      少年意氣,正在改變中國足球

      娛樂要聞

      李晨鄭愷沖上熱搜!跑男停宣引熱議

      財經要聞

      爆炸致82人遇難 留神峪煤業存違法行為

      汽車要聞

      2027款星途瑤光上市 把"全球車"標準卷進13萬級市場

      態度原創

      本地
      旅游
      房產
      親子
      公開課

      本地新聞

      用云錦的方式,打開江蘇南京

      旅游要聞

      “樂爽中陽”2026年文化旅游消費季啟幕

      房產要聞

      瘋搶511輪!今年海南最魔幻的地塊,被福建能源企業搶了!

      親子要聞

      家長們可以讓孩子多喝這個湯,每周一到兩次,幫助孩子長高點

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 日本做受高潮好舒服视频| 国产三级视频在线播放线观看| 亚洲精品久久激情国产片| 西西大胆午夜人体视频| 亚洲精品电影院| Jizz国产一区二区| 久久久久免费看成人影片| 午夜福利无码不卡在线观看| 精品偷拍被偷拍在线观看| 超碰97成人| 色综合99久久久无码国产精品| 日韩在线观看精品亚洲| 日本亚洲一区二区三区| 亚洲 自拍 色综合图第一页区| 东港市| 国产成人AV在线免播放观看新 | 国产明星精品无码AV换脸| 国产精品亲子乱子伦XXXX裸| 91在线中文| 亚a∨国av综av涩涩涩| 99久久人妻无码精品系列蜜桃| 国产日产精品久久一区| 国产熟睡乱子伦午夜视频| 开心五月深深爱天天天操| 丁香五月综合| 无码a∨高潮抽搐流白浆| 亚洲乱码一区二三四区AVA| 日韩在线欧美在线| 丰满饥渴老女人hd| 久久综合受美利坚合众国保护| 久久天堂av综合色无码专区| 国产一区二区三区色成人| 最新亚洲av日韩av二区| 高清精品久久久久一二三日本不卡视频 | 99久久人人爽亚洲精品美女| 国产成人亚洲欧美激情| 51国产黑色丝袜高跟鞋| 久久男人av资源网站无码 | 国产一区二区视频在线看| 成人欧美一区二区三区白人| 真实国产乱子伦精品一区二区三区|