現在Harness已是AI業界的熱詞。Anthropic和OpenAI在二三月間于官網技術博客上發文介紹后,如今人人都在聊。
AI明星林俊旸近日于社交媒體上轉發一篇斯坦福大學研究人員的Harness新產品論文時稱:“現在模型+harness的模式已經超過單純的AI模型。Harness的設計和質量能顯著影響AI智能體性能。開發Harness是正確的道路”。
當概念已經被炒熱成這樣,那么就需要捋清概念:何謂AI的Harness?
01
Harness起源:拿AI管AI寫AI
AI現在是產學研齊頭前進的行業,說概念,先從實例和溯源說起。
Anthropic的Claude Code現在是AI智能體編程的頭部產品。Claude Code的爸爸、從原初雛形至今的創作者和負責人鮑里斯·切爾尼(Boris Cherny)在社交媒體和出席各種播客節目時詳細描述了自己開發Claude Code的歷程。
在切爾尼的描述中,工作量增加后,團隊成員開始用Claude Code寫Claude Code自己的代碼、并用AI管理寫代碼的AI。
切爾尼說,自己會在工作機器上開五個以上終端標簽頁,每個標簽頁里都是一個獨立運作的Claude Code副本。如果終端標簽頁不夠使,他將編程任務“溢出”進Claude Code的Web或桌面端app,和標簽頁的子副本都是隔離分別運行。
每次寫碼從進入總管這些副本的Claude Code的計劃模式(Plan Mode)開始,訂好工作流程:
第一批Claude Code的子副本寫代碼。
第二批子副本做檢查代碼的評審(Reviewer),關注代碼的邊界條件、風格一致性和可維護性等易失誤處。
第三批子副本再審核第二批代碼的工作是否符合md(Markdown)文件的要求。
子副本們之前的常見錯誤、期望達到的代碼風格、常用命令與文件目錄、動作禁則,簡潔概括后寫入總管的Claude Code的md文件中,作為以后AI自動寫碼的指導。
“用AI管AI寫AI代碼”的模式下,切爾尼個人每天能發出10-30個合并代碼的拉取請求(PR),數月內不用手動寫碼,效率激增。依靠這種模式,Anthropic才能達到現在幾乎隔日一次重大更新的產品發布頻率。
![]()
如果熟悉Anthropic的官網更新動態,就會發現《為長期應用運行開發的Harness設計》(Harness design for long-running application development)這篇3月熱門文章的內容,切爾尼提前兩三個月在播客上就嘮過了。
3月熱文中的“三智能體”Harness架構,三層的規劃者(Planner)、生成器(Generator)、評估器(Evaluator),基本是切爾尼上節目時的大白話內容,不過做了概括后再包裝。
02
Harness本質:高成本高效率的多智能體架構
切爾尼描述的這個過程就是Harness的本質。Harness不只是自動完成任務的子智能體、不只是總管子智能體工作的上層智能體、也不只是告訴AI工作事項的md文件,而是總括了這些的AI智能體自動運轉的整體流程。
使用Harness這個字眼來描述此流程,是借用電氣工程中的“線束工程”概念。電氣工程的“線束”統籌的是線路與信號走向,AI智能體的Harness統籌的是子智能體與模塊的動作功能,殊途同歸。
當然,真要咬文嚼字起來,Harness可以翻譯成中文中的“輐”與“軛”,是連接馬匹與車身的傳動兼指向車具。不過古天主教和尚的“若無必要,勿增實體”原則在六七百年后的AI時代更加有用,不用新造字眼給大眾增加理解負擔,真要中文意譯,用電氣工程中已通行、最簡潔的“線束”最合適。
如果更仔細考證技術底蘊,能發現在2025年6月中Anthropic發布的官網文章《我司如何構建多智能體》,已經開始嘗試多智能體Harness架構。以Claude Opus 4為上層智能體底座、Sonnet 4為子智能體底座的多智能體架構,在他們的內部評測中,性能比Opus 4單一模型強出90.2%。
高效率的同義詞往往是高成本。2026年3月Anthropic的Harness文章中示例,用同一組提示詞,讓AI自行編寫一個2D復古小游戲。以此對比Opus 4.5單一模型和多智能體Harness架構的性能:單一模型運行20分鐘,成本9美元,成品不可用;全套harness運行6小時,成本200美元,成品可用。
該文除了展現Harness架構性能,也以此做了Opus 4.6更新的廣告:“Opus 4.6計劃更仔細,運行智能體任務的時長更久,能在更大的代碼庫中更可靠地運行,并有更好的代碼審查和調試功能來自我糾正。”
用白話說,就是更強的模型才能驅動更高效的Harness,有多快馬跑多快車。從2025年6月至今,多智能體架構耗費token的速度始終是普通聊天機器人的15倍以上,但將工作流拆分成子任務集合完成的效率也不減此數。顧客們要不要掏錢惠顧模型廠,須有一番思量。
03
Harness精髓:用AI體現傳統軟件工程要則
00后程序員趙晨陽現在由開源項目SGLang衍生的“基數方舟AI”(RadixArk AI)公司供職,按他在社交媒體上的解析,現在業界狂炒Harness,反而很不AI風,是疊床架屋地增加智識負擔。
趙晨陽認為,所有Harness的關鍵點,都是用AI重新實現了一遍“古代”傳統軟件工程原則中的要點:
不在AI聊天機器人的每次對話紀錄用提示詞重復闡明工作準則,而將準則保存在AI智能體的md文件,這是“文檔即代碼”(docs-as-code)原則在AI中的體現;
不期待一個超級AI模型解決整個工作任務,將工作任務拆成分隔的專門版塊,讓單個子智能體只處理單一版塊,這是“關注點分離”(separation of concerns)和“單一職責”(single responsibility)原則在AI中的體現;
![]()
將AI子智能體在工作流中的權責結構化,不讓總管的AI上層智能體自行猜測,這是“左移約束”(shift-left constraints)原則在AI中的體現。
Anthropic的研究員尼古拉斯·卡利尼在2月底公布的實驗,也體現了此原則。卡利尼使用了約2萬美元的API總額度、并發約兩千次Claude Code會話、并行16個Claude Opus 4.6驅動的子智能體、用時兩周、生成了10萬行Rust代碼,最后構建出可運行C編譯器。
按Anthropic官網上的卡利尼自述,他的精力不在寫提示詞上,提示詞可以盡量簡單,工作的重點是設計子智能體架構的基礎環境:測試、運行、反饋等機制,如此才能讓多AI智能體無人工干預自行運轉。
ChatGPT奇跡的三年內,第一年大家在思考如何給AI聊天機器人寫出更好的提示詞、在聊天窗口調用大模型的性能。
第二年大家發現完成調用不用人類來做提示詞仙人,讓AI自己學會調用不同大模型和同一大模型的不同功能API,這是Manus和AI智能體火熱的一年。
第三年大家發現可以讓AI自己學會自動調用并讀懂用戶終端里的本地文件、和云端的各種AI子智能體,這是OpenClaw和Harness架構火熱的一年。
時代趨勢是AI的調用層級越來越高,完成的任務越來越復雜。但技術皆有脈絡可循,基礎原理并不是大眾不能理解的黑魔法。(作者/李熙)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.