網易首頁 > 網易號 > 正文申請入駐

一曲新詞酒一杯，喝到Harness我就醉

2026-04-02 14:22:34　來源: 字母榜

北京舉報

分享至

現在Harness已是AI業界的熱詞。Anthropic和OpenAI在二三月間于官網技術博客上發文介紹后，如今人人都在聊。

AI明星林俊旸近日于社交媒體上轉發一篇斯坦福大學研究人員的Harness新產品論文時稱：“現在模型+harness的模式已經超過單純的AI模型。Harness的設計和質量能顯著影響AI智能體性能。開發Harness是正確的道路”。

當概念已經被炒熱成這樣，那么就需要捋清概念：何謂AI的Harness？

Harness起源：拿AI管AI寫AI

AI現在是產學研齊頭前進的行業，說概念，先從實例和溯源說起。

Anthropic的Claude Code現在是AI智能體編程的頭部產品。Claude Code的爸爸、從原初雛形至今的創作者和負責人鮑里斯·切爾尼（Boris Cherny）在社交媒體和出席各種播客節目時詳細描述了自己開發Claude Code的歷程。

在切爾尼的描述中，工作量增加后，團隊成員開始用Claude Code寫Claude Code自己的代碼、并用AI管理寫代碼的AI。

切爾尼說，自己會在工作機器上開五個以上終端標簽頁，每個標簽頁里都是一個獨立運作的Claude Code副本。如果終端標簽頁不夠使，他將編程任務“溢出”進Claude Code的Web或桌面端app，和標簽頁的子副本都是隔離分別運行。

每次寫碼從進入總管這些副本的Claude Code的計劃模式（Plan Mode）開始，訂好工作流程：

第一批Claude Code的子副本寫代碼。

第二批子副本做檢查代碼的評審（Reviewer），關注代碼的邊界條件、風格一致性和可維護性等易失誤處。

第三批子副本再審核第二批代碼的工作是否符合md（Markdown）文件的要求。

子副本們之前的常見錯誤、期望達到的代碼風格、常用命令與文件目錄、動作禁則，簡潔概括后寫入總管的Claude Code的md文件中，作為以后AI自動寫碼的指導。

“用AI管AI寫AI代碼”的模式下，切爾尼個人每天能發出10-30個合并代碼的拉取請求（PR），數月內不用手動寫碼，效率激增。依靠這種模式，Anthropic才能達到現在幾乎隔日一次重大更新的產品發布頻率。

如果熟悉Anthropic的官網更新動態，就會發現《為長期應用運行開發的Harness設計》（Harness design for long-running application development）這篇3月熱門文章的內容，切爾尼提前兩三個月在播客上就嘮過了。

3月熱文中的“三智能體”Harness架構，三層的規劃者（Planner）、生成器（Generator）、評估器（Evaluator），基本是切爾尼上節目時的大白話內容，不過做了概括后再包裝。

Harness本質：高成本高效率的多智能體架構

切爾尼描述的這個過程就是Harness的本質。Harness不只是自動完成任務的子智能體、不只是總管子智能體工作的上層智能體、也不只是告訴AI工作事項的md文件，而是總括了這些的AI智能體自動運轉的整體流程。

使用Harness這個字眼來描述此流程，是借用電氣工程中的“線束工程”概念。電氣工程的“線束”統籌的是線路與信號走向，AI智能體的Harness統籌的是子智能體與模塊的動作功能，殊途同歸。

當然，真要咬文嚼字起來，Harness可以翻譯成中文中的“輐”與“軛”，是連接馬匹與車身的傳動兼指向車具。不過古天主教和尚的“若無必要，勿增實體”原則在六七百年后的AI時代更加有用，不用新造字眼給大眾增加理解負擔，真要中文意譯，用電氣工程中已通行、最簡潔的“線束”最合適。

如果更仔細考證技術底蘊，能發現在2025年6月中Anthropic發布的官網文章《我司如何構建多智能體》，已經開始嘗試多智能體Harness架構。以Claude Opus 4為上層智能體底座、Sonnet 4為子智能體底座的多智能體架構，在他們的內部評測中，性能比Opus 4單一模型強出90.2%。

高效率的同義詞往往是高成本。2026年3月Anthropic的Harness文章中示例，用同一組提示詞，讓AI自行編寫一個2D復古小游戲。以此對比Opus 4.5單一模型和多智能體Harness架構的性能：單一模型運行20分鐘，成本9美元，成品不可用；全套harness運行6小時，成本200美元，成品可用。

該文除了展現Harness架構性能，也以此做了Opus 4.6更新的廣告：“Opus 4.6計劃更仔細，運行智能體任務的時長更久，能在更大的代碼庫中更可靠地運行，并有更好的代碼審查和調試功能來自我糾正。”

用白話說，就是更強的模型才能驅動更高效的Harness，有多快馬跑多快車。從2025年6月至今，多智能體架構耗費token的速度始終是普通聊天機器人的15倍以上，但將工作流拆分成子任務集合完成的效率也不減此數。顧客們要不要掏錢惠顧模型廠，須有一番思量。

Harness精髓：用AI體現傳統軟件工程要則

00后程序員趙晨陽現在由開源項目SGLang衍生的“基數方舟AI”（RadixArk AI）公司供職，按他在社交媒體上的解析，現在業界狂炒Harness，反而很不AI風，是疊床架屋地增加智識負擔。

趙晨陽認為，所有Harness的關鍵點，都是用AI重新實現了一遍“古代”傳統軟件工程原則中的要點：

不在AI聊天機器人的每次對話紀錄用提示詞重復闡明工作準則，而將準則保存在AI智能體的md文件，這是“文檔即代碼”（docs-as-code）原則在AI中的體現；

不期待一個超級AI模型解決整個工作任務，將工作任務拆成分隔的專門版塊，讓單個子智能體只處理單一版塊，這是“關注點分離”（separation of concerns）和“單一職責”（single responsibility）原則在AI中的體現；

將AI子智能體在工作流中的權責結構化，不讓總管的AI上層智能體自行猜測，這是“左移約束”（shift-left constraints）原則在AI中的體現。

Anthropic的研究員尼古拉斯·卡利尼在2月底公布的實驗，也體現了此原則。卡利尼使用了約2萬美元的API總額度、并發約兩千次Claude Code會話、并行16個Claude Opus 4.6驅動的子智能體、用時兩周、生成了10萬行Rust代碼，最后構建出可運行C編譯器。

按Anthropic官網上的卡利尼自述，他的精力不在寫提示詞上，提示詞可以盡量簡單，工作的重點是設計子智能體架構的基礎環境：測試、運行、反饋等機制，如此才能讓多AI智能體無人工干預自行運轉。

ChatGPT奇跡的三年內，第一年大家在思考如何給AI聊天機器人寫出更好的提示詞、在聊天窗口調用大模型的性能。

第二年大家發現完成調用不用人類來做提示詞仙人，讓AI自己學會調用不同大模型和同一大模型的不同功能API，這是Manus和AI智能體火熱的一年。

第三年大家發現可以讓AI自己學會自動調用并讀懂用戶終端里的本地文件、和云端的各種AI子智能體，這是OpenClaw和Harness架構火熱的一年。

時代趨勢是AI的調用層級越來越高，完成的任務越來越復雜。但技術皆有脈絡可循，基礎原理并不是大眾不能理解的黑魔法。（作者/李熙）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.