![]()
從當(dāng)前趨勢來看,Harness更像是一個“不可逆的中間層”。
就像操作系統(tǒng)之于硬件,數(shù)據(jù)庫之于應(yīng)用,Harness正在成為AI與現(xiàn)實(shí)世界之間的那一層“接口”。當(dāng)AI從“會說話”走向“能干活”,Harness,就是那根決定它能跑多遠(yuǎn)的韁繩。
作者|斗斗
編輯|皮爺
出品|產(chǎn)業(yè)家
2026年,全球企業(yè)級AI市場已經(jīng)悄然進(jìn)入“深水區(qū)”。
過去三年,大模型的能力以近乎失控的速度躍遷,從對話助手到代碼生成,從內(nèi)容創(chuàng)作到復(fù)雜推理,模型本身的“智力上限”不斷被刷新。如今,通用大模型已經(jīng)成為像電力和自來水一樣的基礎(chǔ)設(shè)施。
不過,這并未讓企業(yè)感到輕松。一個與技術(shù)進(jìn)步形成鮮明反差的現(xiàn)實(shí)正在浮現(xiàn),那就是AI越強(qiáng),企業(yè)反而越用不好、不敢用。一份由德勤發(fā)布的《2026年企業(yè)AI現(xiàn)狀》報(bào)告顯示,盡管80%的受訪企業(yè)聲稱已經(jīng)部署了AI工具,但真正能夠?qū)崿F(xiàn)規(guī)模化應(yīng)用、并產(chǎn)生顯著商業(yè)價(jià)值的企業(yè)僅占15%。
就在行業(yè)陷入迷茫時,風(fēng)向變了。
2026年1月期間,OpenAl內(nèi)部一個最初只有3人的工程師團(tuán)隊(duì),從一個空的Git倉庫開始,在5個月內(nèi)構(gòu)建出了一個包含超過100萬行代碼的完整Beta產(chǎn)品。整個過程中,沒有一行代碼是人類手動鍵入的。值得注意的是,這個團(tuán)隊(duì)后來擴(kuò)展到7人,期間合并了約1500個拉取請求,平均每位工程師每天能推進(jìn)3.5個PR。隨著流程成熟,生產(chǎn)效率還在持續(xù)提升。OpenAI估計(jì),這種方式比傳統(tǒng)手寫代碼開發(fā)節(jié)省了約10倍的時間。
這不僅僅是效率的提升,更是對"軟件工程"定義的一次顛覆。OpenAI將這套全新的方法論命名為:“駕馭工程”(Harness Engineering)。
這一變革迅速在頂尖技術(shù)圈層引發(fā)了共振。從LangChain到OpenAI,再到Anthropic,一批最核心的技術(shù)玩家不約而同地將重心從“模型能力”轉(zhuǎn)向“系統(tǒng)工程”,并逐漸收斂到一個新的共識公式:Agent=Model+Harness。
![]()
在這一背景下,一些問題也隨之而來,那就是當(dāng)所有頭部廠商開始押注Harness,其究竟只是大模型走向成熟之前的“過渡方案”,還是正在成為企業(yè)落地AI的第一道工序?
一、不智能、不可控:行業(yè)開始尋找Agent“韁繩”
為什么所有頭部廠商都在押注Harness?
先來看一組來自Gartner的調(diào)研數(shù)據(jù),數(shù)據(jù)顯示全球企業(yè)AI項(xiàng)目中,僅有不到15%真正實(shí)現(xiàn)了規(guī)模化業(yè)務(wù)落地,而“智能體在復(fù)雜任務(wù)中的穩(wěn)定性不足”,被78%的企業(yè)AI負(fù)責(zé)人列為落地的第一大障礙。
這一落地困境,在頭部廠商的技術(shù)反饋中得到了反復(fù)證實(shí)。
微軟直言不諱地指出,目前的Agent開發(fā)缺乏有效的trace(追蹤)機(jī)制,一旦任務(wù)失敗,開發(fā)者幾乎只能靠“猜”來調(diào)試;
Anthropic則在技術(shù)文檔中揭示了兩個深層缺陷:一是上下文焦慮,模型在處理長任務(wù)時會逐漸喪失連貫性,甚至因?yàn)榻咏舷挛纳舷薅a(chǎn)生草草收尾的“厭工”情緒;二是盲目樂觀,模型極度不擅長自我質(zhì)量判定,對其產(chǎn)出的結(jié)果往往表現(xiàn)出過度的自信。
與此同時,OpenAI也發(fā)出預(yù)警,在多Agent協(xié)作和工具調(diào)用日益頻繁的今天,PromptInjection(提示詞注入)和私密數(shù)據(jù)泄露等安全風(fēng)險(xiǎn)正被無限放大。
這些問題疊加,最終在企業(yè)側(cè)形成四個直接后果,那就是效果不穩(wěn)定、風(fēng)險(xiǎn)不可控、問題無法追責(zé)、ROI無法證明。而這背后,其實(shí)不是“模型不夠聰明”,而是企業(yè)缺少一套能讓AI持續(xù)、可靠、大規(guī)模運(yùn)行的“操作系統(tǒng)”。
![]()
回看過去三年,AI的形態(tài)已經(jīng)發(fā)生了本質(zhì)變化。2022到2024年的AI,更像是一個高級問答機(jī)器人。而到了2026年,AI第一次真正具備了連續(xù)工作的能力,其可以拆解任務(wù)、調(diào)用工具、跨系統(tǒng)執(zhí)行流程,甚至在一定程度上自主決策。
這是一種質(zhì)變,但也正是在這一刻,問題暴露得更加徹底。AI不再是“關(guān)在籠子里的倉鼠”,而是變成了一匹可以自己狂奔的烈馬。別人騎它,可以縱橫馳騁;但企業(yè)一旦上馬,卻往往直接“摔斷腿”。
于是整個行業(yè)開始意識到一個殘酷的現(xiàn)實(shí),那就是AI的上限,不再由模型決定,而是由“你能不能駕馭它”決定。
2026年2月,一個關(guān)鍵轉(zhuǎn)折點(diǎn)出現(xiàn)。LangChain團(tuán)隊(duì)的一項(xiàng)實(shí)驗(yàn)中發(fā)現(xiàn),研究人員使用相同的模型(GPT-5.2-Codex),在不改變參數(shù)的情況下,僅通過優(yōu)化Harness,就使該模型在Terminal Bench2.0測試中的分?jǐn)?shù)從52.8飆升至66.5,排名從Top30直接沖入Top5。
可以發(fā)現(xiàn),模型沒有變,能力卻發(fā)生了躍遷。
這成為一個強(qiáng)烈信號,即行業(yè)真正缺的,從來不是“更聰明的AI”,而是一套能馴服AI,讓AI平穩(wěn)著陸的工程體系。也正是在這一背景下,Harness Engineering(駕馭工程)被正式提出,成為一個能讓AI持續(xù)、可靠、大規(guī)模工作的“韁繩”,推動AI落地的一個新希望。
二、Harness,一個讓企業(yè)AI平穩(wěn)著陸的土壤體系
如果AI難落地的本質(zhì)是AI失控,那么Harness真正要做的,就是把一個概率性的系統(tǒng),變成一個工程化系統(tǒng)。
從底層原理上看,大模型本質(zhì)是“概率分布生成器”,而不是確定性系統(tǒng)。一項(xiàng)2026年的研究指出,即使在高分benchmark上表現(xiàn)優(yōu)秀的Agent,在多次重復(fù)執(zhí)行中成功率會從60%下降到25%,穩(wěn)定性遠(yuǎn)低于企業(yè)級系統(tǒng)要求。這意味著模型的“平均正確”,在企業(yè)場景里等于“不可用”。
這就引出第一個核心問題:企業(yè)無法判斷AI為什么出錯。
傳統(tǒng)Agent運(yùn)行像個黑盒,報(bào)錯了不知道是模型推理失誤,還是工具調(diào)用異常,還是外部系統(tǒng)超時。而在企業(yè)系統(tǒng)中,“不可解釋”本身就是不可接受的。也正因?yàn)槿狈捎^測性,大量AI項(xiàng)目卡在調(diào)試階段無法推進(jìn),行業(yè)普遍將“可追溯性缺失”視為無法進(jìn)入生產(chǎn)環(huán)境的核心障礙。
![]()
因此,Harness的第一步,不是優(yōu)化模型,而是讓過程可見。
其可以記錄Agent的每一步思考軌跡、工具調(diào)用參數(shù)及上下文,并在檢測到“邏輯死循環(huán)”或“異常路徑”時觸發(fā)回滾或人工接管,把黑盒行為變成可調(diào)試系統(tǒng)。
但問題并不止于“看不見”,更嚴(yán)重的是即使看見了,其也會越來越亂。在長任務(wù)中,模型會產(chǎn)生“上下文焦慮”,任務(wù)越長,系統(tǒng)越不穩(wěn)定,且模型容易產(chǎn)生非法指令或數(shù)據(jù)泄露。
也就是說,失控并不是偶發(fā),而是隨復(fù)雜度指數(shù)級放大。因此,Harness的第二個作用,便是限制模型的“認(rèn)知負(fù)載”。其不會把所有數(shù)據(jù)一次性塞給模型,而是基于任務(wù)節(jié)點(diǎn),精準(zhǔn)喂送“必要知識”,保持模型的清醒度。
不過,即便控制了過程長度,還有一個更隱蔽的問題,那就是模型不知道自己錯了。
現(xiàn)實(shí)中,大量企業(yè)AI項(xiàng)目之所以不敢上線,是因?yàn)槟P妥栽u往往“盲目樂觀”,企業(yè)不敢直接把AI產(chǎn)出的結(jié)果發(fā)給客戶。
因此,Harness的第三層能力,是會調(diào)用另一個專門負(fù)責(zé)“審計(jì)”的模型,對主Agent的輸出進(jìn)行糾錯。從“自評系統(tǒng)”升級為“外部評價(jià)系統(tǒng)”,建立結(jié)果的可信度。
但到這里,問題還沒有結(jié)束。
要知道,當(dāng)AI真正進(jìn)入企業(yè)環(huán)境時,其面對的已經(jīng)不是單一任務(wù),而是一個復(fù)雜系統(tǒng),例如ERP、CRM、數(shù)據(jù)倉庫、低代碼平臺、API網(wǎng)關(guān)等等。
而AI需要調(diào)動ERP、CRM、低代碼平臺等上百個接口,單純的Function Call極易崩盤。數(shù)據(jù)顯示,超過60%的AI失敗,來自任務(wù)范圍失控與數(shù)據(jù)問題,本質(zhì)上都是“系統(tǒng)復(fù)雜度超出承載能力”。也就是說,前面包括黑盒、失控、幻覺所有問題,在“系統(tǒng)集成”這一層會被進(jìn)一步放大。
因此,Harness的最后一層作用,便是充當(dāng)了萬能適配器,將企業(yè)內(nèi)部陳舊、非標(biāo)的數(shù)據(jù)接口轉(zhuǎn)化為AI可讀的標(biāo)準(zhǔn)化協(xié)議,使得企業(yè)可以統(tǒng)一管理調(diào)用路徑、權(quán)限與狀態(tài)。
總的來說,Harness解決的不是AI“能不能”做的問題,而是讓AI可以被設(shè)計(jì)、可以被控制、可以被評估、可以被放進(jìn)真實(shí)業(yè)務(wù)流程。將原本靠概率輸出的AI能力,封裝進(jìn)了標(biāo)準(zhǔn)化、可預(yù)測、可審計(jì)的工業(yè)流程中,實(shí)現(xiàn)AI真正落地企業(yè)業(yè)務(wù)。
三、后Agent時代:AI落地不再只是技術(shù)命題
Harness真的會成為Agent能否落地的新內(nèi)核嗎?
其實(shí),業(yè)內(nèi)對于這一定論早有爭議。
以O(shè)penAI、Anthropic為代表的大模型派認(rèn)為,隨著模型推理能力、長上下文能力不斷提升,未來的Agent會越來越“自洽”,Harness只是一個階段性“腳手架”。
換句話說,大模型派認(rèn)為,只要馬足夠強(qiáng),它自己就能拉著貨跑。現(xiàn)在的馬還需要套復(fù)雜的挽具,是因?yàn)轳R還不夠聰明。等以后馬進(jìn)化成“神馬”,這些復(fù)雜的木架子和繩子都是累贅,只會阻礙馬的發(fā)揮。
但另一派,則來自更偏工程和落地的一側(cè)。
LangChain創(chuàng)始人Harrison Chase公開強(qiáng)調(diào):性能提升往往來自“外部系統(tǒng)優(yōu)化,而非模型升級”;Microsoft的Satya Nadella多次提到,AI要進(jìn)入企業(yè)核心系統(tǒng),必須具備“可觀測性、可控性和安全邊界”。
這背后的判斷是模型再強(qiáng),也只是“能力單元”,而不是“生產(chǎn)系統(tǒng)”。即馬再強(qiáng)也是畜力,沒有車廂和輪子,貨沒地方放。沒有韁繩,馬會亂跑。在企業(yè)里,貨物就是“業(yè)務(wù)數(shù)據(jù)”,目的地就是“完成任務(wù)”。沒有這套精密的工程結(jié)構(gòu),AI永遠(yuǎn)無法安全、準(zhǔn)確地落地。
換句話說,模型決定“能做到什么”,但Harness決定“能不能穩(wěn)定做到”。
從這個角度看,兩派的分歧,其實(shí)對應(yīng)著兩個不同的問題:一個在回答“AI的上限在哪里”,另一個在回答“AI能不能被用”。
不過就目前而言,大家不再爭論誰取代誰,而是開始搞“組合拳”。
![]()
一方面,模型廠商開始主動向Harness層延伸。OpenAI推出Agents SDK、Codex,將模型能力直接嵌入執(zhí)行環(huán)境;Anthropic推出MCP和Agent Skills,把上下文管理與流程能力產(chǎn)品化。這說明一個趨勢:即使是最堅(jiān)定的“模型派”,也開始補(bǔ)齊系統(tǒng)層能力,因?yàn)閱慰磕P鸵呀?jīng)無法支撐復(fù)雜任務(wù)執(zhí)行。
另一方面,工程框架也在持續(xù)“吃模型紅利”。畢竟LangChain、AutoGen、CrewAI等框架,本質(zhì)上還是依賴更強(qiáng)模型來提升能力上限。
于是,一個交叉融合的格局逐漸形成。模型廠商開始做系統(tǒng),系統(tǒng)廠商依賴模型,雙方都在向?qū)Ψ降哪芰吔鐫B透。
這種融合也進(jìn)一步催生了更細(xì)分的產(chǎn)業(yè)形態(tài)。有的公司專注“翻譯層”,把企業(yè)內(nèi)部復(fù)雜、非結(jié)構(gòu)化的數(shù)據(jù)(PDF、Excel、數(shù)據(jù)庫)轉(zhuǎn)化為模型可理解的上下文;有的公司做“行業(yè)化Harness”,例如在法律、金融等場景中,將任務(wù)流程固化為模板,用戶只需輸入材料,系統(tǒng)即可自動執(zhí)行分析;還有一類則在做多模型協(xié)作,讓Harness成為“指揮官”,根據(jù)任務(wù)類型調(diào)度不同模型,例如讓GPT負(fù)責(zé)生成內(nèi)容,讓Claude負(fù)責(zé)代碼,讓本地模型處理敏感數(shù)據(jù)。
這些形態(tài)的共同點(diǎn)是不再把模型當(dāng)作“產(chǎn)品”,而是當(dāng)作“組件”。但如果再往深一層看,這場爭論其實(shí)也帶有明顯的“立場色彩”。模型公司更強(qiáng)調(diào)模型的重要性,因?yàn)槟鞘瞧浜诵馁Y產(chǎn);
框架公司強(qiáng)調(diào)Harness,因?yàn)槟鞘瞧鋬r(jià)值所在;而企業(yè)側(cè),則更關(guān)注“數(shù)據(jù)與流程”,因?yàn)槟遣攀亲罱K決定ROI的因素。
換句話說,這不僅是技術(shù)路徑之爭,也是一種商業(yè)利益的投射。某種程度上,每一方都在強(qiáng)化“對自己最有利的那一層”。
因此,回到最初的問題,Harness是過渡方案,還是新內(nèi)核?
從當(dāng)前趨勢來看,它更像是一個“不可逆的中間層”。就像操作系統(tǒng)之于硬件,數(shù)據(jù)庫之于應(yīng)用,Harness正在成為AI與現(xiàn)實(shí)世界之間的那一層“接口”。當(dāng)AI從“會說話”走向“能干活”,Harness,就是那根決定它能跑多遠(yuǎn)的韁繩。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.