<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      全球排名前三,復(fù)旦自進(jìn)化Harness Engineering讓GPT5.4再漲7個點

      0
      分享至



      機(jī)器之心編輯部

      2026 年以來,OpenAI、Anthropic、LangChain 等機(jī)構(gòu)紛紛發(fā)布關(guān)于 Harness Engineering 的技術(shù)博客,OpenClaw、Hermes Agent 等項目的火爆更讓 Harness Engineering 成為業(yè)界熱詞。人們的共識正在形成:模型的能力釋放,依賴于一套精密的外部框架

      Harness 的開發(fā)與優(yōu)化是一個工程問題,需要結(jié)合模型能力、任務(wù)環(huán)境共同設(shè)計。然而,模型自身以月為單位進(jìn)化,任務(wù)場景往長尾分布發(fā)展,Harness 的進(jìn)化與迭代卻高度依賴人工經(jīng)驗。 這引出了一個核心問題:在 Harness Engineering 的迭代循環(huán)中,哪些部分可以被自動化?如何讓 Harness 自動地從經(jīng)驗中學(xué)習(xí)并改進(jìn)?

      來自復(fù)旦大學(xué)、北京大學(xué)、上海奇績智峰的團(tuán)隊提出Agentic Harness Engineering (AHE),這是一套可觀測性(Observability)驅(qū)動的 Harness 自動優(yōu)化方法,端到端貫穿 Harness Engineering 的全流程,實現(xiàn)了模型能動性的最大程度釋放。



      • 論文標(biāo)題:Agentic Harness Engineering: Observability-Driven Automatic Evolution of Coding-Agent Harnesses
      • 論文鏈接:arxiv.org/abs/2604.25850
      • 代碼倉庫:github.com/china-qijizhifeng/agentic-Harness-engineering
      • 項目博客:https://dawning-road.github.io/blog/agentic-Harness-engineering

      在實驗期間,使用 GPT?5.4,AHE 在 Terminal-Bench 2 上的分?jǐn)?shù)從 69.7 迭代到 77.0。GPT-5.5發(fā)布后,AHE迅速迭代出與之適配的Harness,在 Leaderboard 上位列全球第三



      并且,自動迭代得到的 Harness 展現(xiàn)出良好的模型間泛化以及任務(wù)間泛化能力,確保不是在 overfit 評測集。

      目前論文在社交平臺 X 上收獲大量關(guān)注,已經(jīng)有 10w + 瀏覽討論。



      為什么要設(shè)計可觀測體系?

      Harness Engineering 的三個視角



      從形態(tài)上看,模型和 Harness 共同構(gòu)成一個主體和環(huán)境進(jìn)行交互。模型的所有行為都發(fā)生在概率空間中,是信息壓縮、智能發(fā)生、不確定性的來源,而 Harness 是包裹在外的確定性組件:system prompt、工具定義與實現(xiàn)、middleware/hook、skill 文檔、sub-agent 編排、長期記憶、日志與觀測。在 agent 邁向長程、生產(chǎn)力任務(wù)過程中,Harness 是讓模型行為穩(wěn)定、一致、可控的重要保證。

      從目的上看,Harness 的職能之一是在模型和環(huán)境之間管理一條雙向的上下文流:一側(cè)在合適的時機(jī)把任務(wù)、用戶意圖、環(huán)境狀態(tài)、外部信息傳進(jìn)模型,另一側(cè)把模型的動作忠實地記錄、校驗后交回環(huán)境執(zhí)行。

      過去,開發(fā)者需要手動設(shè)計 prompt、復(fù)制 terminal 輸出、復(fù)制外部文檔內(nèi)容給模型,上下文分布在互不相通的空間里,人類依據(jù)直覺和觀察來決定 context 的構(gòu)成。因此,Harness 的設(shè)計目標(biāo)之一,就是讓 context 的流動可以更加精準(zhǔn)、更加自主。

      基于以上的形態(tài)與目標(biāo),Harness Engineering 的方法論是什么?

      最直觀的,是獨立優(yōu)化各個組件代碼,或者稱之為 Agent Infra。開發(fā)者社區(qū)貢獻(xiàn)了大量有用的 Harness 組件,用于記憶、上下文管理、沙盒環(huán)境、軌跡管理,這依賴于扎實的工程開發(fā)與優(yōu)化,讓各個部分的獨立地變得更加高效、安全、穩(wěn)定。

      進(jìn)一步地,對于任意一個特定環(huán)境,若要找到最優(yōu)的 Harness,這就成為了一個模型 x Harness x 環(huán)境的組合優(yōu)化問題。不再能像開發(fā)單獨組件那樣有一個明確的規(guī)則,不再能利用人類開發(fā)者的先驗知識一步到位找出最優(yōu)組合,而是要開發(fā)、觀測、迭代,根據(jù)模型的運行軌跡、評測分?jǐn)?shù),反復(fù)調(diào)整。

      人類的注意力是稀缺的,因此,必須讓 agent 本身也參與到 Harness 優(yōu)化的過程中來。只要把優(yōu)化目標(biāo)、動作空間、狀態(tài)空間都以一種 agent 可讀的方式呈現(xiàn),那么就可以引入 agent 進(jìn)行自主優(yōu)化。這便是 AHE 設(shè)計可觀測體系的出發(fā)點。

      可觀測體系:組件、經(jīng)驗、決策

      Harness 的開發(fā)也分為幾個階段:編寫組件、運行 agent、收集反饋。這個過程反復(fù)迭代,持續(xù)運行。如果要想讓 agent 接手人類的工作,就需要在此過程中所產(chǎn)生的 context 可觀測,并且做好 context 結(jié)構(gòu)化、層次化。

      在此過程中,并不限制 agent 的自主決策空間,只依賴評測結(jié)果,以及更多分層信息來輔助它精準(zhǔn)修改、準(zhǔn)確歸因。

      AHE 方法由三個角色構(gòu)成:Coding Agent 負(fù)責(zé)運行測試,Agent Debugger 負(fù)責(zé)整理軌跡,Evolve Agent 負(fù)責(zé)修改 Coding Agent 的 Harness 實現(xiàn)進(jìn)化。

      整個可觀測體系分三部分:

      1. NexAU 提供各部分解耦的 Harness,提供 Harness 組件的可觀測性;
      2. Agent Debugger 把 10M token 量級的 raw trace 提煉成分層的、可溯源的多維反饋意見,實現(xiàn)經(jīng)驗的可觀測性;
      3. Evolve Agent 基于 git 溯源的組件歷史、反饋結(jié)果,構(gòu)建證據(jù)驅(qū)動的完整修改鏈路,對相應(yīng)組件進(jìn)行修改,實現(xiàn)優(yōu)化行為的可觀測性。



      (1)組件可觀測性:解耦的 “聲明式 Harness”

      Coding Agent 基于 NexAU 框架運行。AHE 把 Harness 拆成了七種正交的文件級組件:System Prompt、Tool Description、Tool Implementation、Middleware、Skill、Sub-agent Config、Long-term Memory。每個組件都是一個獨立的文件,有明確的掛載點,彼此之間結(jié)構(gòu)解耦。

      這種設(shè)計的巧妙之處在于:它讓 “失敗模式 - 單一組件” 的映射關(guān)系變得極其清晰。 所有修改通過 Git 進(jìn)行版本管理,每次變更都是一次可追溯、可審計、可回滾的 commit。

      目標(biāo) Coding Agent 則故意從一個 “零先驗” 的極簡形態(tài)起步:只有一個 run_shell_command 工具,沒有任何 Middleware、Skill 或 Sub-agent。這樣做是為了確保后續(xù)每一次新增組件、每一次 Prompt 改寫,都能被干凈地歸因。

      (2)經(jīng)驗可觀測性:Agent Debugger 把軌跡變成可消費資產(chǎn)

      一次完整評測所產(chǎn)生的原始軌跡動輒數(shù)千萬 Token,如果把它們直接丟給 Evolve Agent,其上下文窗口將瞬間被淹沒,什么代碼都改不了。

      AHE 開發(fā)了一套名為 Agent Debugger 的分層提煉流水線:底層完整記錄所有原始軌跡;中層由 Cleaner 去除重復(fù)的工具輸出;上層則通過一個 QA Sub-agent,針對每道題的多次 rollout 結(jié)果,自動切換提問策略。最后,所有單題分析匯聚成一份約 10K Token 的概覽報告,交給 Evolve Agent 消費。

      本質(zhì)上,這是一種漸進(jìn)式披露的設(shè)計。Evolve Agent 默認(rèn)只需閱讀概覽,但隨時可以查看單題細(xì)節(jié),在需要核實結(jié)論時回溯原始軌跡。10M 級別的數(shù)據(jù)由此變成了可并發(fā)、可消費、可審計的經(jīng)驗資產(chǎn)。

      (3)決策可觀測性:Evolve Agent 的 “證據(jù)驅(qū)動修改”



      Evolve Agent 的設(shè)計原則極其克制,目的是為了實現(xiàn)穩(wěn)定進(jìn)化:

      • 只能修改 workspace 內(nèi)的 Harness 組件文件,評測框架、LLM 配置、原始 System Prompt 均為只讀,杜絕任何繞過評測的 hacking 行為。
      • 每次修改必須附帶一份 “變更清單”,包括:失敗的證據(jù)(具體哪些任務(wù)失敗了)、推斷的根因、針對性的修改方案,以及自我聲明的預(yù)測(預(yù)計修復(fù)哪些任務(wù)、可能破壞哪些任務(wù))。每一輪修改后,由下一輪評測充當(dāng)驗證者:預(yù)測正確的修改保留,預(yù)測錯誤的修改自主決定回滾。

      如此一來,每一次 Harness 變動都不再是工程師的直覺、抽象經(jīng)驗,而是一條可被下一輪實驗所證偽的假說。Harness 進(jìn)化由此從藝術(shù)走向工程,從經(jīng)驗走向科學(xué)。

      實驗結(jié)果:超越人類專家,跨模型泛化



      在主實驗上,AHE 將 GPT-5.4 驅(qū)動的 Coding Agent 在 Terminal-Bench 2 上的 pass@1 分?jǐn)?shù)從最初的 69.7% 提升到了 77.0%,絕對提升 7.3 個百分點,相對提升 10.5%。這一成績不僅超過了同樣使用 GPT-5.4 的 OpenAI 官方 Codex-CLI(71.9%),也顯著優(yōu)于 ACE 和 Training Free-GRPO 等主流基線。

      更讓人驚喜的是泛化能力。

      跨任務(wù)泛化: 將在 Terminal-Bench 2 上演化得到的 Harness 凍結(jié)后,直接遷移到 SWE-Bench Verified 上,AHE 以更少的 Token 消耗實現(xiàn)了比 ACE 和 TF-GRPO 更高的成功率。這表明演化學(xué)到的不是 “如何刷 Terminal-Bench 2” 的特化知識,而是可遷移的通用工程經(jīng)驗。



      跨模型泛化: 同樣一份由 GPT-5.4 演化得到的 Harness,分別配到 Qwen-3.6-Plus、Gemini-3.1-Flash 和 DeepSeek-V4 上,不做任何再演化直接評測。結(jié)果是三種模型均獲得 +5.1 到 +10.1 個百分點的顯著提升,且模型越弱,提升越大。這套 Harness 并非為某個特定模型量身定制,而是學(xué)到了一些真正普適的結(jié)構(gòu)性原則。



      價值到底沉淀在哪里?

      事實比策略更可遷移

      在博客中,作者還提到了一些前期的失敗探索。為了快速迭代,團(tuán)隊最初只在 Terminal-Bench 2 的 30 道 hard 難度的題目上做 10 輪演化。結(jié)果題目通過數(shù)在 16-20 間反復(fù)震蕩,基本修一個壞一個。分析最終版本的 Harness 發(fā)現(xiàn),Evolve Agent 對特定任務(wù)寫了針對性的 hack:Golden Gate 的 splice-offset 檢測、Caffe 的完整工作流模板等等。這表明,過小的題集讓單一題目的信號過強(qiáng),抑制不住 agent 的 hack 傾向

      團(tuán)隊將題集擴(kuò)到 89 題的全集,并在 Evolve Agent 的 System Prompt 中加入顯式的方法論指導(dǎo),比如 “Safety/Creativity/Generality” 原則和 “Middleware > Tool Desc > Skill > Prompt” 的約束層級排序。結(jié)果 overfit 確實緩解了,但訓(xùn)練曲線在 75.3% 就早早觸頂不再上升,78% 的修改都落在 Middleware 層。人工引入的行為先驗,恰恰成了進(jìn)化的僵化之源

      最終版本做了兩個關(guān)鍵改動:一是在評測時每題跑兩次,通過 partial-pass 的 diff 定位最精準(zhǔn)的診斷信號;二是刪掉所有行為指導(dǎo),只保留證據(jù)驅(qū)動過程要求和回滾規(guī)則。

      結(jié)果上,不僅分?jǐn)?shù)上穩(wěn)步提升至 77.0%,修改分布也變得更加健康:middleware 37% + tool 48% + prompt 10%,沒有任何層級單獨占比超過一半,不同階段靈活調(diào)整。



      一個來自社區(qū)的慣性思維是 “先調(diào)整 Prompt”。然而,把 AHE 演化得到的四類組件(Memory、Tools、Middleware、System Prompt)逐一單獨放回最初的 Harness 上進(jìn)行消融實驗時,結(jié)果卻截然相反:Memory 單獨就能恢復(fù)全局增幅的 95% 以上,Tool 在中等難度題目上提升顯著,而 System Prompt 單獨遷移反而導(dǎo)致性能下降。

      一個可能的原因是:Prompt 的語義是策略性的(你應(yīng)該這樣做),而 Memory 和 Tool 的語義是事實性的(這里有一段可復(fù)用代碼)。事實比策略遷移性好,它們保留了信息,同時維持了泛化性。這或許也解釋了為什么人類試圖通過注入方法論來指導(dǎo) Evolve Agent 時會遭遇失敗:開發(fā)者習(xí)慣于教策略,而模型更擅長學(xué)事實。

      結(jié)語:可觀測的進(jìn)化循環(huán)會讓 AGI 加速到來

      AHE 帶來的最大啟示或許在于:當(dāng)模型足夠強(qiáng),搭建一個結(jié)構(gòu)化的、可觀測的演化環(huán)境,比直接開發(fā) Harness 更重要。搭建好觀測體系(讓 Evolve Agent 能訪問組件、軌跡、反饋),然后在全量數(shù)據(jù)上運行測試,就足夠演化出有競爭力的 Harness。無需替 Agent 思考任何方法論,只是給它一個清晰的 workspace、明確的修改接口和高質(zhì)量的反饋信號,Evolve Agent 的行為便自動向真實工程師收斂。

      是時候邁出第一步,讓 Harness 也開始進(jìn)化了。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      今年7月1日起,學(xué)校開除學(xué)生學(xué)籍、對學(xué)生退學(xué)處理,不授予學(xué)位、撤銷學(xué)位等行為,將被納入可行政復(fù)議范圍

      今年7月1日起,學(xué)校開除學(xué)生學(xué)籍、對學(xué)生退學(xué)處理,不授予學(xué)位、撤銷學(xué)位等行為,將被納入可行政復(fù)議范圍

      瀟湘晨報
      2026-05-20 09:19:10
      比學(xué)術(shù)造假更可怕的是,不造假飯碗都保不住!

      比學(xué)術(shù)造假更可怕的是,不造假飯碗都保不住!

      細(xì)說職場
      2026-05-20 12:02:31
      北京醫(yī)院搬遷潮:大量三甲醫(yī)院集體搬到五環(huán)外,評論區(qū)已經(jīng)吵翻

      北京醫(yī)院搬遷潮:大量三甲醫(yī)院集體搬到五環(huán)外,評論區(qū)已經(jīng)吵翻

      譚談社會
      2026-05-21 06:47:13
      傳統(tǒng)剎車用了100年,為什么突然被“干掉”了

      傳統(tǒng)剎車用了100年,為什么突然被“干掉”了

      Autolab
      2026-05-19 22:25:00
      反華言論遭反噬!清華AI天才怒辭職位,抗議將中國列為敵對國家

      反華言論遭反噬!清華AI天才怒辭職位,抗議將中國列為敵對國家

      觸摸史跡
      2026-05-21 01:19:24
      科學(xué)院院士方岱寧猝死國外:事發(fā)80天后官宣,學(xué)生披露內(nèi)幕

      科學(xué)院院士方岱寧猝死國外:事發(fā)80天后官宣,學(xué)生披露內(nèi)幕

      青梅侃史啊
      2026-05-21 11:39:05
      重磅:烏克蘭和德國研發(fā)新型遠(yuǎn)程導(dǎo)彈!擺脫美國衛(wèi)星系統(tǒng)依賴

      重磅:烏克蘭和德國研發(fā)新型遠(yuǎn)程導(dǎo)彈!擺脫美國衛(wèi)星系統(tǒng)依賴

      項鵬飛
      2026-05-20 20:09:27
      不帶印度,就不舒服?為何每逢對華合作,俄羅斯總想拉印度加入?

      不帶印度,就不舒服?為何每逢對華合作,俄羅斯總想拉印度加入?

      靜夜史君
      2026-05-21 00:33:47
      科學(xué)家發(fā)現(xiàn)迄今為止尋找外星生命最佳線索,探測器即將驗證

      科學(xué)家發(fā)現(xiàn)迄今為止尋找外星生命最佳線索,探測器即將驗證

      窺探宇宙1
      2026-05-20 13:00:06
      文班活著就行!我感覺,哈騰16次犯規(guī)啦

      文班活著就行!我感覺,哈騰16次犯規(guī)啦

      野球帝
      2026-05-21 11:48:12
      馬刺輸雷霆,主教練米奇責(zé)任重大!全場比賽5大昏招害慘文班亞馬

      馬刺輸雷霆,主教練米奇責(zé)任重大!全場比賽5大昏招害慘文班亞馬

      阿訊說天下
      2026-05-21 14:08:05
      全英吃瓜!35歲蛇蝎寶媽跨國勾結(jié)迪拜大毒梟,實時定位潑硫酸把毒販渣夫嘎了?

      全英吃瓜!35歲蛇蝎寶媽跨國勾結(jié)迪拜大毒梟,實時定位潑硫酸把毒販渣夫嘎了?

      英國報姐
      2026-05-19 21:42:03
      6次抵近、最近僅6米,英方稱俄2架戰(zhàn)機(jī)在黑海上空攔截英偵察機(jī)

      6次抵近、最近僅6米,英方稱俄2架戰(zhàn)機(jī)在黑海上空攔截英偵察機(jī)

      新京報
      2026-05-21 11:26:04
      存儲芯片史上最罕見的逆襲!

      存儲芯片史上最罕見的逆襲!

      君臨財富
      2026-05-20 17:11:28
      馬斯克大兒子,是馬斯克心中最大的痛,在做變性手術(shù)后現(xiàn)在的樣子

      馬斯克大兒子,是馬斯克心中最大的痛,在做變性手術(shù)后現(xiàn)在的樣子

      西樓知趣雜談
      2026-05-20 14:29:07
      《主角》茍師去世看哭觀眾,孫浩發(fā)文告別,能唱會演全網(wǎng)呼吁拿獎

      《主角》茍師去世看哭觀眾,孫浩發(fā)文告別,能唱會演全網(wǎng)呼吁拿獎

      娛君墜星河
      2026-05-21 10:41:15
      何小鵬掀桌大三排SUV!26.98萬開賣GX,比預(yù)售低5萬

      何小鵬掀桌大三排SUV!26.98萬開賣GX,比預(yù)售低5萬

      車東西
      2026-05-20 23:19:46
      馬刺晉級概率跌至40%:福克斯歸期未定 哈珀大腿拉傷或休1周以上

      馬刺晉級概率跌至40%:福克斯歸期未定 哈珀大腿拉傷或休1周以上

      顏小白的籃球夢
      2026-05-21 12:14:23
      國民黨徹底撕破臉!

      國民黨徹底撕破臉!

      安安說
      2026-05-20 10:43:30
      南昌大媽廣場舞成癮,丈夫病重不管不問,丈夫去世后過戶時卻傻眼了

      南昌大媽廣場舞成癮,丈夫病重不管不問,丈夫去世后過戶時卻傻眼了

      黃家湖的憂傷
      2025-03-09 20:52:35
      2026-05-21 14:51:00
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      13048文章數(shù) 142651關(guān)注度
      往期回顧 全部

      科技要聞

      好到離譜也不夠!英偉達(dá)交出816億美元營收

      頭條要聞

      小學(xué)網(wǎng)購45把雨傘全損退貨 記者采訪門衛(wèi)稱領(lǐng)導(dǎo)都不在

      頭條要聞

      小學(xué)網(wǎng)購45把雨傘全損退貨 記者采訪門衛(wèi)稱領(lǐng)導(dǎo)都不在

      體育要聞

      常住人口7000的小鎮(zhèn),擁有了一支德甲球隊

      娛樂要聞

      同行吐槽汪涵野心重 爆雷37萬人受損

      財經(jīng)要聞

      英偉達(dá)業(yè)績超預(yù)!指引再新高仍不夠亮眼

      汽車要聞

      26.98萬起步 看小鵬GX如何詮釋一車多能以及滿配的科技與豪華

      態(tài)度原創(chuàng)

      本地
      親子
      健康
      房產(chǎn)
      軍事航空

      本地新聞

      用云錦的方式,打開江蘇南京

      親子要聞

      韓國大伯哥被韓國公婆耽誤的人生,現(xiàn)在把心思都放在安安佑佑身上

      專家:別把PRP當(dāng)作“自體干細(xì)胞”

      房產(chǎn)要聞

      順德澐璟樓王『澐冠』啟幕|一場高階共鳴的靜奢美學(xué)之約

      軍事要聞

      伊朗警告:任何新襲擊將促使戰(zhàn)場擴(kuò)大到中東以外

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 伊人av中文av狼人av| 亚洲综合色婷婷七月丁香| 极品少妇的粉嫩小泬视频| 久久午夜伦鲁片免费无码| 国产AV一区二区三区| 窝窝av| 白嫩少妇喷水正在播放| 国产99视频精品免费视频7| 免费精品国偷自产在线在线| 亚洲精品乱码久久久久久蜜桃不卡 | 国产精品成人影院在线观看| 男女裸体做爰爽爽全过| 蜜臀久久精品亚洲一区| 国产综合色精品一区二区三区| 国产精品igao视频| 激情综合网激情五月俺也想| 一区二区中文| 99热国产这里只有精品9| 91剧情国产极品高跟丝袜| 无码人妻斩一区二区三区| 人妻少妇精品视频三区二区| 色翁荡媳又硬又粗又长视频| 国产成人AV区一区二区三| 国产成人露脸自拍视频| 韩国无码av片在线观看网站| 激情五月天伊人久久| 混交群体交乱嗯啊sp| 草草影院发布页| 久久久999国产精品成人| 一级a性色生活片久久无码| 成人无码视频| 国产女人综合久久精品视| 县级市| 色综合久久中文综合久久激情| 人妻美妇疯狂迎合系列视频| 亚洲熟女性视频| 成年大片免费视频观看| 日本亚洲最大的色成网站www| 一个人看的www视频免费观看| 好男人官网资源在线观看| 尤物一区|