<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      全球排名前三,復旦自進化Harness Engineering讓GPT5.4再漲7個點

      0
      分享至



      機器之心編輯部

      2026 年以來,OpenAI、Anthropic、LangChain 等機構紛紛發布關于 Harness Engineering 的技術博客,OpenClaw、Hermes Agent 等項目的火爆更讓 Harness Engineering 成為業界熱詞。人們的共識正在形成:模型的能力釋放,依賴于一套精密的外部框架

      Harness 的開發與優化是一個工程問題,需要結合模型能力、任務環境共同設計。然而,模型自身以月為單位進化,任務場景往長尾分布發展,Harness 的進化與迭代卻高度依賴人工經驗。 這引出了一個核心問題:在 Harness Engineering 的迭代循環中,哪些部分可以被自動化?如何讓 Harness 自動地從經驗中學習并改進?

      來自復旦大學、北京大學、上海奇績智峰的團隊提出Agentic Harness Engineering (AHE),這是一套可觀測性(Observability)驅動的 Harness 自動優化方法,端到端貫穿 Harness Engineering 的全流程,實現了模型能動性的最大程度釋放。



      • 論文標題:Agentic Harness Engineering: Observability-Driven Automatic Evolution of Coding-Agent Harnesses
      • 論文鏈接:arxiv.org/abs/2604.25850
      • 代碼倉庫:github.com/china-qijizhifeng/agentic-Harness-engineering
      • 項目博客:https://dawning-road.github.io/blog/agentic-Harness-engineering

      在實驗期間,使用 GPT?5.4,AHE 在 Terminal-Bench 2 上的分數從 69.7 迭代到 77.0。GPT-5.5發布后,AHE迅速迭代出與之適配的Harness,在 Leaderboard 上位列全球第三



      并且,自動迭代得到的 Harness 展現出良好的模型間泛化以及任務間泛化能力,確保不是在 overfit 評測集。

      目前論文在社交平臺 X 上收獲大量關注,已經有 10w + 瀏覽討論。



      為什么要設計可觀測體系?

      Harness Engineering 的三個視角



      從形態上看,模型和 Harness 共同構成一個主體和環境進行交互。模型的所有行為都發生在概率空間中,是信息壓縮、智能發生、不確定性的來源,而 Harness 是包裹在外的確定性組件:system prompt、工具定義與實現、middleware/hook、skill 文檔、sub-agent 編排、長期記憶、日志與觀測。在 agent 邁向長程、生產力任務過程中,Harness 是讓模型行為穩定、一致、可控的重要保證。

      從目的上看,Harness 的職能之一是在模型和環境之間管理一條雙向的上下文流:一側在合適的時機把任務、用戶意圖、環境狀態、外部信息傳進模型,另一側把模型的動作忠實地記錄、校驗后交回環境執行。

      過去,開發者需要手動設計 prompt、復制 terminal 輸出、復制外部文檔內容給模型,上下文分布在互不相通的空間里,人類依據直覺和觀察來決定 context 的構成。因此,Harness 的設計目標之一,就是讓 context 的流動可以更加精準、更加自主。

      基于以上的形態與目標,Harness Engineering 的方法論是什么?

      最直觀的,是獨立優化各個組件代碼,或者稱之為 Agent Infra。開發者社區貢獻了大量有用的 Harness 組件,用于記憶、上下文管理、沙盒環境、軌跡管理,這依賴于扎實的工程開發與優化,讓各個部分的獨立地變得更加高效、安全、穩定。

      進一步地,對于任意一個特定環境,若要找到最優的 Harness,這就成為了一個模型 x Harness x 環境的組合優化問題。不再能像開發單獨組件那樣有一個明確的規則,不再能利用人類開發者的先驗知識一步到位找出最優組合,而是要開發、觀測、迭代,根據模型的運行軌跡、評測分數,反復調整。

      人類的注意力是稀缺的,因此,必須讓 agent 本身也參與到 Harness 優化的過程中來。只要把優化目標、動作空間、狀態空間都以一種 agent 可讀的方式呈現,那么就可以引入 agent 進行自主優化。這便是 AHE 設計可觀測體系的出發點。

      可觀測體系:組件、經驗、決策

      Harness 的開發也分為幾個階段:編寫組件、運行 agent、收集反饋。這個過程反復迭代,持續運行。如果要想讓 agent 接手人類的工作,就需要在此過程中所產生的 context 可觀測,并且做好 context 結構化、層次化。

      在此過程中,并不限制 agent 的自主決策空間,只依賴評測結果,以及更多分層信息來輔助它精準修改、準確歸因。

      AHE 方法由三個角色構成:Coding Agent 負責運行測試,Agent Debugger 負責整理軌跡,Evolve Agent 負責修改 Coding Agent 的 Harness 實現進化。

      整個可觀測體系分三部分:

      1. NexAU 提供各部分解耦的 Harness,提供 Harness 組件的可觀測性;
      2. Agent Debugger 把 10M token 量級的 raw trace 提煉成分層的、可溯源的多維反饋意見,實現經驗的可觀測性;
      3. Evolve Agent 基于 git 溯源的組件歷史、反饋結果,構建證據驅動的完整修改鏈路,對相應組件進行修改,實現優化行為的可觀測性。



      (1)組件可觀測性:解耦的 “聲明式 Harness”

      Coding Agent 基于 NexAU 框架運行。AHE 把 Harness 拆成了七種正交的文件級組件:System Prompt、Tool Description、Tool Implementation、Middleware、Skill、Sub-agent Config、Long-term Memory。每個組件都是一個獨立的文件,有明確的掛載點,彼此之間結構解耦。

      這種設計的巧妙之處在于:它讓 “失敗模式 - 單一組件” 的映射關系變得極其清晰。 所有修改通過 Git 進行版本管理,每次變更都是一次可追溯、可審計、可回滾的 commit。

      目標 Coding Agent 則故意從一個 “零先驗” 的極簡形態起步:只有一個 run_shell_command 工具,沒有任何 Middleware、Skill 或 Sub-agent。這樣做是為了確保后續每一次新增組件、每一次 Prompt 改寫,都能被干凈地歸因。

      (2)經驗可觀測性:Agent Debugger 把軌跡變成可消費資產

      一次完整評測所產生的原始軌跡動輒數千萬 Token,如果把它們直接丟給 Evolve Agent,其上下文窗口將瞬間被淹沒,什么代碼都改不了。

      AHE 開發了一套名為 Agent Debugger 的分層提煉流水線:底層完整記錄所有原始軌跡;中層由 Cleaner 去除重復的工具輸出;上層則通過一個 QA Sub-agent,針對每道題的多次 rollout 結果,自動切換提問策略。最后,所有單題分析匯聚成一份約 10K Token 的概覽報告,交給 Evolve Agent 消費。

      本質上,這是一種漸進式披露的設計。Evolve Agent 默認只需閱讀概覽,但隨時可以查看單題細節,在需要核實結論時回溯原始軌跡。10M 級別的數據由此變成了可并發、可消費、可審計的經驗資產。

      (3)決策可觀測性:Evolve Agent 的 “證據驅動修改”



      Evolve Agent 的設計原則極其克制,目的是為了實現穩定進化:

      • 只能修改 workspace 內的 Harness 組件文件,評測框架、LLM 配置、原始 System Prompt 均為只讀,杜絕任何繞過評測的 hacking 行為。
      • 每次修改必須附帶一份 “變更清單”,包括:失敗的證據(具體哪些任務失敗了)、推斷的根因、針對性的修改方案,以及自我聲明的預測(預計修復哪些任務、可能破壞哪些任務)。每一輪修改后,由下一輪評測充當驗證者:預測正確的修改保留,預測錯誤的修改自主決定回滾。

      如此一來,每一次 Harness 變動都不再是工程師的直覺、抽象經驗,而是一條可被下一輪實驗所證偽的假說。Harness 進化由此從藝術走向工程,從經驗走向科學。

      實驗結果:超越人類專家,跨模型泛化



      在主實驗上,AHE 將 GPT-5.4 驅動的 Coding Agent 在 Terminal-Bench 2 上的 pass@1 分數從最初的 69.7% 提升到了 77.0%,絕對提升 7.3 個百分點,相對提升 10.5%。這一成績不僅超過了同樣使用 GPT-5.4 的 OpenAI 官方 Codex-CLI(71.9%),也顯著優于 ACE 和 Training Free-GRPO 等主流基線。

      更讓人驚喜的是泛化能力。

      跨任務泛化: 將在 Terminal-Bench 2 上演化得到的 Harness 凍結后,直接遷移到 SWE-Bench Verified 上,AHE 以更少的 Token 消耗實現了比 ACE 和 TF-GRPO 更高的成功率。這表明演化學到的不是 “如何刷 Terminal-Bench 2” 的特化知識,而是可遷移的通用工程經驗。



      跨模型泛化: 同樣一份由 GPT-5.4 演化得到的 Harness,分別配到 Qwen-3.6-Plus、Gemini-3.1-Flash 和 DeepSeek-V4 上,不做任何再演化直接評測。結果是三種模型均獲得 +5.1 到 +10.1 個百分點的顯著提升,且模型越弱,提升越大。這套 Harness 并非為某個特定模型量身定制,而是學到了一些真正普適的結構性原則。



      價值到底沉淀在哪里?

      事實比策略更可遷移

      在博客中,作者還提到了一些前期的失敗探索。為了快速迭代,團隊最初只在 Terminal-Bench 2 的 30 道 hard 難度的題目上做 10 輪演化。結果題目通過數在 16-20 間反復震蕩,基本修一個壞一個。分析最終版本的 Harness 發現,Evolve Agent 對特定任務寫了針對性的 hack:Golden Gate 的 splice-offset 檢測、Caffe 的完整工作流模板等等。這表明,過小的題集讓單一題目的信號過強,抑制不住 agent 的 hack 傾向

      團隊將題集擴到 89 題的全集,并在 Evolve Agent 的 System Prompt 中加入顯式的方法論指導,比如 “Safety/Creativity/Generality” 原則和 “Middleware > Tool Desc > Skill > Prompt” 的約束層級排序。結果 overfit 確實緩解了,但訓練曲線在 75.3% 就早早觸頂不再上升,78% 的修改都落在 Middleware 層。人工引入的行為先驗,恰恰成了進化的僵化之源

      最終版本做了兩個關鍵改動:一是在評測時每題跑兩次,通過 partial-pass 的 diff 定位最精準的診斷信號;二是刪掉所有行為指導,只保留證據驅動過程要求和回滾規則。

      結果上,不僅分數上穩步提升至 77.0%,修改分布也變得更加健康:middleware 37% + tool 48% + prompt 10%,沒有任何層級單獨占比超過一半,不同階段靈活調整。



      一個來自社區的慣性思維是 “先調整 Prompt”。然而,把 AHE 演化得到的四類組件(Memory、Tools、Middleware、System Prompt)逐一單獨放回最初的 Harness 上進行消融實驗時,結果卻截然相反:Memory 單獨就能恢復全局增幅的 95% 以上,Tool 在中等難度題目上提升顯著,而 System Prompt 單獨遷移反而導致性能下降。

      一個可能的原因是:Prompt 的語義是策略性的(你應該這樣做),而 Memory 和 Tool 的語義是事實性的(這里有一段可復用代碼)。事實比策略遷移性好,它們保留了信息,同時維持了泛化性。這或許也解釋了為什么人類試圖通過注入方法論來指導 Evolve Agent 時會遭遇失?。洪_發者習慣于教策略,而模型更擅長學事實。

      結語:可觀測的進化循環會讓 AGI 加速到來

      AHE 帶來的最大啟示或許在于:當模型足夠強,搭建一個結構化的、可觀測的演化環境,比直接開發 Harness 更重要。搭建好觀測體系(讓 Evolve Agent 能訪問組件、軌跡、反饋),然后在全量數據上運行測試,就足夠演化出有競爭力的 Harness。無需替 Agent 思考任何方法論,只是給它一個清晰的 workspace、明確的修改接口和高質量的反饋信號,Evolve Agent 的行為便自動向真實工程師收斂。

      是時候邁出第一步,讓 Harness 也開始進化了。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      被禁多年的云南鴕鳥肉事件:20多名青少年被殺,兇手曾多次殺人

      被禁多年的云南鴕鳥肉事件:20多名青少年被殺,兇手曾多次殺人

      年代回憶
      2026-05-18 20:56:44
      2026世界杯12組實力排名:法國陷死亡之組,意大利缺席

      2026世界杯12組實力排名:法國陷死亡之組,意大利缺席

      趙或是個熱血青年
      2026-05-20 07:14:44
      商務部正式確認:將引進200架波音飛機!訂單估值或190億美元?

      商務部正式確認:將引進200架波音飛機!訂單估值或190億美元?

      王爺說圖表
      2026-05-20 17:05:16
      藏身墓地、晝伏夜出、不留指紋!周克華8年懸案,為何震動全國?

      藏身墓地、晝伏夜出、不留指紋!周克華8年懸案,為何震動全國?

      混沌錄
      2026-05-19 11:48:28
      新加坡蚊子去哪了?全球搞不定的事,一個熱帶小國卻用50年做到了

      新加坡蚊子去哪了?全球搞不定的事,一個熱帶小國卻用50年做到了

      貍貓之一的動物圈
      2026-05-18 09:55:25
      余震加暴雨!探訪柳州地震現場,村民哽咽講述:孩子還沒住的新房成了危房,家人沒事就是萬幸;專家:已排查出200多棟房屋不能再入住

      余震加暴雨!探訪柳州地震現場,村民哽咽講述:孩子還沒住的新房成了危房,家人沒事就是萬幸;專家:已排查出200多棟房屋不能再入住

      大風新聞
      2026-05-20 13:38:04
      騎士輸球后三消息,主帥談哈登防守,米切爾更衣室開罵,老板發話

      騎士輸球后三消息,主帥談哈登防守,米切爾更衣室開罵,老板發話

      錢說體育
      2026-05-20 12:58:36
      近億元銀磚運輸途中遺失13塊:神秘人交還12塊領走23.5萬元賞金,司機身背39萬元債務,仍在苦尋最后一塊

      近億元銀磚運輸途中遺失13塊:神秘人交還12塊領走23.5萬元賞金,司機身背39萬元債務,仍在苦尋最后一塊

      大風新聞
      2026-05-20 10:43:30
      最高5年3.06億美元!文班7月7日可頂薪續約 國際籃聯曬外星人海報

      最高5年3.06億美元!文班7月7日可頂薪續約 國際籃聯曬外星人海報

      羅說NBA
      2026-05-19 21:32:18
      馬斯克分享震撼視頻,全世界都知道了重慶東站!

      馬斯克分享震撼視頻,全世界都知道了重慶東站!

      GA環球建筑
      2026-05-19 22:08:52
      獨臂父親參加兒子的家長會,因太寒酸被笑話,校長一見他卻突然下跪

      獨臂父親參加兒子的家長會,因太寒酸被笑話,校長一見他卻突然下跪

      燦爛夏天
      2025-04-06 17:24:59
      于文華:一婚下嫁李凡,三拒尹相杰,再婚嫁小伙,不生孩子也幸福

      于文華:一婚下嫁李凡,三拒尹相杰,再婚嫁小伙,不生孩子也幸福

      飄飄然的娛樂匯
      2026-05-18 20:05:05
      保羅:文班不會回避亞歷山大MVP領獎儀式,他反而會激勵自己

      保羅:文班不會回避亞歷山大MVP領獎儀式,他反而會激勵自己

      懂球帝
      2026-05-20 14:44:32
      神二十三女航天員亮相,身份超乎預料,首飛將在太空停留一年

      神二十三女航天員亮相,身份超乎預料,首飛將在太空停留一年

      近史博覽
      2026-05-20 09:50:19
      河南一景區現“爬不動了吧哈哈哈哈”標語,游客感覺不被尊重,景區:已撤除,本意是緩解爬山壓力

      河南一景區現“爬不動了吧哈哈哈哈”標語,游客感覺不被尊重,景區:已撤除,本意是緩解爬山壓力

      極目新聞
      2026-05-19 14:48:26
      騎士最大軟肋!哈登16中5+三分8中1 決戰被瘋狂“點名”打爆

      騎士最大軟肋!哈登16中5+三分8中1 決戰被瘋狂“點名”打爆

      醉臥浮生
      2026-05-20 11:00:07
      中國家門口生變,東盟11國選邊站隊,緬甸交權菲律賓,菲改了身份

      中國家門口生變,東盟11國選邊站隊,緬甸交權菲律賓,菲改了身份

      安珈使者啊
      2026-05-20 14:38:12
      配角的實力有多強?當志愿軍浴血奮戰時,朝鮮人民軍在干什么?

      配角的實力有多強?當志愿軍浴血奮戰時,朝鮮人民軍在干什么?

      混沌錄
      2026-05-19 20:17:54
      泰國內閣決定取消60天免簽政策

      泰國內閣決定取消60天免簽政策

      新京報
      2026-05-19 19:56:06
      國民黨徹底撕破臉!

      國民黨徹底撕破臉!

      安安說
      2026-05-20 10:43:30
      2026-05-20 19:12:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      13045文章數 142651關注度
      往期回顧 全部

      科技要聞

      一文看懂谷歌I/O2026:谷歌打響智能體大戰

      頭條要聞

      鄭麗文:特朗普叫臺灣不要講"臺獨" 民進黨還裝聽不懂

      頭條要聞

      鄭麗文:特朗普叫臺灣不要講"臺獨" 民進黨還裝聽不懂

      體育要聞

      不再美麗的阿森納,終于成為英超冠軍

      娛樂要聞

      王菲“沒事兒”,成年人學不來的松弛

      財經要聞

      白酒榜|汾酒營收凈利雙增 口子窖"造富"

      汽車要聞

      煥新極氪009上市41.38萬起 齊家版讓MPV回歸家庭

      態度原創

      時尚
      藝術
      健康
      親子
      軍事航空

      為了攻克漸凍癥,她把自己活成了“破冰”的人

      藝術要聞

      18幅 玫瑰花與女子畫作

      專家:別把PRP當作“自體干細胞”

      親子要聞

      妹妹犯錯被媽媽教育,十分委屈地找哥哥告狀,哥哥騎著玩具車沖過來討說法

      軍事要聞

      俄媒盛贊中國軍人:身姿挺拔 站如松柏

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲AV天天做在线观看| 久久亚洲人成电影网| 久热香蕉av在线爽青青| 亚洲欧洲制服| 综合网激情五月| 国产欧美另类久久精品蜜芽| 亚洲AV中文无码乱人伦在线视色| 妻子的秘密波多野结衣| 成人国产亚洲欧美成人综合网| 人妻少妇被粗大爽在线| 孕妇特级毛片ww无码内射| 亚洲中又文字幕精品av| 国产精品福利一级久久| 久久国产亚洲AV无码专区| 亚洲人成一区二区| 欧美性色黄大片www喷水| 国产福利片无码区在线观看| 人人妻人人添人人爽欧美一区| 欧美亚洲国产一区二区三区| 狼群社区视频WWW| 一区二区精品| 国产精品久视频| 国产资源站| 体育| 久久精品国产88精品久久| 精品一区二区三区四区五区| 久久九九有精品国产尤物| 国产中文在线亚洲精品官网| 中文字幕精品亚洲一区| 东京热无码av男人的天堂| 国产高潮视频在线观看| 亚欧乱色国产精品免费| 国产另类在线视频| 偷拍专区一区二区三区| 江孜县| 极品蜜桃臀一区二区av| 亚洲中文字幕久久无码精品| 国产免费人成网站视频| 精品国产成人av在线| 风流娇妻肉交换hd在线视频| 免费看成人aa片无码视频吃奶|