<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      Agent 自己學 Skill,到底學得怎么樣?CMU 首個系統性基準來了

      0
      分享至


      CMU和Amazon AGI推出首個Agent Skill持續學習系統性基準SkillLearnBench,把答案拆到了Skill 生成、調用、執行的每一層。

      Skill 擴展了 AI Agent 的能力邊界,也讓“給 Agent 配一本技能手冊”的思路受到廣泛關注。開發者們開始嘗試把自己的經驗“蒸餾”為各式各樣的 Skill,讓 Agent 在執行任務中直接調用。

      但熱度背后,一個根本矛盾始終存在:高質量 Skill 依賴人類專家手工編寫,而真實世界的任務千變萬化,任何預先準備好的技能庫都很難覆蓋所有情況。

      于是,越來越多研究者開始把目光轉向Skill 的持續學習 (Skill Continual Learning):讓 Agent 在執行任務的過程中自動積累 Skill,邊干邊學,而不是等人來寫。

      但隨之而來的問題是:怎么去衡量不同持續學習方法的好壞?不同方法生成的 Skill 到底好在哪里、差在哪里?現有方法往往在各自的數據集和任務環境中進行驗證,缺乏統一評測環境;評估指標也大多停留在任務成功率層面,難以進一步區分失敗原因:是 Skill 本身質量的問題,還是 Agent 沒有正確調用 Skill?

      為回答這些問題,來自 Carnegie Mellon University 和 Amazon AGI 的研究團隊提出了SkillLearnBench首個面向 Agent Skill Continual Learning 的系統性評測基準,旨在統一環境下從 Skill 本身質量、Agent 執行軌跡、最終任務結果 三個層面評估不同 Skill Continual Learning 方法的表現。


      論文鏈接:https://arxiv.org/abs/2604.20087

      開源代碼倉庫:https://github.com/cxcscmu/SkillLearnBench

      網站:https://cxcscmu.github.io/SkillLearnBench/

      01


      SkillLearnBench:

      首個 Agent Skill Continual Learning 的系統性基準

      SkillLearnBench 的任務集圍繞一個核心標準構建:這些任務必須真正依賴 Skill,即 Agent 在沒有 Skill 的情況下難以穩定完成。每個任務都配有人類編寫的 Skill (Human-authored),并包含多個經過改寫的實例;這些實例通過改變輸入數據、參數、約束條件或任務表述,檢驗生成的 Skill 是否真正學到了可遷移的任務流程,而不是只對單個樣例有效。最終,SkillLearnBench 包含 20 個技能依賴任務、100 個任務實例,覆蓋軟件工程、信息檢索、數據分析等 6 大類別、15 個子領域。同時,每個實例都配有確定性的 verifier,用于判斷 Agent 是否真正完成任務。


      SkillLearnBench 的另一個關鍵設計是構建了一套多維度評估框架。研究者認為,一個 Skill 的持續學習方法首先會生成 Skill 文檔本身,隨后會影響 Agent 的執行軌跡,最終才決定任務結果;如果只看最終準確率,就很難判斷方法到底失敗在哪一步。因此,SkillLearnBench 將評估拆成三個層面:

      1. Skill Quality,即 Skill 本身寫得怎么樣。研究團隊提出了 coverage、executability 和 safety 三個指標去評估生成的 Skill:它是否覆蓋了解題所需的關鍵知識,是否足夠完整、前后邏輯一致且可復用,以及是否存在安全風險。

      2. Trajectory Analysis,即 Agent 使用 Skill 后的執行軌跡是否合理。這里不僅看 Agent 是否調用了 Skill ,還會分析是否按照正確順序完成關鍵操作。

      3. Task Outcome,即最終任務是否成功,以及完成任務消耗了多少 token。

      02


      實驗結果

      論文在 SkillLearnBench 上評估了四種代表性的 Skill 持續學習方法:

      1. One-Shot:單輪生成 Skill,不進行反饋修正。

      2. Self Feedback:Agent 先生成 Skill 并嘗試任務,再根據自己的執行過程反思和修改 Skill 。

      3. Teacher Feedback:引入外部 teacher,根據失敗情況給出修改建議,引導 Agent 多輪改進 Skill 。

      4.Skill Creator:使用 Anthropic 官方的 skill-creator 引導 Agent 生成 Skill。



      主要發現:持續學習方法能夠生成有效 Skill,但與人類編寫 Skill 仍有明顯差距

      表 2 中的實驗結果顯示,所有持續學習方法整體上都優于 no-skill baseline。即便當前自動生成的 Skill 并不完美,它們仍然能夠為 Agent 提供一定幫助。

      但是,這些方法生成的 Skill 與人類專家編寫的 Skill 之間仍存在顯著差距。no-skill baseline 的平均準確率約為 10.17%,人類專家編寫的 Skill 可達到 74.50%;相比之下,當前自動生成 Skill 的方法大多停留在 27%–31% 左右。也就是說,持續學習方法確實能夠提升 Agent 表現,但也只是填補了 no-skill baseline 與人類專家編寫 Skill 之間的一部分差距。

      其中,Self Feedback 在平均準確率和 token 效率上表現相對最好;Skill Creator 的 Skill 調用率最高,但準確率并不總是最高。這說明一個重要問題:Skill 被頻繁調用,并不代表它真的包含了解題所需的核心邏輯。

      更強的模型不一定生成更好的 Skill

      一個反直覺發現是:更強的 LLM 并不穩定地產生更好的 Skill。較強模型有時會寫出更精確但也更“死板”的 Skill。這種 Skill 在當前實例上看似合理,但在任務實例變化后反而容易失效。相比之下,中等規模模型有時能在具體性和泛化性之間取得更好的平衡。

      這說明 Skill 生成并不是單純靠擴大模型規模就能解決的問題。一個好的 Skill 不僅要“說得多、說得細”,還要抓住跨實例穩定存在的核心任務邏輯。

      當前 Skill 持續學習方法更適合結構化任務,開放式任務仍是難點

      論文還發現, Skill 持續學習方法能帶來多少收益,很大程度上取決于任務類型。如表 3 所示,在 Software Engineering 和 Productivity Tools 這類任務中,流程相對清晰、可復用,Skill 可以編碼較為穩定的操作步驟,帶來的提升更明顯。相反,在開放性更強、實例差異更大的任務中,持續學習方法生成的 Skill 可能反而過度約束了Agent。

      這也帶來一個啟示:未來的 Agent Skill 生成方法不能只依賴統一的模板,而需要根據任務類型調整生成 Skill 的粒度、結構和調用方式。


      外部反饋比自我反思更能帶來改進

      在多輪 Skill 演化實驗中,Teacher Feedback 和 Self Feedback 呈現出明顯差異。如圖 4 所示,Self Feedback 在多輪反思后并不總能持續進步,甚至可能出現 recursive drift:Agent 反復修改 Skill,但沒有新的外部信息輸入,只是重組已有內容,結果逐漸偏離正確執行路徑。相反,Teacher Feedback 由于引入了外部指導,能夠在多輪中持續補充缺失信息,使 Skill 的 coverage 指標和對應任務表現逐步提升。

      因此,有效的 Skill Continual Learning 方法需要引入可靠的外部信號,例如 verifier 反饋、專家反饋,而不是單純依賴模型自我反思。


      03


      總結

      SkillLearnBench 不只是提出了一個新的 benchmark,也為 Agent Skill 持續學習的研究提供了一個更細粒度的分析框架:從 Skill 生成,到 Skill 調用,再到任務完成,逐層定位瓶頸。它系統性地回答了當前 Agent 研究中的一個關鍵問題:目前的持續學習方法是否真的能夠生成有效 Skill?

      答案是:可以,但還遠遠不夠。

      SkillLearnBench 的實驗結論也為后續研究帶來啟示:未來的 Skill 生成研究不能只關注 Skill 文檔是否寫得“豐富”,而要關注兩個更關鍵的問題。

      第一,Skill 是否真正捕捉解決任務的核心邏輯。很多失敗并不是因為 Skill 格式不規范,或者寫得不夠長,而是因為它缺少關鍵計算步驟、參數選擇邏輯、驗證機制或工具調用細節。

      第二,Skill 是否能被 Agent 正確發現、調用并執行。一個好的 Skill 不只是靜態文檔,也必須能進入 Agent 的實際決策過程,改變執行軌跡,并最終提高任務成功率。

      隨著 Agent 從一次性任務執行走向長期自主學習,如何讓它們從經驗中提煉、保存并復用高質量 Skill,將成為構建下一代智能體系統的重要問題。SkillLearnBench 為這一方向提供了首個系統化評測平臺,也為后續研究指出了清晰的改進路徑。

      未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!

      公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      互聯網是有記憶的,她的黑歷史一大堆啊!

      互聯網是有記憶的,她的黑歷史一大堆啊!

      BenSir本色說
      2026-04-15 22:38:07
      耿同學被下套?接到“神秘”電話!要求淡化上海大學論文造假事件

      耿同學被下套?接到“神秘”電話!要求淡化上海大學論文造假事件

      趣筆談
      2026-05-16 09:04:28
      陳毅讓算命先生看手相,事后對警衛員說:此人必須重用

      陳毅讓算命先生看手相,事后對警衛員說:此人必須重用

      鶴羽說個事
      2026-05-14 22:36:17
      兩性關系:55-65歲這十年,惜命最好的方式,不是鍛煉,做好這6點

      兩性關系:55-65歲這十年,惜命最好的方式,不是鍛煉,做好這6點

      三農老歷
      2026-04-13 17:10:06
      WC!突發內訌!雄鹿最快速度交易...

      WC!突發內訌!雄鹿最快速度交易...

      技巧君侃球
      2026-05-15 15:46:09
      杭州街頭跪地救人女子身份曝光!新華社親自點名,工作單位被曝光

      杭州街頭跪地救人女子身份曝光!新華社親自點名,工作單位被曝光

      小陸搞笑日常
      2026-05-16 00:08:50
      上海零售業資本變局:告別十余年托管,國資龍頭百聯股份“甩掉”虧損的聯華超市

      上海零售業資本變局:告別十余年托管,國資龍頭百聯股份“甩掉”虧損的聯華超市

      時代財經
      2026-05-14 23:18:33
      王少杰辦理離職手續!

      王少杰辦理離職手續!

      體育哲人
      2026-05-15 18:14:42
      上海87-82戰勝北京!賽后數據一清二楚,不是王哲林 最大功臣是他

      上海87-82戰勝北京!賽后數據一清二楚,不是王哲林 最大功臣是他

      小火箭愛體育
      2026-05-15 21:32:09
      來了來了!19歲超級新星!正式打進中國男籃

      來了來了!19歲超級新星!正式打進中國男籃

      籃球實戰寶典
      2026-05-15 17:19:02
      全紅嬋媽媽住院照曝光!已經無力握住嬋寶的手,嬋寶的話字字催淚

      全紅嬋媽媽住院照曝光!已經無力握住嬋寶的手,嬋寶的話字字催淚

      喜歡歷史的阿繁
      2026-05-15 18:25:43
      形勢已然大變!西方媒體集體改口:中國,已無需再向世界證明什么

      形勢已然大變!西方媒體集體改口:中國,已無需再向世界證明什么

      看盡人間百態
      2026-04-09 23:55:01
      馬斯克訪華像回家,母親已長住上海,兒子身價萬億她還做視頻帶貨

      馬斯克訪華像回家,母親已長住上海,兒子身價萬億她還做視頻帶貨

      云舟史策
      2026-05-16 07:16:45
      他曾是129師旅長,建國后搭檔成為開國上將,他卻淪為剃頭匠

      他曾是129師旅長,建國后搭檔成為開國上將,他卻淪為剃頭匠

      墨策史
      2026-05-16 08:35:46
      毫不意外!特朗普專機啟程返美,禁帶中國物品,收走扔進垃圾桶?

      毫不意外!特朗普專機啟程返美,禁帶中國物品,收走扔進垃圾桶?

      骨子里的一身傲氣
      2026-05-16 02:50:09
      兩次嫁給梁靖崑,退圈安心照顧兩個兒子,如今丈夫成為大學教授

      兩次嫁給梁靖崑,退圈安心照顧兩個兒子,如今丈夫成為大學教授

      杰絲聊古今
      2026-05-16 09:02:46
      郵報:伯恩茅斯主場翻新工程有重大進展,但僅增加800個座位

      郵報:伯恩茅斯主場翻新工程有重大進展,但僅增加800個座位

      懂球帝
      2026-05-16 09:27:06
      松下L10發布:一臺為"塑造情緒"而生的口袋相機

      松下L10發布:一臺為"塑造情緒"而生的口袋相機

      時光慢郵啊
      2026-05-15 01:24:42
      突發槍響!小馬科斯大勢已去,菲軍方趕緊劃清,中菲關系可能好轉

      突發槍響!小馬科斯大勢已去,菲軍方趕緊劃清,中菲關系可能好轉

      觀史搜尋著
      2026-05-16 01:38:05
      印度:我們每家都有電視,中國行嗎?法國:人家中國居民不用偷電

      印度:我們每家都有電視,中國行嗎?法國:人家中國居民不用偷電

      離離言幾許
      2026-04-10 14:51:25
      2026-05-16 10:07:00
      AI科技評論 incentive-icons
      AI科技評論
      點評學術,服務AI
      7280文章數 20751關注度
      往期回顧 全部

      科技要聞

      直降千元起步!蘋果華為率先開啟618讓利

      頭條要聞

      特朗普抵京當晚在機場執勤的禮兵震動外網 詳情披露

      頭條要聞

      特朗普抵京當晚在機場執勤的禮兵震動外網 詳情披露

      體育要聞

      35歲坎特,干了一件這輩子最吵的事

      娛樂要聞

      張嘉譯和老婆的差距讓人心酸

      財經要聞

      造詞狂魔賈躍亭

      汽車要聞

      高爾夫GTI刷新紐北紀錄 ID. Polo GTI迎全球首秀

      態度原創

      手機
      家居
      時尚
      旅游
      軍事航空

      手機要聞

      小米打頭陣、各家排隊上!國產安卓的UI審美要統一了

      家居要聞

      110㎡淡而有致的生活表達

      頂級團隊拍出來的作品不如素人,問題出在哪兒了?

      旅游要聞

      首屆中國新文創市集暨潮玩游園會在京開幕

      軍事要聞

      聯合國安理會審議敘利亞局勢

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产亚洲欧美日韩在线专区| 377P欧洲日本亚洲大胆| 97人妻在线| 国产av天堂亚洲国产av麻豆| 色777狠狠狠综合| 久久天天躁夜夜躁狠狠躁综合| 精品人妻无码专区| 日本高清天码一区在线播放| 国产永久免费高清在线观看| 99在线免费观看视频| 五月婷婷丁香色| 国产av一区二区三区区别| 国产另类ts人妖一区二区| 国产精品美女| 国产免费无码9191精品| 亚洲最大成人网 色香蕉| 先锋资源久久| 亚洲精品伦理熟女国产一区二区| 亚洲欧美综合精品成人导航| 日本免费一区二区三区中文字幕| 人妻aⅴ中文字幕无码| 日本老熟妇乱子伦视频| 中文字幕久久熟女蜜桃| 韩国三级大全久久网站| 狠狠躁日日躁夜夜躁2022麻豆| 麻豆成人久久精品综合网址| 最新日韩精品视频在线| 成人无码a区在线观看视频| 最新国产精品中文字幕| a级在线观看| av无码精品一区二区三区三级| 中文字幕无码一区二区三区四区| 99视频全部免费| 国产欧美日韩一区二区三区| 欧性猛交ⅹxxx乱大交| 亚洲中文色欧另类欧美| 亚洲色大成成人网站久久| 一本加勒比HEZYO黑人| 久热香蕉av在线爽青青| 欧美性爱网址| 国产美女在线精品免费观看网址|