<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      TAMU/Waterloo團隊把研究智能體的訓練做成了開源流水線

      0
      分享至



      訓練一個能像人類研究員一樣「搜索→瀏覽→推理」的深度研究智能體 (Deep Research Agent),最大的瓶頸往往不是模型能力,而是高質量長程研究軌跡數據的嚴重匱乏。現有的軌跡采集方案要么依賴昂貴且不穩定的在線搜索 API,要么只能生成 2-5 輪的淺層交互,遠不足以覆蓋真實深度研究中動輒數十輪甚至上百輪的復雜推理需求。

      針對這一痛點,來自Texas A&M University、University of Waterloo、UC San Diego 等機構的研究團隊提出了OpenResearcher:一條完全開源、可復現的離線深度研究軌跡合成流水線。這是首個能夠訓練出在長程研究任務上與專用系統相媲美模型的開源流水線,合成的數據也已經在 NVIDIA 的基座模型訓練中被采用。該方法的核心思路是:通過一次性收集在線語料構建包含 1500 萬篇候選文檔的本地搜索引擎,隨后由教師模型在完全離線的環境中,憑借調用 search、open、find 三種工具合成了超過9.7 萬條長程研究軌跡,其中大量軌跡包含100 次以上的工具調用。

      利用這些軌跡對一個 30B 參數的模型進行監督微調,即可在離線深度研究的基準數據集 BrowseComp-Plus 上達到54.8%的準確率,較基座模型實現34.0個百分點的絕對提升,并一舉超越 GPT-4.1(36.4%)、Claude-4-Opus(36.8%)等強大的閉源模型!對于在線深度研究的基準數據集,該模型同樣全面超越現有開源系統,且全部增益均來自離線合成數據,無需任何在線訓練。



      圖 1:BrowseComp-Plus 基準數據集上的性能 - 參數量對比。OpenResearcher(30B)以 54.8% 的準確率高居左上角,在性能 / 參數比維度上顯著領先 GPT-4.1、Claude-4-Opus、Gemini-2.5-Pro 等強大的閉源模型,同時超越通義 DeepResearch(44.5%)等專用深度研究系統。



      • 論文鏈接:https://arxiv.org/abs/2603.20278
      • 博客鏈接:https://boiled-honeycup-4c7.notion.site/OpenResearcher-A-Fully-Open-Pipeline-for-Long-Horizon-Deep-Research-Trajectory-Synthesis-2f7e290627b5800cb3a0cd7e8d6ec0ea
      • 代碼鏈接:https://github.com/TIGER-AI-Lab/OpenResearcher
      • 模型鏈接:https://huggingface.co/OpenResearcher/OpenResearcher-30B-A3B
      • 數據集鏈接:https://huggingface.co/datasets/OpenResearcher/OpenResearcher-Dataset
      • Demo鏈接:https://huggingface.co/spaces/OpenResearcher/OpenResearcher

      深度研究軌跡的合成,難在哪?

      隨著 DeepSeek-R1 等工作的推出,從大型推理模型中蒸餾長程推理軌跡并用于后訓練已成為主流范式,OpenThoughts、OpenMathReasoning 等項目相繼涌現。然而,當訓練目標從「數學推理」拓展到「深度研究」—— 即智能體需要迭代搜索、聚合異構證據、進行多步推理 —— 高質量軌跡的獲取就變得尤為棘手。

      現有方案受制于三重瓶頸:

      • 成本高昂:每一條失敗的搜索路徑都要消耗 API 調用配額,大規模合成意味著數萬美元級別的開支。
      • 不可復現:互聯網上的內容隨時在變化,同一查詢在不同時刻可能返回截然不同的結果,使得獲取的軌跡難以穩定復現。
      • 不可分析:在線搜索環境本質上是黑盒,研究者無法精確追蹤「關鍵證據在哪一步被發現」、「搜索策略的偏差出在哪里」等等關鍵問題,嚴重限制了對智能體行為的系統性研究。

      這促使團隊提出一個核心問題:能否將「搜索→瀏覽→推理」循環中昂貴的前兩步從在線環境搬到更可控的離線環境中,以零邊際成本、完全可復現的方式大規模合成高質量深度研究軌跡?

      OpenResearcher:離線深度研究軌跡合成流水線

      OpenResearcher 的核心設計理念是將語料構建與軌跡生成徹底解耦:先通過一次性在線收集含有研究信息的文檔構建離線語料庫與搜索引擎,然后在完全離線的本地環境中規模化合成研究軌跡。具體而言,流水線包含以下三個階段。



      圖 2:OpenResearcher 總覽。整條流水線分三個階段推進:(1) 從 MiroVerse 篩選約 6,000 個高難度 QA 問題;(2) 一次性在線收集約 1 萬篇含有研究信息的文檔 (gold documents),并與 1,500 萬篇 FineWeb 干擾文檔合并構成帶 FAISS 索引的離線語料庫;(3) 教師模型 GPT-OSS-120B 在離線環境中通過 search、open、find 三種瀏覽器原語生成超 9.7 萬條長程研究軌跡。

      階段一:高難度問題收集。深度研究軌跡的質量起點是問題的質量。傳統 QA 數據集如 2WikiMultiHopQA 和 NQ 的問題通常只需 2-5 步檢索即可回答,遠達不到深度研究所需的復雜度。研究團隊選擇從 MiroVerse-v0.1 中隨機采樣 10%,得到約 6,000 個問答對。這些問題天然要求長程多跳推理與異構證據整合,實測中即便是很強大的教師模型也往往需要數十次工具調用才能作答,其中相當一部分需要超過 100 次。

      階段二:離線搜索引擎構建。軌跡合成有一個硬性前提:目標證據必須可檢索。否則,教師模型的合成失敗可能是搜索策略的問題,也可能僅僅是語料中缺少相關文檔,而這種歧義會嚴重干擾下游分析。為消除這一歧義,團隊采取了「答案引導的在線文檔收集」策略:對每個問答對,將問題與參考答案拼接構造 query,經 Serper API 一次性檢索并清洗去重,獲得約 1 萬篇含有研究信息的文檔 (gold documents)。隨后將 gold documents 與從 FineWeb 中采樣的約 1,500 萬篇干擾文檔(約 10 萬億 tokens)合并構成離線語料庫,全部文檔使用 Qwen3-Embedding-8B 向量化,并通過 FAISS 建立索引。這一設計的精妙之處在于:gold documents 保證了「答案確實存在于語料中」,海量干擾文檔則忠實模擬了真實網絡的噪聲與復雜度,使合成軌跡兼具可控性與真實感。



      圖 3:OpenResearcher 使用的三種工具。以「哪些 MIT 研究者獲得了 INFORMS 獎項」為例:智能體可先調用 Search 工具獲取搜索摘要列表(左欄),再調用 Open 工具拉取目標 URL 的文檔全文(中欄),最后調用 Find 工具在文檔內精確定位關鍵字符串「MIT」(右欄,高亮顯示)。三種工具實現多尺度漸進式信息發現。

      階段三:瀏覽建模與軌跡合成。OpenResearcher 利用三種工具對智能體的在線瀏覽行為進行抽象,完整建模了人類的研究行為模式:

      • Search:向離線搜索引擎發出自然語言查詢,返回 top-K 結果(含標題、URL、摘要片段),對應人類「廣泛搜索、識別候選來源」的行為
      • Open:根據 URL 獲取文檔全文內容,對應人類「點開網頁、通讀全文」的行為
      • Find:在當前已打開的文檔中執行精確字符串匹配,對應人類「Ctrl+F 頁面內查找」的行為,用于命名實體查找、事實核驗和證據錨定

      在此基礎上,研究團隊以 GPT-OSS-120B 為教師模型,對每個問題生成 16 條不同的軌跡以捕獲多樣化推理路徑。經輕量過濾后,最終獲得超過9.7 萬條軌跡,推理深度涵蓋了十余步到百余步。

      30B 模型超越多個閉源大模型

      訓練設置:研究團隊以 NVIDIA Nemotron-3-Nano-30B-A3B(混合 Mamba-Transformer MoE 架構,激活參數僅 3.2B)為基座,篩選出約 5.5 萬條答案正確的軌跡進行監督微調。訓練在 8 張 NVIDIA H100 GPU 上完成,耗時約 8 小時,是中小團隊也能具備的算力。

      離線深度研究的評測:在離線深度研究的基準數據集 BrowseComp-Plus 上,OpenResearcher-30B-A3B 取得54.8%的準確率,大幅領先 GPT-4.1(36.4%)、Claude-4-Opus(36.8%)、Gemini-2.5-Pro(29.5%)、DeepSeek-R1(16.4%)及通義 DeepResearch(44.5%)。較基座模型絕對提升 34.0 個百分點!僅憑離線合成軌跡的監督微調,無需強化學習或在線交互,即可在深度研究任務上釋放顯著的性能增益。

      在線深度研究的評測:在三個依賴在線搜索 API 的基準數據集上,OpenResearcher 同樣亮眼:BrowseComp 26.3%,GAIA 64.1%,xbench-DeepSearch 65.0%,全面超越 ASearcher-QwQ-32B 和 WebDancer-QwQ-32B 等開源系統。更關鍵的是,所有這些增益完全來自離線環境合成的軌跡!模型從未在在線深度研究數據上訓練過,卻能有效遷移到真實、動態的搜索環境。



      圖 4:深度研究基準測試性能對比。左表(離線,BrowseComp-Plus):OpenResearcher 以 54.8% 位居榜首,大幅超過 GPT-4.1(36.4%)和通義 DeepResearch(44.5%),較基座模型絕對提升 34.0 個百分點。右表(在線,BrowseComp / GAIA /xbench-DeepSearch):OpenResearcher 取得 26.3% / 64.1% / 65.0%,全面超越同量級開源系統。

      搭建 OpenResearcher 的過程能教會我們什么?

      失敗不在步數,在策略:失敗軌跡的平均工具調用次數(71.7 次)幾乎是成功軌跡(38.4 次)的兩倍,且額外調用主要集中在 search 操作上。失敗并非源于「探索不充分」,而是陷入了反復重新構造查詢卻始終無法收斂的困境。查詢構造能力和搜索策略的質量,才是決定深度研究成敗的關鍵。



      圖 5:工具調用次數分布與正確 / 錯誤軌跡對比。左圖(成功):調用次數集中在 10-40 次,均值 38.4,中位數 24.0。中圖(失敗):呈雙峰形態,均值 71.7,中位數 79.0,反映反復無效的搜索。右圖:失敗軌跡的 search 調用均值(48.7)遠超成功軌跡(22.1),而 find 使用頻率兩組相近,說明癥結在搜索策略而非文檔內定位。

      「答案正確性」并非唯一有價值的訓練信號:僅用正確軌跡訓練的模型得到 54.81% 的準確率,僅用錯誤軌跡訓練得到 55.06%,混合全量軌跡得到 54.46%。三者差異不超過 0.6 個百分點。由此可知,軌跡中蘊含的搜索結構、工具調用模式、證據檢查策略等過程性信號的價值并不遜色于最終答案的正確性。研究者無需過于激進地過濾訓練數據。另一方面,移除 gold document 的收集過程后,下游準確率從 54.81% 驟降至 6.35%。所以,一次性在線收集是整條離線合成流水線得以運轉的關鍵步驟。



      圖 6:左表:僅用正確(54.81%)/ 錯誤(55.06%)/ 全部軌跡(54.46%)訓練,在 BrowseComp-Plus 上的準確率相差不超過 0.6 個百分點,說明過程性信號價值不亞于答案正確性。右表:移除 gold documents 的收集過程后下游準確率從 54.81% 降至 6.35%,證明一次性在線文章收集這一步不可或缺。

      智能體的最大可探索輪數預算在 100 輪后邊際收益遞減:準確率和檢索 gold documents 的命中率隨最大可探索輪數預算增加穩步上升,但在 100 輪附近開始趨于平緩。這說明長程探索確實有益,但在智能體獲得充分的檢索和定位機會之后,單純延長推理鏈的邊際收益明顯遞減。



      圖 7:準確率(藍線)和檢索 gold documents 的命中率(橙線)隨最大可探索輪數預算增加持續上升,但在約 100 輪后趨于飽和(準確率~58.3%,命中率~49.3%),表明長程探索有益但存在邊際遞減效應。

      三種瀏覽器工具缺一不可:消融實驗清楚地展示了三種工具的遞進價值。智能體在僅能調用 search 時準確率為 43.86%,加入 open 后升至 56.39%,再引入 find 進一步達到62.17%,同時工具調用總次數和 token 消耗均下降。這表明,文檔級訪問是深度研究的「剛需」,頁面內證據定位則在提升精度的同時降低了冗余瀏覽。



      圖 8:左表:準確率從僅能調用 search(43.86%)→ 可以調用 open(56.39%)→ 還可以調用 find(62.17%)穩步提升,同時工具調用次數和 token 消耗持續下降。右表:P (correct|open-hit) = 86.72% 遠高于 P (correct|search-hit) = 61.84%,表明「搜到」與「看到」對于準確率的幫助是有很大差異的。

      檢索時機與最終準確率的關系:只要智能體打開過至少一篇 gold document,無論這一命中發生在第幾輪,最終準確率都能穩定維持在 85% 以上;從未打開過 gold document 的軌跡準確率則僅有 7.9%。因此「看到」與研究相關的證據通常是正確回答的必要條件,但并非充分條件。



      圖 9:首次打開 gold document 的時機與最終準確率的關系。只要打開過至少一篇 gold document,準確率均穩定在 85% 以上;完全未命中的 303 條軌跡準確率則僅有 7.9%。

      成本:從數萬美元到零



      合成這 9.7 萬條軌跡共涉及約 576 萬次搜索請求。若使用在線的 Serper API,花費約 $5,760;若改用 SerpAPI 則高達 $28,800。而 OpenResearcher 的離線檢索器將這一成本降至$0。離線方案還額外提供:無速率限制(支持大規模并行合成)、完全確定性(確保長程研究軌跡完美可復現)、零外部依賴(便于開放共享與社區復現)。

      總結與展望


      OpenResearcher 為深度研究智能體的訓練數據問題提供了一條務實且高效的解決路徑:與其在昂貴、不穩定的在線環境中反復試錯,不如將「搜索→瀏覽→推理」循環中昂貴的前兩步從在線環境搬到更可控的離線環境中,以可復現、零邊際成本的方式大規模合成訓練軌跡。在方法層面,三種工具對智能體的在線瀏覽行為的抽象(search + open + find)忠實模擬了人類的研究行為,使合成軌跡不僅包含搜索查詢,還包含文檔閱讀和證據定位的完整行為鏈。在實證層面,一個僅有 30B 參數(3.2B 激活)的模型通過監督微調即可在多個基準上超越參數量數倍于己的閉源模型,且全部增益來自離線合成數據。更具長遠價值的是,離線環境的完全可控性為系統性地分析深度研究流水線各設計維度 (例如數據過濾策略、語料覆蓋、智能體配置、工具空間設計、檢索與推理的交互關系等)提供了實驗平臺,為這一領域的未來優化指明了方向。

      本文主要作者為:德州農工大學博士生李卓風,滑鐵盧大學博士生姜東甫,德州農工大學助理教授張彧,以及滑鐵盧大學助理教授陳文虎。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      送走馬蓉又來馮清,43歲的"老實人"王寶強,還是沒逃出"女人圈"

      送走馬蓉又來馮清,43歲的"老實人"王寶強,還是沒逃出"女人圈"

      趣知史館
      2026-03-10 20:20:03
      招行發布公告:王小青任招商銀行行長

      招行發布公告:王小青任招商銀行行長

      生活新鮮市
      2026-05-01 14:43:56
      我國農民工平均月收入超5000元

      我國農民工平均月收入超5000元

      農民日報
      2026-04-30 16:58:09
      72年周總理正批閱文件,聽到消息后厲聲問:他死了,為什么瞞著我

      72年周總理正批閱文件,聽到消息后厲聲問:他死了,為什么瞞著我

      興趣知識
      2026-05-01 19:01:48
      余承東在華為權力排名

      余承東在華為權力排名

      生活新鮮市
      2026-04-27 18:30:53
      46歲湯唯自曝意外懷上二胎!胎兒性別已確認,56歲老公深藏不露

      46歲湯唯自曝意外懷上二胎!胎兒性別已確認,56歲老公深藏不露

      洲洲影視娛評
      2026-04-30 17:10:16
      05后小妹“崩老頭”,尺度炸裂全網

      05后小妹“崩老頭”,尺度炸裂全網

      李東陽朋友圈
      2026-04-30 13:43:51
      海關查獲7個女王鳳凰螺,內藏寶珠曾賣2400萬!至今人工無法養殖

      海關查獲7個女王鳳凰螺,內藏寶珠曾賣2400萬!至今人工無法養殖

      貍貓之一的動物圈
      2026-04-30 11:45:54
      特斯拉無人車隊:25輛 vs 3000輛

      特斯拉無人車隊:25輛 vs 3000輛

      算力游俠
      2026-04-30 18:34:47
      魔術隊史首人!班凱羅季后賽狂砍45+9+7

      魔術隊史首人!班凱羅季后賽狂砍45+9+7

      北青網-北京青年報
      2026-04-30 20:53:10
      2萬個充電寶沒人要,羅馬仕庫存五折拍賣

      2萬個充電寶沒人要,羅馬仕庫存五折拍賣

      薛定諤的BUG
      2026-04-28 22:25:59
      男子用2條毒蛇泡酒,12年后打開本想品嘗美酒,誰知出現驚人現象

      男子用2條毒蛇泡酒,12年后打開本想品嘗美酒,誰知出現驚人現象

      詭譎怪談
      2025-04-01 17:37:59
      20年前的2006德國世界杯,才是真正的諸神黃昏!

      20年前的2006德國世界杯,才是真正的諸神黃昏!

      球叮足球
      2026-05-01 09:56:08
      兩次內戰中,國民黨軍隊為何從未對共產黨軍隊打出過大的殲滅戰?

      兩次內戰中,國民黨軍隊為何從未對共產黨軍隊打出過大的殲滅戰?

      鳶飛九天
      2025-02-11 14:13:42
      火湖官方更新G6傷情:杜蘭特升級為小概率出戰 東契奇繼續缺陣

      火湖官方更新G6傷情:杜蘭特升級為小概率出戰 東契奇繼續缺陣

      羅說NBA
      2026-05-01 06:50:13
      女子200萬買下廢棄四合院,當晚院中槐樹一夜開花,道士網友:快跑

      女子200萬買下廢棄四合院,當晚院中槐樹一夜開花,道士網友:快跑

      古怪奇談錄
      2025-08-05 15:36:06
      隊史第19位!雄鹿官宣任命詹金斯為主教練 相信他能打造贏球文化

      隊史第19位!雄鹿官宣任命詹金斯為主教練 相信他能打造贏球文化

      羅說NBA
      2026-05-01 06:39:00
      朝鮮名將方虎山,不聽勸將3000日俘踹下冰河,他說:我愿背上罵名

      朝鮮名將方虎山,不聽勸將3000日俘踹下冰河,他說:我愿背上罵名

      史之銘
      2026-05-01 01:18:20
      1994年,哈薩克斯坦為什么把緊挨中國的首都,遷到1000公里外?

      1994年,哈薩克斯坦為什么把緊挨中國的首都,遷到1000公里外?

      孤云朗境
      2026-04-13 02:17:59
      今年發生強厄爾尼諾的概率增大!這個夏天 你可能真的會被熱哭

      今年發生強厄爾尼諾的概率增大!這個夏天 你可能真的會被熱哭

      閃電新聞
      2026-05-01 10:04:40
      2026-05-01 20:12:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12901文章數 142639關注度
      往期回顧 全部

      科技要聞

      蘋果上季在華收入繼續大增 iPhone收入新高

      頭條要聞

      特朗普發了張圖 伊朗外長回應:犯了個"可怕的錯誤"

      頭條要聞

      特朗普發了張圖 伊朗外長回應:犯了個"可怕的錯誤"

      體育要聞

      無奈!約基奇:這要在塞爾維亞 全隊早被炒了

      娛樂要聞

      鄧超在景德鎮被偶遇,穿黑外套逛茶園

      財經要聞

      GPU神話松動,AI真正的戰場變了

      汽車要聞

      限時9.67萬起 吉利星越L/星瑞i-HEV智擎混動上市

      態度原創

      旅游
      健康
      親子
      教育
      公開課

      旅游要聞

      民宿以“蛇很多”為由勸退預訂客戶,官方:雙倍賠付

      干細胞治燒燙傷面臨這些“瓶頸”

      親子要聞

      寶藍和爸爸比賽吹氣球,吹成各種各樣的形狀,快來看看誰贏了~

      教育要聞

      26屆高考生“撞大運”了!截至目前,今年高考已有9個好消息!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 正在播放肥臀熟妇在线视频| 欧美精品亚洲精品日韩已满十八| 亚洲精品97久久一| 最新国产美女一区二区三区| 精品麻豆一区二区三区乱码| 亚洲精品久久| 国产va免费精品高清在线观看| 夜夜未满十八勿进的爽爽影院| 色二区| 日韩?无码?中文字幕?精品| WWW午夜精品男人的天堂 | 亚洲高清WWW色好看美女| 性感美女av在线| 色哟哟www网站入口成人学校| 国产导航在线| 亚洲乱亚洲乱妇无码| aaaaa国产毛片| 国产99在线a视频| 日韩成人A级毛片| 国产韩国精品一区二区三区久久 | 九色精品在线| 岛国av无码免费无禁网站麦芽| 欧美疯狂做受xxxx高潮小说| 日韩av无码午夜福利电影| 国产美女被遭高潮免费网站| 亚洲人妻一区二区精品| 精品国产一区二区三区久久女人| 色噜噜狠狠色综合免费视频| 亚洲欧美国产国产综合一区| 中文字幕在线视频免费观看| 国产成人午夜福利在线播放| 日韩AV一区二区三区| 女人与公狼做交十配视频| 一级a爱片免费视频观看| 精品自窥自偷在线看| 国产精品99无码一区二区| 婷婷六月色| 狠狠操夜夜操| 国产精品人成电影在线观看| 精品一区二区三区在线播放视频| 3p视频在线|