<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      兩個LLM互相對線,推理起飛:康奈爾團隊發布大模型版類GAN訓練法

      0
      分享至



      大型語言模型(LLMs)雖然通過可驗證獎勵的強化學習(RLVR)取得了顯著進展,但仍然在很大程度上依賴外部監督(例如人工標注的數據)。自博弈(self-play)提供了一種有前景的替代方案,使模型能夠通過與自身反復對抗來學習,從而減少對外部監督的依賴。GAN 則提供了另一種更具吸引力的訓練范式:通過對抗式地訓練兩個模型,其中一個模型專注于生成具有挑戰性的任務或對抗樣本,另一個模型則專注于解決這些任務。

      于是問題來了:LLM 是否也可以像 GAN 一樣進行訓練?我們的希望是,通過賦予每個模型不同的專門化角色,可以促進持續的競爭與共同進化,從而讓它們能夠解決單一模型可能從根本上無法勝任的任務。

      為解決這一難題,來自康奈爾大學的 NLP 團隊提出了PasoDoble,一個面向大語言模型的全新類 GAN 訓練框架。PasoDoble 通過對抗式地訓練兩個幾乎相同的模型:Proposer 用于生成帶有標準答案的高難度問題,Solver 則嘗試解決這些問題。我們進一步利用高質量的數學預訓練語料,并引入離線訓練范式,以緩解潛在的訓練不穩定性。值得注意的是,PasoDoble 在整個訓練過程中不依賴任何監督信號



      • 論文題目:Better LLM Reasoning via Dual-play
      • 論文鏈接:https://arxiv.org/pdf/2511.10395
      • 項目主頁:https://hcy123902.github.io/PasoDoble/
      • 作者介紹:共同一作張正鑫,黃誠瑜為康奈爾大學計算機系博士,李奡翀為主要貢獻者之一,Claire Cardie 為通訊作者以及導師。



      圖為使用 Qwen3-1.7B 在 MATH-500 上評估的 Solver 在不同訓練步驟中的訓練動態。Solver 的整體準確率在無任何監督的情況下從 45% 提升至 67%。它在第 20 步之前就超過了基線模型,并在第 360 步達到最高的 67%。重要的是,PasoDoble 能夠在數百個更新步驟中保持持續提升,展現出遠強于相關工作 R-Zero 的擴展能力。



      我們為每個問題采樣六個回答,并報告 pass@1 的準確率。基線模型按照 Qwen 技術報告中的設置,使用 4-shot 提示進行評估;其他模型則使用 0-shot 提示進行評估。

      我們發現,在完全無監督的情況下,PasoDoble 使 Qwen3-1.7B-Base 的數學任務平均性能提升約13 個點,使 Qwen3-4B-Base 提升約16 個點。

      PasoDoble 方法概覽

      PasoDoble 由四個組件構成:Proposer (π_p)、Solver (π_s)、Knowledge Base (K),以及用于離線訓練的題目緩沖區(Question Buffer)。Proposer 和 Solver 均從同一個預訓練模型初始化,隨后會進行初始的冷啟動訓練。

      在在線訓練中,每次迭代都會從知識庫中采樣一個知識片段(1),用于提示 Proposer 生成一批問答(QA)對(2)。隨后,Solver 會針對每個問題生成多個解答嘗試(3–4)。Solver 根據其答案是否與 Proposer 的標準答案一致來獲得正確性獎勵(5)。為評估問題的難度,我們計算 Solver 在該問題上的準確率(6),并將 Proposer 的難度獎勵定義為該準確率的反比(7);同時,還會加入一個多樣性獎勵以鼓勵生成新穎的問題(8)。這些獎勵被組合得到 Proposer 的最終獎勵(9)。只有那些具有非平凡難度、被判定為有效的問題才會被保留下來用于 Solver 的訓練(10)。當至少存在一個有效問題時,兩個模型都會同步更新(11),從而形成完整的在線訓練循環。

      在離線訓練中,Proposer 會在 Solver 凍結的情況下首先更新若干步(11),并將生成的有效問題存入 Question Buffer(12)。隨后,將 Proposer 凍結,Solver 則利用 Question Buffer 中的問題進行更新(13),從而構建其訓練數據集。

      Proposer Reward 是如何設計呢?

      簡而言之,Proposer 會因為生成困難(即 Solver 準確率低)且 多樣(與近期問題不相似)的問題而獲得獎勵,但前提是這些問題是有效且格式良好的。

      Proposer 的任務是生成既具有挑戰性又多樣化的數學問題。為引導這種行為,我們設計了一個由難度 reward多樣性 reward兩部分組成的 reward 機制。

      1. 難度 Reward

      我們希望 Proposer 能生成有挑戰性的問題 —— 即 Solver 不能輕易答對的問題。我們用 Solver 的通過率來衡量難度:



      通過率 p_i 越低,問題越難,獎勵就越高。具體地,難度獎勵為:



      即使一個問題非常簡單(例如 p_i = 1.0),獎勵仍然為 0.1,以確保 Proposer 始終傾向于生成有效的問題,而不是生成錯誤或無意義的問題。

      2. 多樣性 Reward

      我們還希望避免退化現象,例如 Proposer 反復生成同一種類型的問題。為此,我們將新生成的問題 q_i 與歷史緩沖區 H 中的最近問題進行比較,采用 Jaccard 相似度:



      如果兩個問題過于相似,我們將其視為重復:



      因此,多樣性獎勵定義為:



      簡而言之:問題越獨特,獎勵越高。

      3. Proposer 最終獎勵

      我們只有在問題既有效又具有多樣性的情況下才會對 Proposer 進行獎勵:

      • 有效性(Validity):通過率不能過低:



      • 多樣性(Diversity):不能過于重復:



      最終獎勵為:



      Solver Reward 是如何設計呢?

      Solver 的訓練僅依賴純正確性獎勵。



      其中指標函數定義為:



      實驗設置

      我們在多種模型規模上進行實驗,包括 Qwen3-0.6B-Base、Qwen3-1.7B-Base、Qwen3-4B-Base、Qwen2.5-0.5B-Base、Qwen2.5-1.5B-Base 和 Qwen2.5-3B-Base,將它們分別用作 Proposer 和 Solver,然后執行冷啟動訓練。在冷啟動之后,我們使用 GRPO 同時訓練 Proposer 和 Solver,并在在線與離線兩種設置下進行實驗。更多超參數設置參見論文附錄 B。我們使用 MegaMath-Pro-Max 預訓練數據集作為知識庫 K。

      實驗結果

      主流數學 benchmark 的結果

      我們在競賽級數學基準上評估了我們的方法,包括 AIME 2024、AIME 2025、AMC、GSM8k、MATH-500 和 OlympiadBench。加粗表示最佳結果,下劃線表示第二優。

      PasoDoble 能顯著提升模型在數學基準上的表現,尤其是在 Qwen2.5-1.5B/3B 和 Qwen3-1.7B/4B 模型上。此外,PasoDoble 的性能提升隨著模型規模的增大而持續增強。



      Qwen2.5-0.5B-Base 模型的實驗結果。



      Qwen3-0.6B-Base 模型的實驗結果。



      Qwen2.5-1.5B-Base 模型的實驗結果。



      Qwen3-1.7B-Base 模型的實驗結果。



      Qwen2.5-3B-Base 模型的實驗結果。



      Qwen3-4B-Base 模型的實驗結果。

      Proposer 與隨機獎勵:Solver 到底學到了什么?

      先前的研究表明,即使使用隨機獎勵也可能帶來非平凡的提升。因此,我們在 Qwen3-1.7B 模型上采用在線訓練范式進行了相關實驗。



      隨機獎勵的實驗結果。



      如上表所示,使用完全隨機獎勵進行訓練會使 Solver 在所有數學基準上的平均準確率幾乎跌至零。即便我們強制 Solver 以正確格式作答(部分隨機獎勵),其準確率仍然大幅下降。與我們原始設置形成的鮮明對比清楚地表明:Solver 在訓練過程中確實從 Proposer 的答案中受益匪淺

      Proposer 生成的問題是由記憶驅動的,還是由推理驅動的?



      Qwen3-1.7B-Base 在不同提示前綴比例下(即 x% 表示向 Qwen3-1.7B-Base 提示前 x% 的 問題 )對 Proposer 在第 200 個檢查點生成的問題進行評估,其 Exact Match(EM)和 ROUGE-L得分如上所示。所有評估均使用貪心解碼,并且不使用聊天模板。

      我們通過上表進行了分析。即使提示問題前綴重疊達到 80%,EM 也僅約為 12%(使用知識庫)和 31%(不使用知識庫),這表明絕大多數生成的問題來源于推理而非記憶。

      總結

      我們的研究表明,大語言模型可以通過類似 GAN 的雙模型對抗式訓練來提升數學推理能力,并在多個數學基準上取得可量化的性能提升。該方法還通過利用預訓練知識增強后訓練效果,在預訓練與后訓練之間建立了一座橋梁。

      盡管如此,我們的方法也存在局限性,例如在 GPQA 等領域外任務中并未帶來性能提升。未來的研究將探索將該框架拓展到其他領域,如代碼與事實問答,并進一步研究更廣泛的多模型訓練范式,包括協作式、競爭式以及角色專門化等設置。這些方向可能對于解決遠比單一模型能可靠處理的任務更加復雜的問題至關重要。

      參考文獻:

      [1] Goodfellow, Ian, et al. "Generative adversarial networks." *Communications of the ACM* 63.11 (2020): 139-144.

      [2] Huang, Chengsong, et al. "R-Zero: Self-Evolving Reasoning LLM from Zero Data." *arXiv preprint arXiv:2508.05004* (2025).

      [3] Yang, An, et al. "Qwen3 technical report." *arXiv preprint arXiv:2505.09388* (2025).

      [4] Shao, Zhihong, et al. "Deepseekmath: Pushing the limits of mathematical reasoning in open language models." *arXiv preprint arXiv:2402.03300* (2024).

      [5] Wang, Zengzhi, et al. "Octothinker: Mid-training incentivizes reinforcement learning scaling." *arXiv preprint arXiv:2506.20512* (2025).

      [6] Shao, Rulin, et al. "Spurious rewards: Rethinking training signals in rlvr." *arXiv preprint arXiv:2506.10947* (2025).

      [7] Lin, Chin-Yew, and Franz Josef Och. "Automatic evaluation of machine translation quality using longest common subsequence and skip-bigram statistics." *Proceedings of the 42nd annual meeting of the association for computational linguistics (ACL-04)*. 2004.

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      剛剛,見證歷史!市值突破1000萬億

      剛剛,見證歷史!市值突破1000萬億

      中國基金報
      2026-05-04 12:35:32
      中國向聯合國發出警告:東京有提取武器級钚能力,足以制造約5500枚核彈頭!任由其右翼勢力推動發展強力進攻性武器,必將再次為禍國際社會

      中國向聯合國發出警告:東京有提取武器級钚能力,足以制造約5500枚核彈頭!任由其右翼勢力推動發展強力進攻性武器,必將再次為禍國際社會

      大風新聞
      2026-05-04 14:05:05
      黃仁勛稱英偉達中國市場份額已降為零,美國出口管制效果適得其反

      黃仁勛稱英偉達中國市場份額已降為零,美國出口管制效果適得其反

      中國能源網
      2026-05-04 11:52:08
      楊鳴:遼寧隊未來的重點是引援和梯隊搭建,下賽季已是生存問題

      楊鳴:遼寧隊未來的重點是引援和梯隊搭建,下賽季已是生存問題

      懂球帝
      2026-05-04 00:33:17
      國乒男團為何輸給瑞典?林詩棟連輸2局,劉國正一針見血指出問題

      國乒男團為何輸給瑞典?林詩棟連輸2局,劉國正一針見血指出問題

      體育大學僧
      2026-05-03 23:23:59
      廳級干部已經成為了高危職業

      廳級干部已經成為了高危職業

      風向觀察
      2026-05-04 14:17:07
      中國小學生參加海參崴(符拉迪沃斯托克)“勝利日”閱兵式!

      中國小學生參加海參崴(符拉迪沃斯托克)“勝利日”閱兵式!

      項鵬飛
      2026-05-04 17:31:10
      1946年,張靈甫拿下兩淮,看到繳獲的華中野戰軍軍裝后,嘆氣:唉

      1946年,張靈甫拿下兩淮,看到繳獲的華中野戰軍軍裝后,嘆氣:唉

      浩渺青史
      2026-05-03 17:36:15
      豆包宣布即將收費,最高一年使用費 5088 元

      豆包宣布即將收費,最高一年使用費 5088 元

      XCiOS俱樂部
      2026-05-04 16:45:10
      5A 景區扛不住了!無序擴張后,年輕人已經徹底“祛魅”

      5A 景區扛不住了!無序擴張后,年輕人已經徹底“祛魅”

      爆角追蹤
      2026-05-04 13:09:11
      后背發涼!新司機被父親要求80時速占快車道,稱他人有本事飛過去

      后背發涼!新司機被父親要求80時速占快車道,稱他人有本事飛過去

      火山詩話
      2026-05-04 13:02:18
      2000艘船成“人質”:“自由計劃”撞上“管理法”,美伊攤牌霍爾木茲

      2000艘船成“人質”:“自由計劃”撞上“管理法”,美伊攤牌霍爾木茲

      上觀新聞
      2026-05-04 14:45:04
      男子五一帶朋友回家喝酒,不顧妻子隱私,當場大打出手,丟盡臉面

      男子五一帶朋友回家喝酒,不顧妻子隱私,當場大打出手,丟盡臉面

      觀察鑒娛
      2026-05-04 10:09:18
      足壇最大實錘!凱塔親口承認,當年睡了伊卡爾迪的老婆旺達?

      足壇最大實錘!凱塔親口承認,當年睡了伊卡爾迪的老婆旺達?

      羅氏八卦
      2026-05-04 18:05:03
      最高5088元/年!豆包真敢啊

      最高5088元/年!豆包真敢啊

      羅超頻道
      2026-05-04 15:39:06
      莫氏雞煲上線湯料包5分鐘售罄4000多份,累計賣出4萬多份,總銷售額破160萬元,記者實測:1分鐘搶到兩包

      莫氏雞煲上線湯料包5分鐘售罄4000多份,累計賣出4萬多份,總銷售額破160萬元,記者實測:1分鐘搶到兩包

      極目新聞
      2026-05-04 09:46:46
      四年食品學位,畢業后同宿舍四人竟無一人在食品行業!江南大學的真實現狀

      四年食品學位,畢業后同宿舍四人竟無一人在食品行業!江南大學的真實現狀

      戶外阿毽
      2026-04-27 08:31:47
      國足終于立功了,一把砍掉國際足聯10個億

      國足終于立功了,一把砍掉國際足聯10個億

      劉哥談體育
      2026-05-03 16:55:56
      昆明酒店劫持案細節披露:歹徒連續射擊,反恐隊員防彈衣連中兩槍,“我明顯感覺已中槍”

      昆明酒店劫持案細節披露:歹徒連續射擊,反恐隊員防彈衣連中兩槍,“我明顯感覺已中槍”

      南方都市報
      2026-05-04 15:50:16
      日本咸魚系陪酒女每周只上2天班,月入30萬!不追星、不去牛郎店,唯一愛好是存錢…

      日本咸魚系陪酒女每周只上2天班,月入30萬!不追星、不去牛郎店,唯一愛好是存錢…

      東京新青年
      2026-05-03 18:05:36
      2026-05-04 19:35:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12905文章數 142639關注度
      往期回顧 全部

      科技要聞

      OpenAI“復活”了QQ寵物,網友直接玩瘋

      頭條要聞

      伊朗:美軍艦試圖進入霍爾木茲海峽 伊朗發射兩枚導彈

      頭條要聞

      伊朗:美軍艦試圖進入霍爾木茲海峽 伊朗發射兩枚導彈

      體育要聞

      騎士破猛龍:加雷特·阿倫的活力

      娛樂要聞

      張敬軒還是站上了英皇25周年舞臺

      財經要聞

      魔幻的韓國股市,父母給嬰兒開戶買股票

      汽車要聞

      同比大漲190% 方程豹4月銷量29138臺

      態度原創

      時尚
      健康
      手機
      藝術
      本地

      普通人真該看看這些穿搭,短長搭配、裙子恰當,顯高舒適又有氣質

      干細胞治燒燙傷面臨這些“瓶頸”

      手機要聞

      iOS 27亮點全解析:獨立Siri、衛星通信四連發、蘋果智能新能力!

      藝術要聞

      火災后第17年,TVCC電視文化中心正式啟用

      本地新聞

      用青花瓷的方式,打開西溪濕地

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 成人一区二区免费视频| 国产熟女区| 99热线精品大全在线观看| AV最新高清无码专区| 国产精品丝袜一区二区三区| 精品无码av不卡一区二区三区| 欧美在线看片a免费观看| ,国产乱人伦无无码视频| 在线视频一区二区三区不卡| 亚洲一区二区三区深夜天堂| 久一在线视频| 人人爽久久久噜噜噜婷婷| 久久亚洲无码| 日韩成人网上操叉不卡 | 久青草国产在视频在线观看| 国产午夜福利片| 亚洲欧洲日本综合aⅴ在线| 天堂亚洲免费视频| ww污污污网站在线看com| 亚洲国产a片。| 国产日产欧洲无码视频| 国产精品一二三四| 成人福利社| 激情综合网激情综合| 亚洲综合伊人五月天中文| 亚洲精品在线视频| 国内精品久久久久影院薰衣草| 国产免费踩踏调教视频| 亚洲欧美日韩精品专区52| 久久亚洲精品成人无码网站蜜桃| 国色精品卡一卡2卡3卡4卡在线| 国产精品一区二区久久岳| 女女同性女同区二区国产| 亚洲精品乱码久久久久久按摩高清| 中文字幕色av一区二区三区| 久久伊人天堂视频网| 免费看奶头视频的网站| 96国产xxxx免费视频| 亚洲精品无码久久千人斩| 亚洲一av| 成人自拍偷拍|