<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      10萬token自然語言推理,讓30B-A3B模型站上奧賽金牌線

      0
      分享至



      奧賽級科學推理,一定要從更大的通用模型開始嗎?

      最近上海人工智能實驗室一份技術報告給出了一個不同答案:不調用外部工具、不執行代碼、不接入專用符號求解器,一個 30B-A3B 規模的推理模型,也可以通過統一后訓練和推理時擴展,在 IMO、USAMO、IPhO 等高難數學與物理奧賽評測中達到強勁水平。

      研究團隊選擇從已有 30B-A3B 推理主干出發,先用約 33.8 萬條高質量軌跡進行反向困惑度課程監督微調,再通過 200 步兩階段強化學習提升解題能力與完整證明質量,最后在推理階段采用多輪「生成 - 驗證 - 修正」循環。模型不調用外部工具、不執行代碼、不依賴專用符號求解器,卻能夠在困難奧賽題上持續開展 10 萬詞元以上的自然語言推理。

      在比賽式評測中,模型經過推理階段擴展后,在 IMO 2025 和 USAMO 2026 中均取得 35 分,達到對應金牌級水平;在 IPhO 2024/2025 等物理奧賽任務上也達到金牌水平。在 USAMO 2026 第三題(人類選手平均分僅 0.01 分,無人過 5 分)上更是取得滿分。

      更重要的是,這并非來自參數驚人的「巨無霸」模型,而是一個小而精的 30B-A3B 選手。

      報告還顯示,在 USAMO 2026 的推理擴展軌跡中,初始解答生成的中位長度約為 10.6 萬 token,自我修正階段中位長度約為 8.3 萬 token。

      這表明,奧賽級科學推理的關鍵不只是模型規模本身,而在于能否讓模型把更長的推理預算穩定轉化為證明搜索、自我驗證和論證修復能力。



      • 論文鏈接:https://arxiv.org/abs/2605.13301
      • 開源鏈接:https://github.com/Simplified-Reasoning/SU-01

      一般尺寸模型,也能做奧賽級證明?

      奧林匹克競賽題一直是檢驗模型長程推理能力的硬場景。這類題目和常規數學問答不同, 一個正確結論遠遠不夠,模型還必須在很長的解題鏈路中持續管理假設、中間結論和邊界情形,最終給出能夠經受嚴格評分的完整證明或推導。隱藏的論證缺口、未覆蓋的分類討論、未經證明的關鍵引理,都可能讓整題失分。

      因此,在過去相當長一段時間里,人們很自然地把奧賽級推理和一個條件綁定在一起:更大的通用模型底座。這份報告想回答的正是這一問題:

      奧賽級推理任務,是否必須依賴更大、更強的通用模型?

      研究團隊的選擇相當克制:不引入外部工具,不執行代碼,不依賴符號求解器。模型從構思、證明、檢查到修正,全部在自然語言中完成。

      這樣一來,結果更直接地指向模型自身的能力:一個 30B-A3B 規模的模型,僅靠自然語言推理,能否承擔奧賽級證明?

      先教會模型嚴謹推理,再讓它學會自我修正

      團隊提出的簡潔統一方案可以概括為三個環節:監督微調塑造行為,強化學習提升解題能力,推理階段擴展放大證明搜索。



      圖 1:方法框架,整體流程以 30B-A3B 推理主干為基礎,通過監督微調、兩階段強化學習和推理階段擴展,將模型塑造成能夠進行證明搜索、自我驗證和多輪修正的自然語言推理系統。

      第一步是反向困惑度課程監督微調。研究團隊從數學、科學、代碼和指令跟隨等來源構建長鏈路推理數據,并加入自驗證、自修正樣本,使模型學習如何組織證明、檢查假設、定位漏洞并修復論證。訓練過程中,樣本按照初始模型困惑度從高到低排序:模型先接觸與當前策略差異更大的證明軌跡,再逐步鞏固更熟悉的樣本。

      換言之,SFT 階段的目標并不是依靠海量數據直接堆高模型能力,而是更穩定地重塑模型的推理行為,使其形成嚴謹、可檢查、可修正的長程推理模式。

      第二步是兩階段強化學習。第一階段使用可驗證題目和可靠的結果獎勵,高效提升模型的直接求解能力;第二階段則進一步從「答案是否正確」轉向「證明是否完整可靠」,引入證明質量獎勵模型、自修正任務和經驗回放機制。

      其中,自修正任務讓模型在看到自身不完整或存在漏洞的解答后,學習如何重新檢查推理鏈條并生成更完整和嚴謹的修正版證明;經驗回放機制則用于保留訓練過程中少量但高價值的成功證明軌跡,避免這些在高難問題上偶然發現的有效解法被很快遺忘。

      第三步在推理階段擴展。面對奧賽難題,模型并不只生成一次答案,而是進入「生成候選解答 - 檢查完整證明 - 定位問題 - 修正解答」的循環。這里擴展的不是外部工具鏈,而是模型自身的自然語言驗證與修正計算。

      10 萬 token 級奧賽推理,不只是把答案寫長



      圖 2:IMO-Bench 所含 ProofBench 結果。 SU-01 在直接生成時取得 57.6%,經推理階段擴展提升至 70.2%,顯著超越同尺寸模型,并 Gemini 3.1 Pro Thinking 等強閉源模型。

      報告結果顯示,SU-01 在證明級評測中已經展現出強長程推理能力。在 IMO-ProofBench 上,SU-01 直接生成取得 57.6%,已是同尺寸模型中的最強結果;經推理階段擴展后,整體得分進一步提升至 70.2%,顯著超越同尺寸模型,并接近 Gemini 3.1 Pro Thinking 的 72.6%。

      這說明,一般尺寸模型不僅可以追求最終答案正確,也可以通過統一訓練與推理組織提升完整證明質量。

      報告還進一步指出,SU-01 的能力并不局限于競賽題。在更接近科研問題形態的 FrontierScience-Research 評測中,SU-01 取得同尺寸模型中的最佳成績,說明這套訓練方案不僅適用于奧賽基準,也具備向研究型科學問題泛化的潛力。



      圖 2:USAMO 2026 推理階段擴展流程中不同動作的生成長度分布。

      推理階段擴展進一步放大了模型的證明搜索和自我修正能力。通過「生成候選解答 - 檢查完整證明 - 定位問題 - 修正解答」的多輪循環,模型能夠把不完整或不穩定的嘗試轉化為嚴謹連貫的完整解答。

      報告中的推理擴展分析顯示,在 USAMO 2026 的推理擴展軌跡中,初始解答生成的中位長度約 10.6 萬詞元,修正階段的中位長度約 8.3 萬詞元。

      換言之,模型在 30B-A3B 規模下仍能持續開展 10 萬詞元量級的有效推理,并將長程計算用于證明構造、漏洞定位和論證修復。

      數學與物理奧賽金牌水平推理

      在奧林匹克官方競賽題上,SU-01 在數學奧賽和物理奧賽任務上均展現出金牌水平推理能力。

      數學奧賽方面,模型在單次直接生成時已經具備較強解題能力:IMO 2025 取得 21 分,在 P2 獲得滿分,在 P4、P5 上接近滿分;USAMO 2026 取得 15 分,在 P1、P4 獲得滿分。經推理階段擴展后,模型在 IMO 2025 和 USAMO 2026 均取得 35 分,達到對應金牌級水平。



      表 1:數學奧林匹克競賽評測結果。評測涵蓋 IMO 2025 和 USAMO 2026 兩項賽事;其中,IMO 2025 的金 / 銀 / 銅牌線為 35/28/19 分,USAMO 2026 的金 / 銀 / 銅牌線為 25/18/11 分。

      尤其在最近的美國數學奧林匹克 USAMO 2026 上,SU-01 取得 35 分,遠超該賽事 25 分的金牌線,并達到人類選手最高分水平。

      根據 340 名人類選手的得分統計,USAMO 2026 平均分為 8.59 分,中位數僅為 6 分,Top 12 分數線為 26 分、Top 24 分數線為 23 分,整場最高分為 35 分;從分題統計看,P2、P3、P6 難度尤其突出,其中 P3 平均分僅 0.01 分、無人達到 5 分以上,而 SU-01 在該題取得滿分成績。



      圖 4 :USAMO 2026 人類選手得分統計與分題難度分布。該賽事共有 340 名選手參賽,平均分為 8.59 分,中位數為 6 分,Top 12 和 Top 24 分數線分別為 26 分和 23 分,最高分為 35 分。分題統計顯示,P2、P3、P6 難度突出,其中 P3 平均分僅 0.01 分,且無人達到 5 分以上。(來源https://web.evanchen.cc/exams/posted-usamo-statistics.pdf)


      這說明 SU-01 的 35 分并非主要來自常規題的得分,而是在高難證明題上取得關鍵突破,整體表現達到了頂尖人類選手水平。

      一個特別突出的例子是 USAMO 2026 P3:模型沒有沿用標準的綜合幾何路線,而是優雅地使用復數方法,將單位圓、等邊三角形旋轉、弦關系和切線條件統一到同一個代數框架中。這將一個奧賽選手通常會通過角追蹤和輔助構造處理的幾何配置,轉化為一種結構化的解析表述。

      IMO 2025 P2 則展示了另一種互補能力,模型將一個涉及兩相交圓、垂心和切線判定的幾何問題,化約為坐標與距離計算。

      其他有趣的案例還包括 USAMO P4 中的進位狀態動態規劃,以及 USAMO P6 中結合歐拉函數、同余、Vieta jumping 和 Fibonacci 結構的數論證明。

      物理奧賽方面,模型在 IPhO 2024/2025 直接生成已超過金牌線,推理階段擴展后進一步提升。



      表 2:物理奧林匹克競賽評測結果。評測涵蓋 IPhO 2024 和 IPhO 2025 兩項賽事;其中,IPhO 2024 金牌線為 20.8 分,IPhO 2025 金牌線為 19.7 分。表中 x /y 分別表示模型在直接生成和推理階段擴展設置下的得分。

      更高效的科學推理系統路線

      這項工作的價值不止于奧賽分數,而在于驗證了一條更高效的科學推理系統路線:以已有推理模型為起點,通過嚴謹推理行為塑造、證明級獎勵設計和推理時「生成 - 驗證 - 修正」閉環,將有限規模模型的計算預算轉化為可評分、可驗證的證明能力。

      面向未來,這一路線有望從數學與物理奧賽擴展到更廣泛的科學問題求解,成為構建高效、可靠、可驗證科學智能系統的通用方法。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      18 年過去,那個逼父賣腎追劉德華的楊麗娟,如今活成了這副模樣

      18 年過去,那個逼父賣腎追劉德華的楊麗娟,如今活成了這副模樣

      北有南梔
      2026-05-19 17:55:03
      《監獄來的媽媽》撤檔,將故意殺人美化成反抗家暴,并啟用殺人犯

      《監獄來的媽媽》撤檔,將故意殺人美化成反抗家暴,并啟用殺人犯

      芊手若
      2026-05-19 00:33:06
      10個月建成人民大會堂,毛主席參觀時一直盯著穹頂,笑問:誰想的

      10個月建成人民大會堂,毛主席參觀時一直盯著穹頂,笑問:誰想的

      浩渺青史
      2026-05-06 16:57:17
      馬斯克:十年后90%的出行都是自動駕駛 人類開車將成小眾行為

      馬斯克:十年后90%的出行都是自動駕駛 人類開車將成小眾行為

      快科技
      2026-05-18 20:15:18
      飲酒男子深夜3次騷擾女童,被推倒受傷后索賠36萬元!法院:駁回,苛求女童父親通過言語制止不符合常情常理

      飲酒男子深夜3次騷擾女童,被推倒受傷后索賠36萬元!法院:駁回,苛求女童父親通過言語制止不符合常情常理

      大風新聞
      2026-05-18 20:28:06
      就在今天!一個塵封56年的NBA紀錄,被文班打破了

      就在今天!一個塵封56年的NBA紀錄,被文班打破了

      籃球大視野
      2026-05-19 16:21:46
      尷尬!和李英愛合照被熱議!張凌赫在韓網慘遭800樓熱帖吐槽

      尷尬!和李英愛合照被熱議!張凌赫在韓網慘遭800樓熱帖吐槽

      小邵說劇
      2026-05-19 07:56:51
      為什么國宴上只有馬斯克敢“擺爛”?因為他在上海有個“印鈔機”

      為什么國宴上只有馬斯克敢“擺爛”?因為他在上海有個“印鈔機”

      趣味萌寵的日常
      2026-05-17 15:54:14
      特朗普抵京當晚在機場執勤的禮兵震撼外網,詳情披露:來自武警北京總隊某部,哨兵離專機最近15米,擔負特殊任務“夏不穿單、冬不穿棉”

      特朗普抵京當晚在機場執勤的禮兵震撼外網,詳情披露:來自武警北京總隊某部,哨兵離專機最近15米,擔負特殊任務“夏不穿單、冬不穿棉”

      極目新聞
      2026-05-16 08:58:39
      馬斯克的“白月光”,身材火辣顏值驚艷,沒生過孩子還被寵上天

      馬斯克的“白月光”,身材火辣顏值驚艷,沒生過孩子還被寵上天

      不似少年游
      2026-05-18 22:08:03
      馬刺1-0雷霆晉級概率升51% 文班獻‘世界名畫’SGA賽后主動擔責

      馬刺1-0雷霆晉級概率升51% 文班獻‘世界名畫’SGA賽后主動擔責

      顏小白的籃球夢
      2026-05-19 12:47:48
      北京同仁醫院眼科中心主任:無直接證據表明防藍光眼鏡有用,目前沒有近視防控“神器”

      北京同仁醫院眼科中心主任:無直接證據表明防藍光眼鏡有用,目前沒有近視防控“神器”

      紅星新聞
      2026-05-19 17:40:12
      新生兒腰斬、房價下跌?別怪政策了,這才是中國經濟的殘酷真相!

      新生兒腰斬、房價下跌?別怪政策了,這才是中國經濟的殘酷真相!

      冷夜說
      2026-05-11 20:31:08
      炸鍋!上海交大女生偽造轉賬截圖私吞獎金,目標是進體制內工作!

      炸鍋!上海交大女生偽造轉賬截圖私吞獎金,目標是進體制內工作!

      派大星紀錄片
      2026-05-18 17:00:51
      中國樓市:如果未來2年,你還是堅持不買房,請讀完這篇文章

      中國樓市:如果未來2年,你還是堅持不買房,請讀完這篇文章

      專業聊房君
      2026-05-19 10:12:29
      俄總統新聞秘書:俄方希望恢復烏克蘭和平進程

      俄總統新聞秘書:俄方希望恢復烏克蘭和平進程

      新華社
      2026-05-18 20:32:45
      宋美齡40多歲罹患乳癌,92歲確診卵巢癌,仍然活了106歲自然死亡

      宋美齡40多歲罹患乳癌,92歲確診卵巢癌,仍然活了106歲自然死亡

      歲月有情1314
      2026-05-19 20:28:45
      垃圾食品清單已列出,燕麥片排第2,排第1的很多人喜歡吃

      垃圾食品清單已列出,燕麥片排第2,排第1的很多人喜歡吃

      路醫生健康科普
      2026-05-17 19:35:03
      10年麻將館老板囗述:凡是愛打麻將的,沒有一個人日子是過得好的

      10年麻將館老板囗述:凡是愛打麻將的,沒有一個人日子是過得好的

      小噎論事
      2026-04-24 17:15:21
      何立峰會見AMD CEO蘇姿豐!

      何立峰會見AMD CEO蘇姿豐!

      半導體產業縱橫
      2026-05-19 10:58:37
      2026-05-19 20:59:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      13036文章數 142651關注度
      往期回顧 全部

      科技要聞

      馬斯克敗訴,法院判他起訴OpenAI太晚了

      頭條要聞

      男子花20多萬買到洗白"試驗車" 結果被強制注銷成廢鐵

      頭條要聞

      男子花20多萬買到洗白"試驗車" 結果被強制注銷成廢鐵

      體育要聞

      文班亞馬:沒拿到MVP,就證明自己是MVP

      娛樂要聞

      姚晨刪博難平眾怒,為什么她還能蹦噠

      財經要聞

      從賣流量到賣Token,運營商算力生意破局

      汽車要聞

      煥新極氪009上市41.38萬起 齊家版讓MPV回歸家庭

      態度原創

      教育
      家居
      手機
      房產
      公開課

      教育要聞

      普通家庭選專業,就是為了保下限!

      家居要聞

      觀山隱秀 心靈沉淀

      手機要聞

      消息稱蘋果iPhone Fold和競品闊折疊將采用“無痕鉸鏈”方案

      房產要聞

      7516元/㎡,161套一次全甩!海口住宅最低價出現了!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 午夜伦伦电影理论片| 国产偷国产偷亚洲高清人乐享| 午夜性色一区二区三区不卡视频| 亚洲youjizz| 伊人狠狠色丁香婷婷综合| 亚洲欧美va天堂人熟伦| 中文字幕无线码一区二区| 综合色区亚洲熟妇另类| 亚洲熟女VS国产对比| 美女福利一区二区三区在线观看| 日本一本免费一二区| 中日韩高清无专码区2021| 日韩视频在线免费观看| 国产一区二区三区精美视频| 国产熟女第三页| 久久99久久精品视频| 国产精品性| 国产成人午夜在线视频极速观看 | 日本三级香港三级人妇gg在线| 无码无遮挡又大又爽又黄的视频| 少妇被灌醉强行交啪啪| 亚洲老女人区一区二视频| 中文久久乱码一区二区| а√中文在线资源库| 日韩OL丝袜无码AV啪啪| 久久国内精品自在自线观看| 波多野结衣一区二区三区四区 | 成人av片在线观看免费| 午夜寂寞少妇aaa片毛片| 亚州精品熟女在线| 精品亚洲综合成人网| 欧美牲交a欧美牲交aⅴ久久| 国产精品 精品国内自产拍| 亚洲日韩欧美在线观看| 亚洲综合欧美色五月俺也去| 天堂√最新版中文在线天堂 | 亚州成人视频| 国产亚av手机在线观看| 国产精品国产精品国产专区不卡| 久久国产热精品波多野结衣av| 国产精品久久精品三级|