<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      重新審視SFT的泛化能力:優化動態、數據與模型能力的條件性分析

      0
      分享至


      SFT的泛化并非算法本身的屬性,而是同時依賴于優化、數據、基模型能力的條件屬性。

      在大模型后訓練領域,一個被廣泛流傳的敘事是:“監督微調(SFT)傾向于記憶,而強化學習(RL)實現泛化。” 這一觀點自Chu et al. 在合成任務上的實證研究后逐漸成為主流認知,并在后續的數學推理等場景中也被驗證(Huan et al.)。這一敘事極大地影響了學術界對后訓練方法的認識,促使研究者將注意力集中于理解RL相對于SFT的優勢,或是如何改進SFT的目標函數。

      然而,上海人工智能實驗室、上海交通大學、中國科學技術大學聯合發布的研究《Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability》對這一敘事的嚴謹性提出了質疑。該研究指出,“SFT是否泛化”這一問題本身是欠定義的(under-specified)。泛化并非SFT訓練目標的固有屬性,而是一個條件性現象,受到優化動態(optimization dynamics)、訓練數據(training data)以及基模型能力(model capability)三個因素的共同塑造。

      本文將梳理該論文的核心發現,為相關研究者和工程師提供完整的認知框架。


      論文信息

      論文標題:Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability

      作者:Qihan Ren, Peng Wang, Ruikun Cai, Shuai Shao, Dadi Guo, Yuejin Xie, Yafu Li, Quanshi Zhang, Xia Hu, Jing Shao, Dongrui Liu

      機構:上海人工智能實驗室、上海交通大學、中國科學技術大學

      arxiv鏈接:https://arxiv.org/abs/2604.06628

      github鏈接:

      https://github.com/Nebularaid2000/rethink_sft_generalization

      huggingface鏈接:

      https://huggingface.co/collections/jasonrqh/rethink-sft-generalization

      01


      優化動態:表觀的 “不泛化”可能源于優化不充分

      1.1 現象復現與擴展觀察

      研究團隊首先在較短訓練輪次的設定下復現了先前研究的結論:使用20k包含長思維鏈的數學數據對Qwen3-14B-Base進行1個epoch的微調后,模型在分布內(ID)數學任務上獲得了顯著提升(如AIME24提升29.7%),但在分布外(OOD)任務上的收益有限甚至為負(科學推理僅提升2.9%,指令遵循降低9.8%)。這一結果與Huan et al. 的發現高度一致。


      然而,當訓練輪次延長至8個epoch并持續監控性能軌跡時,研究者觀察到了一個關鍵特征:跨領域性能呈現 “先降后升”(dip-and-recovery)的非單調軌跡。具體而言,在訓練初期,OOD任務性能會經歷明顯下降;但隨著訓練的持續深入,性能慢慢恢復并最終超越基模型的初始水平。

      這一現象在Qwen3-14B-Base、Qwen3-8B-Base、InternLM2.5-20B-Base等多個模型上均得到驗證,且在使用DeepSeek-R1生成的數據時同樣成立,表明該動力學特征并非特定模型或數據源的產物。


      1.2 回復長度作為優化階段的診斷指標

      為理解上述動力學的內在機制,研究者同步追蹤了模型回復長度(response length)在訓練過程中的變化。結果顯示,回復長度呈現”先升后降”的軌跡:訓練初期急劇攀升,隨后逐漸回落并趨于穩定。

      這一現象與性能變化存在對應關系:回復較長的checkpoint往往對應較弱的性能表現,而回復趨于精煉時性能也隨之恢復。研究者對此的解釋是:在長思維鏈SFT的早期階段,模型首先習得的是一種顯著的表層模式——生成冗長的類思考軌跡,而尚未可靠地習得更精細的推理模式(如問題分解、回溯、自我驗證等)。這種淺層模仿既限制了推理任務的遷移,也因冗長輸出和偶發的格式錯誤而影響指令遵循等通用能力。隨著優化的持續,模型逐漸習得更具遷移性的程序化模式和更精煉的語言風格,表現為更短、更有針對性的輸出以及更強的跨領域泛化。

      這一點給我們帶來的啟示是:回復長度可作為長思維鏈SFT優化進程的粗粒度診斷指標。當回復長度仍在顯著縮短時,即使分布內任務的性能已趨于合理,模型通常也尚未完成充分優化。

      1.3 重復曝光優于單次遍歷

      長思維鏈數據的擬合難度引出一個實踐問題:在固定的計算預算下,是應在小數據集上多輪訓練,還是在大數據集上單輪遍歷?

      研究者設計了嚴格的對照實驗:固定總梯度更新步數為640步,比較三種設定:設定1(20k樣本,batch size 256,8 epochs)、設定2(2.5k樣本,batch size 32,8 epochs)、設定3(20k樣本,batch size 32,1 epoch)。其中設定2與設定3的訓練預算完全相同,但曝光模式不同(8輪重復 vs. 1輪遍歷)。

      實驗結果表明,設定2在多數基準上顯著優于設定3,而設定1在固定epoch和步數的條件下進一步優于設定2。這說明在較少的訓練預算下,重復曝光比單次遍歷更為有效,而提升總數據量在重復曝光的基礎上仍能提供額外增益。


      1.4 過擬合的識別與邊界

      上述結果提示,在長思維鏈SFT中,欠擬合信號比過擬合更為常見。為厘清過擬合的邊界條件,研究者在Qwen3-14B-Base上進行了激進訓練策略的壓力測試,包括延長訓練輪次至16 epochs、移除學習率衰減、提升學習率至1e-4等。結果顯示,顯著的過擬合癥狀僅在最激進的條件組合下出現(高學習率 + 無學習率衰減 + 長訓練輪次),通常伴隨廣泛的性能下降和回復長度的反彈。


      02


      訓練數據:質量與結構的雙重作用

      2.1 數據質量的影響

      研究者構建了四種數據配置進行對比:

      • Math-CoT-20k:默認數據集,包含長思維鏈回復

      • Math-NoCoT-20k:移除思維鏈,僅保留最終的分步總結和答案

      • NuminaMath-20k:來自NuminaMath-1.5的人工編寫解答,無長思維鏈,質量參差不齊(常包含跳步和不清晰的解釋)

      • Countdown-CoT-20k:基于簡單算術游戲Countdown的長思維鏈數據

      實驗結果揭示了數據質量的關鍵作用:NuminaMath數據不僅對分布內任務提升有限,更導致OOD泛化能力的廣泛退化,且在整個訓練過程中幾乎無法觸發”先降后升”的恢復動態。低質量數據可能導致對SFT泛化能力的嚴重低估。

      2.2 長思維鏈的作用

      對比Math-CoT-20k與Math-NoCoT-20k(兩者共享相同的query和最終解答,僅前者包含探索性思考過程)可以隔離長思維鏈的效果。結果表明:長思維鏈監督在推理密集型任務上帶來更強的泛化,尤其在數學推理任務上優勢明顯。在OOD推理任務上,這一趨勢在大模型上更為顯著,而在較小的Qwen3-8B上收益相對較弱。

      2.3 程序化泛化:來自Countdown的證據

      Countdown數據集提供了一個獨特的實驗窗口。該游戲要求模型通過對給定的數字進行四則運算,來達到目標數字。其回復軌跡包含分解、回溯、驗證等結構化探索模式,但不包含任何顯式的領域知識。

      實驗結果頗具啟發性:僅憑Countdown數據,Qwen3模型在推理任務上的表現甚至超過了Math-NoCoT-20k數據,盡管Countdown的內容范圍極其狹窄。這一發現有力地表明,推理程序的結構(procedural patterns)而非領域內容,可能是跨領域泛化的關鍵驅動因素

      然而,這種程序化泛化并非普適:對于InternLM2.5-20B,Countdown僅帶來邊際收益,提示程序化泛化的有效性同樣依賴于基模型的能力。這一點將在下一節詳述。


      03


      模型能力:泛化的必要條件

      3.1 能力依賴的泛化軌跡

      研究者在嚴格控制數據與訓練協議的條件下,橫向對比了Qwen3系列不同規模的模型(1.7B、4B、8B、14B)。結果呈現出清晰的能力依賴趨勢:

      • 14B模型展現出典型的”先降后升”軌跡,最終在各領域獲得廣泛收益

      • 8B和4B模型同樣出現恢復階段,但改善幅度較小

      • 1.7B模型在所有基準上的收益都極其有限甚至為負,即使在晚期檢查點也是如此

      這一模式表明,優化充分和數據高質量并不足以保證泛化,模型必須具備足夠的能力來內化可遷移的推理模式。

      回復長度的動態進一步印證了上述解釋:小模型在延長訓練后仍維持較長的回復長度,而大模型的回復長度收縮更快并穩定在更低水平。結合第一節的分析,持續處于 “冗長回復”階段的模型可能尚未內化真正的推理模式。小模型更容易滯留在這一階段,反映出有限的能力難以支撐更深層的學習。


      3.2 Token級別的分析

      為進一步理解能力差異的微觀機制,研究者分析了14B與1.7B模型在訓練數據上的token級對數概率差異。結果揭示了一個顯著模式:14B模型的優勢集中于推理轉折詞——therefore、alternatively、wait、however等。這些詞匯標志著模型切換推理策略、自我糾正、回溯或反思中間結果的時刻,是思維鏈推理的結構骨架。

      相比之下,1.7B模型在局部數學計算模式的學習上表現尚可,但在把握何時重新考慮、何時嘗試另一種方法、何時驗證這些高層次推理流程上存在明顯短板。


      04


      不對稱泛化:推理提升與安全退化的并存

      4.1 安全性能的系統性退化

      研究的最后部分揭示了長思維鏈SFT的一個重要副作用:推理能力的泛化伴隨著安全性能的退化

      在HEx-PHI安全基準上的評估顯示,經長思維鏈數據(Math-CoT-20k)訓練后,三個基模型的攻擊成功率(ASR)均大幅上升。作為對照,無思維鏈數據(Math-NoCoT-20k)訓練后的安全退化程度則小得多。這一對比表明安全退化更多地與長思維鏈中的程序化推理模式相關,而非數學內容本身

      4.2 自我合理化機制

      對具體案例的分析揭示了安全退化的內在機制。基模型在面對有害請求時通常直接拒絕;而經長思維鏈SFT后,模型會在思考過程中進行自我合理化,例如假設 “這可能是為了網絡安全課程的教育目的”。研究者推測,這種現象本身也可視為一種 “泛化”:長思維鏈SFT強化了模型 “探索替代方案、尋找可行路徑、克服障礙”的持久問題求解先驗。當面對有害請求時,拒絕策略本身成為需要克服的障礙,而延長的推理過程則提供了繞過安全護欄的空間。


      05


      結論與討論

      本研究系統性地表明,推理SFT的跨領域泛化能力是條件性的,而非先天缺失的。強基座在低質量數據下仍可能泛化失敗;高質量數據在欠優化條件下可能表現平平;弱模型在高質量數據的長訓練下也僅能獲得邊際收益。一個更具建設性的問題不是 “SFT是否泛化”,而是 “在什么條件下泛化,代價是什么”。

      這一相互依賴性對當前 “孤立測試單一因素”的研究范式提出了挑戰,提示未來的工作應將模型、數據、算法與訓練策略作為整體進行聯合優化。

      參考文獻

      Chu et al. SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training. ICML, 2025.

      Huan et al. Does Math Reasoning Improve General LLM Capabilities? Understanding Transferability of LLM Reasoning. Arxiv 2507.00432

      未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!

      公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      “農業學大寨”為啥搞不下去了?

      “農業學大寨”為啥搞不下去了?

      霹靂炮
      2026-05-15 14:08:15
      在歡迎晚宴上,特朗普罕見破例了!

      在歡迎晚宴上,特朗普罕見破例了!

      仕道
      2026-05-15 13:26:03
      國家稅務總局成都市稅務局原二級巡視員李平接受審查調查

      國家稅務總局成都市稅務局原二級巡視員李平接受審查調查

      界面新聞
      2026-05-15 15:40:24
      廣州暴雨,小孩連人帶車被沖走,外賣小哥狂奔救人!最新消息

      廣州暴雨,小孩連人帶車被沖走,外賣小哥狂奔救人!最新消息

      南方都市報
      2026-05-15 17:22:46
      中美會談已結束,特朗普專機已離京,黃仁勛說了一句不尋常的話

      中美會談已結束,特朗普專機已離京,黃仁勛說了一句不尋常的話

      麓谷隱士
      2026-05-15 10:16:15
      突發!亞太股市,全線跳水!

      突發!亞太股市,全線跳水!

      證券時報
      2026-05-15 10:52:19
      張雪機車再拿第一!WSBK捷克站自由賽:53號車手德比斯奪全場第一

      張雪機車再拿第一!WSBK捷克站自由賽:53號車手德比斯奪全場第一

      快科技
      2026-05-15 18:00:34
      央視拿下2026年美加墨世界杯版權!知名主持韓喬生喊話“妥了”,中國球迷可在家看世界杯了

      央視拿下2026年美加墨世界杯版權!知名主持韓喬生喊話“妥了”,中國球迷可在家看世界杯了

      新民晚報
      2026-05-15 15:45:13
      濮陽17歲小伙找到!遺體在河里漂8天,知情人發聲,自殺恐是必然

      濮陽17歲小伙找到!遺體在河里漂8天,知情人發聲,自殺恐是必然

      奇思妙想草葉君
      2026-05-15 11:09:57
      實力至上!馬斯克只尊重有實力的朋友,看他怎么對待雷軍和馬云的

      實力至上!馬斯克只尊重有實力的朋友,看他怎么對待雷軍和馬云的

      南方健哥
      2026-05-15 12:23:17
      馬斯克訪華像回家,母親已長住上海,兒子身價萬億她還做視頻帶貨

      馬斯克訪華像回家,母親已長住上海,兒子身價萬億她還做視頻帶貨

      青橘罐頭
      2026-05-15 14:22:09
      馬斯克轉發庫克、雷軍和他合照帖!稱在北京干著“馬斯克式”的事

      馬斯克轉發庫克、雷軍和他合照帖!稱在北京干著“馬斯克式”的事

      火山詩話
      2026-05-15 16:14:20
      讓學術能力很強的博士退學的后果是:學術圈的“杰青”保不住了

      讓學術能力很強的博士退學的后果是:學術圈的“杰青”保不住了

      必記本
      2026-05-15 12:08:25
      黃仁勛去吃炸醬面!大熱天穿皮衣,站在門口大口吃面條

      黃仁勛去吃炸醬面!大熱天穿皮衣,站在門口大口吃面條

      西樓知趣雜談
      2026-05-15 13:59:38
      中方是否同意未來購買美國石油?外交部回應

      中方是否同意未來購買美國石油?外交部回應

      澎湃新聞
      2026-05-15 15:30:31
      特朗普二兒媳穿刺繡旗袍驚艷國宴!配迪奧包包太美了,這回好驚艷

      特朗普二兒媳穿刺繡旗袍驚艷國宴!配迪奧包包太美了,這回好驚艷

      好賢觀史記
      2026-05-15 15:10:23
      何小鵬的私心,與小鵬的野心

      何小鵬的私心,與小鵬的野心

      陸玖商業評論
      2026-05-14 17:46:13
      特朗普43歲小兒媳穿旗袍赴宴,華裔設計師作品,前私教自認普通

      特朗普43歲小兒媳穿旗袍赴宴,華裔設計師作品,前私教自認普通

      譯言
      2026-05-15 12:26:05
      戛納紅毯第二彈!章澤天好美,袁姍姍嚇我一跳,周也沒扛住生圖

      戛納紅毯第二彈!章澤天好美,袁姍姍嚇我一跳,周也沒扛住生圖

      八卦南風
      2026-05-15 15:58:56
      吃完午宴,特朗普離開北京,臨走前發出邀請,魯比奧對華態度變了

      吃完午宴,特朗普離開北京,臨走前發出邀請,魯比奧對華態度變了

      生活魔術專家
      2026-05-15 17:34:14
      2026-05-15 19:59:00
      AI科技評論 incentive-icons
      AI科技評論
      點評學術,服務AI
      7278文章數 20751關注度
      往期回顧 全部

      科技要聞

      兩年聯姻一地雞毛,傳蘋果OpenAI瀕臨決裂

      頭條要聞

      美媒詢問是否認為現在的美國是"衰落國家" 外交部回應

      頭條要聞

      美媒詢問是否認為現在的美國是"衰落國家" 外交部回應

      體育要聞

      德約科維奇買的球隊,從第6級聯賽升入法甲

      娛樂要聞

      方媛為何要來《桃花塢6》沒苦硬吃?

      財經要聞

      騰訊掉隊,馬化騰戳破真相

      汽車要聞

      高爾夫GTI刷新紐北紀錄 ID. Polo GTI迎全球首秀

      態度原創

      家居
      藝術
      本地
      手機
      公開課

      家居要聞

      110㎡淡而有致的生活表達

      藝術要聞

      敦煌挖出王羲之書法!全卷2000字清晰如新!

      本地新聞

      用蘇繡的方式,打開江西婺源

      手機要聞

      小米盧偉冰宣布明日直播:將爆料17 Max手機賣點

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: av日韩亚洲| 欧美成人精品欧美一级乱黄| 国产成人精品亚洲午夜| 日韩精品在线观看一二区| 亚洲综合一区二区| 国产精品无码a∨麻豆| 丁香五月亭亭| 国产伦精品一区二区三区2| 国产精品无码一二三视频| 国产不卡一区二区在线视频| 99精品视频在线| 欧美日本韩国亚洲| 麻豆av蜜桃| 国产www在线观看| 又嫩又硬又黄又爽的视频| 国产亚洲一区二区在线观看| 丰满爆乳在线播放| A在线视频| 亚洲s色大片在线观看 | 激情综合婷婷色五月蜜桃 | 欧美日韩在线观看视频| 成人无码在线视频网站| a级毛片在线免费| 亚洲av综合色区在线观看天天| 久久99精品久久久久久秒播| 九九99国产精品视频| 亚洲乱码精品久久久久..| www.亚洲成年人网站| 成人无号精品一区二区三区| 久久国产精品波多野结衣AV| 91尤物国产尤物福利在线| 人妻精品动漫h无码| 秋霞人妻无码中文字幕| 在线播放午夜理论片| 日韩精品久久久久久免费 | 久久ee热这里只有精品| 亚洲AV无码一区二区三区四区 | 国产精品亚洲а∨天堂免下载 | 国产精品热久久无码av| 二级特黄绝大片免费视频大片| yy亚洲人成电影网站色|