<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      打破推理同質化!阿里達摩院新作讓RLVR從重復采樣走向有效探索

      0
      分享至



      I2B-LPO 是一個面向 RLVR 后訓練的探索增強框架,通過改進 rollout 策略引導模型生成更多樣化的推理軌跡,將探索行為從 “重復采樣” 推進到 “在關鍵節點生成更具區分度的推理軌跡”,在多個數學基準上同時提升準確率與語義多樣性,最高分別達 5.3% 和 7.4%。該工作接收于 ACL 2026 Main,來自阿里達摩院 - 智能決策團隊。

      近年來,隨著 DeepSeek-R1 等推理模型出現,基于可驗證獎勵的強化學習(RLVR)已成為提升數學、代碼能力的重要訓練范式。其核心思想在于:對同一道題采樣多條推理路徑,并根據獎勵信號,強化正確路徑、抑制錯誤路徑。這就像讓模型對同一道題寫出多份解題草稿,再從中學習哪些思路更值得保留。

      一種直觀想法是 :如果采樣軌跡(rollout)足夠多,模型就總能探索出更多解法,獲得更有效的更新信號?然而,在實際訓練中,盲目增加采樣數量并不一定帶來更高效的探索。這背后對應著強化學習中的經典探索 - 利用困境(exploration-exploitation trade-off):模型既要利用可驗證獎勵,強化當前更容易得到正確答案的推理模式;又要保持探索能力,跳出已有模板,嘗試新的解題方向。

      當前的 rollout 采樣機制天然偏向 “利用”:模型很快收斂到少數高概率推理模板,生成的軌跡雖然措辭不同,底層邏輯卻高度同質化。這種同質化推理削弱了軌跡間的獎勵差異和優勢信號,使額外采樣也難以帶來有效更新。



      表 1: 高熵 Token 類別示例

      熵,作為衡量模型在生成下一步時不確定性的指標,天然指向探索的關鍵節點。通過系統實驗,我們發現:策略熵往往與邏輯轉折、自我糾錯等行為高度相關(如表 1 所示),是引導模型探索的有效信號。



      圖 1:RLVR 中不同探索范式的對比(a)Sequence-level 的整體正則化方法通過全局平滑 token 分布來提高熵,但容易讓模型生成冗長、重復或與解題無關的內容,形成 “高熵但低信息量” 的無效探索。(b)token-level 的概率擾動方法則只在局部高熵 token 上調整概率,往往只能帶來連接詞、同義詞或表層表達的變化,也難以突破預訓練模型已有的推理偏好來持續改變后續推理方向。

      然而,在實踐中我們發現,在高熵節點僅僅依靠 sequence-level 的整體正則化或 token-level 的概率擾動,無法持續影響后續推理軌跡的整體走向。如圖 1 所示,基于熵的強化學習方法存在以下關鍵問題:

      1. 獎勵作弊(Reward Hacking):模型為了騙取熵相關的獎勵項,故意生成無意義的發散,生成冗長、重復或與解題無關的內容。
      2. 歸納偏置(Inductive Bias):僅僅在詞層面做文章,無法打破模型的預訓練歸納偏置。

      為了解決這些問題,我們提出 I2B-LPO:在高熵節點向模型注入潛變量分支,以確保在模型在關鍵節點生成更具區分度的推理軌跡,并引入一種反饋機制,濾除冗長和無意義的推理路徑。這一方法幫助 RLVR 在有限推理資源下實現更高效的探索,進一步突破大模型的推理性能瓶頸。



      • 論文標題:I2B-LPO: Latent Policy Optimization via Iterative Information Bottleneck
      • 論文鏈接:https://arxiv.org/pdf/2601.05870
      • 開源鏈接:https://github.com/denghuilin-cyber/IIB-LPO

      01 工作概述

      本文提出一種面向 RLVR 后訓練的探索增強框架,鼓勵模型在關鍵節點生成更具區分度的推理軌跡。具體而言,I2B-LPO 通過改進 rollout 策略,使模型在有限采樣預算下獲得更有效的探索信號,顯著提升了數學推理任務中的準確率與語義多樣性。

      理論與現象分析:

      1. 高熵節點是真正的推理分叉點: 我們按 token-level entropy 對推理過程進行分組實驗,發現模型處于高熵區間時,不同解碼策略的性能差異明顯放大;而在低熵區間,這種差異并不顯著。這說明高熵位置往往對應關鍵決策點,更適合作為推理軌跡的分支位置。

      2. 推理長度不等同于有效推理: 在標準 GRPO 訓練中,我們觀察到:模型準確率較早進入平臺期,但響應長度和 4-gram 重復率仍持續上升。這表明模型可能只是在生成更長、更重復的內容,而不是產生更有效的推理。因此,有效探索不僅要生成更多路徑,也要識別真正有信息量的路徑。

      核心創新:

      I2B-LPO: 我們提出了一種面向 RLVR 后訓練的探索增強框架,結合熵驅動的推理軌跡分支和信息瓶頸自獎勵機制,在 Qwen2.5-7B 和 Qwen3-14B 模型上驗證了其有效性。

      驗證與結果:

      我們基于 GRPO 框架,在多個數學推理基準上對 I2B-LPO 進行了驗證。結果顯示,I2B-LPO 同時提升了推理準確率與語義多樣性,在保證探索多樣性的同時避免了過度冗長。

      02 具體方法



      圖 2: I2B-LPO 將 rollout 從 “隨機多采樣” 改造成 “關鍵節點分支 + 高質量路徑篩選” 的結構化探索過程,使模型既能探索不同解題方向,又能避免無效發散。

      I2B-LPO 并不替換原有 GRPO 訓練框架,而是改進其中的 rollout 生成與策略更新過程:先讓推理軌跡在關鍵位置分叉,再篩選出真正高質量的探索路徑參與更新。

      1.熵驅動潛變量分支: 對每條初始 rollout,I2B-LPO 會定位策略熵較高的 “猶豫節點”,并基于當前推理前綴采樣潛變量,通過偽自注意力機制(PSA)注入模型內部,持續影響后續生成,從而得到多條結構上更具差異的推理軌跡。

      2.信息瓶頸自獎勵: 對生成的分支軌跡,I2B-LPO 使用信息瓶頸指標進行排序和篩選,保留簡潔、高信息量、對答案真正有幫助的路徑,過濾冗長、重復或邏輯漂移的無效探索,并將高質量軌跡用于 GRPO 策略更新。

      具體流程可以概括為:初始 rollout → 高熵節點分支 → 生成候選推理軌跡 → IB 自獎勵篩選 → GRPO 策略更新

      1.熵驅動潛變量分支

      對于一條初始推理軌跡 r=(o1,…,oT),I2B-LPO 首先計算每個生成位置的策略熵:



      其中,Ht 衡量模型在第 t 步生成下一個 token 時的不確定性。熵越高,說明模型在當前位置越 “猶豫”,也更可能存在不同推理方向。

      因此,我們選擇高熵位置作為推理分叉點:



      其中,τ 表示熵的高分位閾值。隨后,I2B-LPO 基于當前推理前綴 ct? 采樣潛變量:



      這些潛變量代表不同的潛在推理方向。為了讓它們持續影響后續生成,而不是只改變某個 token 的概率,I2B-LPO 設計了偽自注意力機制(Pseudo Self-Attention, PSA)。

      具體來說,PSA 首先用潛變量調制 RMSNorm 的縮放參數:



      其中,γ(t) 是隨生成過程逐漸衰減的注入強度。這樣可以讓潛變量在推理早期提供方向引導,同時避免后期過度干擾。接著,PSA 將潛變量映射為額外的 Key 和 Value,并拼接到原始注意力中:



      最終注意力計算變為:



      直觀來說,PSA 相當于給模型加入一個 “隱含思路提示”:它持續影響后續推理軌跡,使同一條 rollout 在關鍵節點分化出多條更具區分度的路徑。

      2.信息瓶頸自獎勵

      生成多條候選軌跡后,I2B-LPO 不會直接全部用于訓練,而是利用信息瓶頸指標進行篩選。核心思想是:好的推理路徑應該既簡潔,又對最終答案有幫助。

      我們用如下分數衡量一條軌跡的質量:



      其中,I (r;a) 表示推理軌跡對最終答案的信息貢獻,I (q;r) 用于約束軌跡不要過度冗長或重復。分數越高,說明該軌跡越簡潔、有效、直擊答案。

      最終,I2B-LPO 保留 IB 分數最高的 Top-N 條軌跡:



      并將其用于 GRPO 策略更新:



      03 實驗結果

      為了驗證我們的模型在數學推理任務中的表現,我們進行了廣泛的實驗,并在多個基準數據集上進行了測試。以下是實驗部分的詳細介紹:

      訓練數據:

      訓練數據主要來自 DAPO 和 MATH。為提升訓練效率,我們過濾了過于簡單、過于困難以及容易導致超長輸出的樣本,最終保留 6,486 條 MATH 樣本和 13,583 條 DAPO 樣本用于訓練。

      Benchmarks:

      • AIME2025 / AIME2024: 美國高中數學邀請賽基準,解題步驟復雜。
      • MATH-500: 覆蓋代數、幾何、數論、概率多個主題,考驗通用數學推理能力。
      • OlympiadBench: 奧林匹克競賽級別的高難度數學基準,強調長鏈條推導和跨知識點綜合能力。
      • GSM8K: 初中水平數學應用題基準,評估基礎算術推理和自然語言問題求解。



      表 2: 不同方法的推理準確率對比



      表 3: 不同方法的推理多樣性指標對比

      表 2 和表 3 分別驗證了 I2B-LPO 在推理準確率與生成多樣性上的優勢。結果顯示,I2B-LPO 在不同模型規模和多個數學基準上均穩定提升性能,不僅答得更準,也能生成更多樣的推理路徑。



      圖 3: 不同方法下的熵分布與訓練動態對比。(a)展示不同方法下 token 概率與熵的分布關系;(b)展示訓練過程中平均熵的變化趨勢。相比 其他方法,I2B-LPO 能在訓練后期維持更穩定的熵水平。

      圖 3 用于分析 I2B-LPO 是否真正改善了模型的探索行為。如圖 3 所示,(a)散點圖中標準 GRPO 的 token 更容易集中到低熵區域,說明模型逐漸變得 “確定”,探索空間被壓縮;Entropy Regularization 雖然提高了熵,但容易出現異常高熵點,帶來無效發散。I2B-LPO 則保持了更均衡的概率 - 熵分布。(b)曲線進一步表明,I2B-LPO 能在訓練后期維持相對較高且穩定的熵水平,避免模型過早陷入單一推理模板,從而保留有效探索能力。

      圖 4. 不同難度題目下的注意力頭激活模式對比。紅色表示在高難度題目中更活躍的注意力頭,藍色表示在低難度題目中更活躍的注意力頭。

      為驗證潛變量分支是否帶來結構化推理引導 還是 隨機噪聲注入,我們可視化了注意力激活模式。如圖 4 所示,輸入層注入機制容易被深層稀釋,softmax 層注入機制則會造成分散激活;而 I2B-LPO 使用的 PSA 偽自注意力注入能夠在深層激活與難題相關的注意力頭,形成更有結構的推理激活模式。

      我們進一步分析了自獎勵機制篩除的低質量軌跡,發現低 IB 分數的軌跡主要有三類典型問題:

      • 空泛冗長: 看似在認真分析,實際包含大量 “Let me think”“It is important to note” 等無信息量鋪墊。
      • 重復循環: 反復重述題目或中間步驟,生成長度變長,但沒有新增推理信息。
      • 邏輯漂移: 表達很簡潔,但關鍵公式或推導方向出錯,對答案沒有幫助。

      相比之下,高 IB 分數的軌跡往往更短、更直接,并且每一步都服務于最終答案。這說明信息瓶頸自獎勵不僅是在懲罰 “話多”,而是在篩選真正簡潔、有效、有預測力的推理路徑。案例分析如圖 5 所示。



      圖 5. 高 IB 分數與低 IB 分數推理軌跡對比

      總結

      本研究聚焦于提升 RLVR 后訓練中的探索效率與推理質量。通過系統分析,我們發現,標準隨機 rollout 容易讓模型收斂到少數高概率推理模板,導致多條推理軌跡表面不同、底層同質,進而削弱軌跡間的獎勵差異和有效學習信號。

      基于這一發現,我們提出了探索增強框架 I2B-LPO。該方法將 RLVR 中的探索從 “重復采樣更多答案” 推進到 “在關鍵節點生成更具區分度的推理軌跡”。I2B-LPO 主要通過兩個關鍵機制實現高效探索:

      • 高熵節點分支: 在模型真正不確定的關鍵位置生成多樣化推理軌跡。
      • 信息瓶頸自獎勵: 篩選簡潔、高信息量、直擊答案的高質量路徑,過濾冗長和無效推理。

      實驗結果表明,I2B-LPO 能夠在多個數學推理基準上同時提升推理準確率與語義多樣性,在有限采樣預算下實現更高效、更可靠的 RLVR 探索。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      香港回歸前,英國同美國欲用48枚原子彈鏟平中國,老一輩決策太牛

      香港回歸前,英國同美國欲用48枚原子彈鏟平中國,老一輩決策太牛

      云霄紀史觀
      2026-05-15 01:53:01
      活久見,某工程公司因工程款未到賬,流動資金不足居然想出了這招

      活久見,某工程公司因工程款未到賬,流動資金不足居然想出了這招

      黯泉
      2026-05-15 16:19:10
      非洲疾控中心:剛果(金)暴發埃博拉疫情

      非洲疾控中心:剛果(金)暴發埃博拉疫情

      新華社
      2026-05-15 16:52:07
      一人毀掉一部劇?《主角》唯一敗筆,觀眾:看她演戲真別扭!

      一人毀掉一部劇?《主角》唯一敗筆,觀眾:看她演戲真別扭!

      博卜talk
      2026-05-14 18:11:36
      塵封14年!穆氏皇馬西甲百分神跡至今無人可破,將永載史冊!

      塵封14年!穆氏皇馬西甲百分神跡至今無人可破,將永載史冊!

      田先生籃球
      2026-05-14 19:02:09
      緊身褲的魅力擋不住

      緊身褲的魅力擋不住

      藍色海洋009
      2026-05-15 15:34:48
      “中美關系新定位”,帶給世界什么?

      “中美關系新定位”,帶給世界什么?

      新民晚報
      2026-05-15 09:50:45
      白酒大勢已定:不出意外,2026年白酒市場將迎來3大格局重構!

      白酒大勢已定:不出意外,2026年白酒市場將迎來3大格局重構!

      奇思妙想生活家
      2026-05-15 15:45:34
      中國股市唯一賺錢最快思路:持有一只股,保留30%倉位,長期做T!

      中國股市唯一賺錢最快思路:持有一只股,保留30%倉位,長期做T!

      股經縱橫談
      2026-05-15 19:18:34
      米體:皇馬1000萬歐回購尼科-帕斯

      米體:皇馬1000萬歐回購尼科-帕斯

      懂球帝
      2026-05-15 17:29:17
      英超改期!誰勝誰進歐冠,利物浦有兩次機會,維拉還有三次

      英超改期!誰勝誰進歐冠,利物浦有兩次機會,維拉還有三次

      嗨皮看球
      2026-05-15 12:10:40
      外國政要為何都愛逛天壇?半世紀來接待數十位外國政要;最愛逛天壇的是基辛格,一生到訪15次

      外國政要為何都愛逛天壇?半世紀來接待數十位外國政要;最愛逛天壇的是基辛格,一生到訪15次

      極目新聞
      2026-05-15 12:08:50
      深鐵再借25億,萬科稱,這次押上全部身價,這幫人到底在干嘛?

      深鐵再借25億,萬科稱,這次押上全部身價,這幫人到底在干嘛?

      臨云史策
      2026-05-15 14:02:08
      這才是今年最大的瓜!

      這才是今年最大的瓜!

      白淺娛樂聊
      2026-04-29 09:17:37
      一座天壇,橫跨51年:美國總統再次踏上中美交往的歷史現場

      一座天壇,橫跨51年:美國總統再次踏上中美交往的歷史現場

      澎湃新聞
      2026-05-14 13:34:30
      歐洲媒體炸鍋了!馬克龍掌摑門驚天反轉,竟因伊朗女演員柏拉圖戀愛?

      歐洲媒體炸鍋了!馬克龍掌摑門驚天反轉,竟因伊朗女演員柏拉圖戀愛?

      新歐洲
      2026-05-14 19:47:51
      股價大跌因“談價失敗”?3000億PCB龍頭回應

      股價大跌因“談價失敗”?3000億PCB龍頭回應

      21世紀經濟報道
      2026-05-15 13:59:08
      體壇丑聞!嗜賭只是冰山一角,婚內出軌睡有婦之夫,太毀三觀

      體壇丑聞!嗜賭只是冰山一角,婚內出軌睡有婦之夫,太毀三觀

      橙星文娛
      2026-04-25 11:14:17
      當年身患漸凍癥,還堅持在抗疫一線的張定宇院長,如今境況如何?

      當年身患漸凍癥,還堅持在抗疫一線的張定宇院長,如今境況如何?

      長星寄明月
      2026-05-14 15:44:53
      喜馬拉雅某員工:躲過了兩次裁員,終于成為騰訊員工了

      喜馬拉雅某員工:躲過了兩次裁員,終于成為騰訊員工了

      螞蟻大喇叭
      2026-05-14 11:11:38
      2026-05-15 21:04:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      13006文章數 142649關注度
      往期回顧 全部

      科技要聞

      直降千元起步!蘋果華為率先開啟618讓利

      頭條要聞

      伊朗外長警告阿聯酋 指責其直接參與對伊朗的軍事行動

      頭條要聞

      伊朗外長警告阿聯酋 指責其直接參與對伊朗的軍事行動

      體育要聞

      德約科維奇買的球隊,從第6級聯賽升入法甲

      娛樂要聞

      方媛為何要來《桃花塢6》沒苦硬吃?

      財經要聞

      騰訊掉隊,馬化騰戳破真相

      汽車要聞

      高爾夫GTI刷新紐北紀錄 ID. Polo GTI迎全球首秀

      態度原創

      親子
      教育
      數碼
      公開課
      軍事航空

      親子要聞

      深圳萌娃化身“護鳥衛士” 為紅耳鵯蛋寶寶搭圍欄立守則

      教育要聞

      避開熱門內卷,這三個小眾工科專業,解鎖未來機遇

      數碼要聞

      OPPO Enco Air5標準版耳機5月20日首銷

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      烏克蘭首都基輔遭空襲 死亡人數增至12人

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 五月天综合网亚洲综合天堂网| 平原县| av深夜福利在线| 久久精品视频在线看99| 精品熟女999| 岛国一区二区三区av| 国产精品美女挤奶视频| 亚洲中文字幕av每天更新| 日韩不卡免费视频| 人人妻人人妻人人人人妻| 跪求黄色网址| 久久中文精品无码中文字幕下载 | 国产一区二区波多野结衣| av新版天堂在线观看| 美女黑丝床上啪啪啪国产| 亚洲欧美日韩精品香蕉| 黎城县| 中文字幕在线播放不卡| 亚洲综合久久国产一区二区| 欧美极品视频在线| 亚洲第一福利网站在线观看| 久久精品成人免费观看| 最新无码人妻在线不卡| 亚洲av乱码久久精品| a色毛片免费视频| 国内自拍第一区二区三区| 波多野结衣av88综合| 最新成免费人久久精品| 日本久久香蕉一本一道| 国产一区二区亚洲一区二区三区| 欧美日韩一区二区综合| 欧洲亚洲一区| 欧美性猛交aaaa片黑人| 精品产品福利| 国产人妻精品午夜福利免费| a4yy私人毛片| 亚洲精品成人福利网站| 青青青伊人色综合久久| 无码国产精品一区二区免费i6| 色噜噜在线视频免费观看| 男女精品网站|