<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      讓大模型邊想邊說:這篇文章把「何時開口」變成可學習策略

      0
      分享至




      導語:推理模型的「沉默稅」該怎么解?

      用過推理型大模型的人,大概率都熟悉這種體驗:模型似乎在認真思考,但屏幕上長時間沒有真正有用的內容;如果讓它一開始就輸出,又很容易出現倉促判斷,后面的推理還要被早期錯誤牽著走。

      這正是論文 When to Think, When to Speak: Learning Disclosure Policies for LLM Reasoning 試圖解決的問題。作者把這種矛盾稱為單流自回歸接口下的 “silence tax”(沉默稅):在傳統單一可見流里,每個生成 token 既更新模型狀態,又構成不可撤回的公開承諾。模型多想一會兒,用戶就多等一會兒;模型早說一點,又可能過早承諾。

      為此,來自紐約州立大學石溪分校、浙江大學、威廉瑪麗學院、伊利諾伊大學香檳分校、英屬哥倫比亞大學、香港中文大學、以及復旦大學的研究人員提出 Side-by-Side(SxS)Interleaved Reasoning(并列式交錯推理),把 “何時披露內容” 變成一個可學習的決策。模型可以在同一個自回歸上下文里交替執行兩類動作:繼續思考,或披露已經被當前推理支持的答案片段。這樣一來,流式生成不再只是前端展示策略,而變成了模型自身學到的 “披露策略”。



      • 論文標題:When to Think, When to Speak: Learning Disclosure Policies for LLM Reasoning
      • 論文地址:https://arxiv.org/pdf/2605.03314
      • 作者:Jiaqi Wei, Xuehang Guo, Pengfei Yu, Xiang Zhang, Wanli Ouyang, Siqi Sun, Qingyun Wang, Chenyu You
      • 機構:Stony Brook University、浙江大學、William & Mary、UIUC、UBC、香港中文大學、復旦大學
      • 會議:ICML 2026

      一句話概括這篇論文

      SxS Interleaved Reasoning 讓大模型在推理過程中學會 “邊想邊說”:只有當答案片段已經被當前推理前綴支持時,才把它作為用戶可見內容披露出來;其余推理繼續保留在同一上下文中,幫助模型完成后續推理。

      這不是簡單地讓模型更快輸出第一個 token,也不是鼓勵它用 “我正在思考” 之類的空話填充等待時間。論文關注的是內容延遲,也就是用戶什么時候能看到真正和任務相關、且有依據的內容。

      為什么 “快點輸出” 不是答案

      當前大模型的流式交互通常默認一個設計:模型生成什么,用戶就立即看到什么。這種設計簡單、穩定,也方便部署,但它把兩個原本不同的問題綁在了一起。

      • 第一,生成 token 是模型狀態更新的一部分,后續推理會基于已生成前綴繼續展開。
      • 第二,生成 token 也是面向用戶的公開承諾,一旦展示出來,就會限制后續回答不能隨意推翻。

      在簡單問答里,這個耦合問題不明顯;但在數學、科學問答、代碼推理等任務里,模型往往需要較長的中間推理。若先完整思考再回答,用戶會經歷長時間沉默;若一開始就把中間想法或候選答案顯示出來,錯誤前綴又可能造成 “過早承諾”。

      論文的關鍵判斷是:真正值得優化的不是 Time to First Token, TTFT(首 token 延遲)這種系統層面的指標,而是 “第一個有用內容何時出現,以及兩次有用更新之間間隔多久”。這也是 SxS 后續評測里使用 ARI、ABO、AIRW 等內容延遲指標的原因。



      核心方法:把輸出分成

      “思考” 和 “披露” 兩種動作

      SxS 的設計很直接:模型仍然是標準自回歸生成,不需要第二個模型、第二套隱藏狀態或專門的推理架構;不同之處在于,它在生成流里通過輕量標簽區分兩類 token。

      • think(思考動作):用于繼續內部推理,不直接作為用戶可見答案披露。
      • speak(披露動作):用于披露用戶可見內容,這些內容必須被當前推理前綴支持。

      可以把它理解成一種 “可控可見性” 的單流生成。所有內容仍在同一上下文里,因此模型不會丟失前面推理;但用戶看到的,只是模型選擇披露的答案流。

      這帶來的變化很重要:模型不必在 “沉默到最后” 和 “馬上冒險回答” 之間二選一。它可以先披露一個已經被當前推理支持的答案前綴或部分答案,再繼續推理剩余部分,隨后逐步補全最終回答。

      訓練流程:先學會格式,

      再用 RL 找回推理能力

      論文的訓練分成兩個階段,核心目標是避免一個常見副作用:如果只獎勵早輸出,模型可能學會說廢話;如果只學交錯格式,模型準確率又可能下滑。

      • 第一步,構造蘊含對齊的交錯軌跡 (entailment-aligned interleaved trajectories)。作者從標準的 prompt、reasoning、response 三元組出發,把推理和答案都切分成片段,再判斷某個答案前綴是否已經被當前推理前綴支持。只有被支持的答案片段才會被放進 speak。
      • 第二步,用 SFT 學會雙動作語義。SFT 讓模型先掌握 think /speak 的基本格式,知道什么時候繼續推理,什么時候披露內容。
      • 第三步,用 GRPO 做 RL 恢復推理性能。因為交錯格式會改變生成分布,SFT 后準確率可能下降;RL 階段用結果正確性信號把模型拉回高質量推理,同時保留披露節奏。

      這套流程的一個實用點是:它沒有把 “早輸出” 寫成硬規則,而是把 “有依據地早披露” 作為監督和優化目標。換句話說,早不是目的,早且可支持才是目的。



      實驗結果:更短的可見等待,

      更好的準確率 — 延遲權衡

      論文在兩類 Qwen3 模型上驗證方法:MoE 架構 Qwen3-30B-A3B,以及 dense 架構 Qwen3-4B。主實驗覆蓋數學推理 AIME25 和跨域科學問答 GPQA-Diamond。除最終準確率外,作者還報告了Average Inter-Response Wait, AIRW(平均響應間等待),即兩次 speak(披露) 更新之間平均隔了多少 think(思考) token。



      注:表中 AIRW 為 token-level 內容延遲代理指標,越低表示兩次用戶可見更新之間的平均間隔越短。



      最值得注意的是 Qwen3-4B:在 AIME25 上,Qwen3-4B 的 SxS RL Final 達到 80.0%,高于 Standard CoT RL Final 的 73.8%;AIRW 也從 21,316 降到 8,519。在 GPQA-Diamond 上,SxS RL Final 達到 49.3%,高于 Standard CoT RL Final 的 19.0%;AIRW 從 16,338 降到 7,738。

      這說明 SxS 的收益不是單純 “把答案提前挪到前面”,而是改變了推理過程中的披露節奏:用戶能更早、更頻繁地看到有任務意義的內容,同時最終答案質量并沒有被犧牲。

      代碼與規則知識推理也有類似趨勢

      論文還在 LiveCodeBench 和 KOR-Bench 上做了額外分析。總體趨勢和主實驗一致:SxS 不一定在所有設置里追求最高原始準確率,但通常能給出更好的后訓練行為,尤其是在小模型上。



      這篇論文的真正價值

      這篇工作的有趣之處,不只是提出了一個新格式,而是把 “流式回答” 從工程顯示問題推進到了模型學習問題。過去我們通常把交互體驗交給前端、系統吞吐或固定模板;SxS 則指出,模型本身可以學習何時披露,且披露必須受到當前推理的支持。

      • 對產品體驗來說,它提供了一種比 “首 token 更快” 更貼近用戶感知的優化方向:讓第一個有用內容更早出現,并減少有效更新之間的長空窗。
      • 對推理訓練來說,它提供了一個新的訓練對象:不僅訓練模型想得對,也訓練模型在合適時機說得對。
      • 對模型部署來說,它的吸引力在于不用改架構,主要依賴數據構造、SFT 和 RL,就可以在標準自回歸模型里學習披露策略。

      需要注意的邊界

      這項工作也不是在聲稱解決了所有流式推理問題。首先,論文里的延遲指標是 token-level proxy(token 級代理指標),并不等同于真實系統的 wall-clock latency(真實時鐘延遲);真實產品還會受到推理框架、批處理、網絡、前端刷新等因素影響。

      其次,SFT-only 的交錯模型會出現明顯準確率下降,說明 “學會交錯格式” 不等于 “保持強推理”。論文用 RL Recovery / RL Final 修復這一點,也意味著這個方法的關鍵成本在后續強化學習階段。

      最后,SxS 的披露粒度雖然可以通過獎勵塑形進一步控制,但更高粒度會帶來訓練效率成本。也就是說,披露越頻繁不一定越好,真正目標仍然是準確率和內容延遲之間的 Pareto trade-off(帕累托權衡)。

      結語:讓模型學會 “負責地開口”

      隨著推理型大模型越來越多進入真實交互場景,用戶關心的不只是最終答案對不對,還包括等待過程中能不能看到可靠進展。SxS Interleaved Reasoning 給出的答案是:不要簡單地讓模型更早吐字,而是讓模型學習 “何時可以披露已經被支持的內容”。

      從這個角度看,這篇論文把大模型推理交互中的一個常見體驗問題,轉化成了可監督、可強化學習優化的披露策略問題。它讓 “邊想邊說” 不再只是產品話術,而成為可以訓練、可以評測、可以和準確率一起優化的模型行為。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      索要頂薪!里夫斯跳出合同,豪賭自由市場,佩林卡恐選擇妥協

      索要頂薪!里夫斯跳出合同,豪賭自由市場,佩林卡恐選擇妥協

      體育大朋說
      2026-05-18 14:52:45
      雙向奔赴!要降薪換長約!登哥這回穩了!

      雙向奔赴!要降薪換長約!登哥這回穩了!

      柚子說球
      2026-05-18 08:08:30
      昔日中超冠軍新主帥上任!國安前任正式接手,保級壓力大他能行么

      昔日中超冠軍新主帥上任!國安前任正式接手,保級壓力大他能行么

      林子說事
      2026-05-18 15:39:44
      涉嫌嚴重違紀違法,鄭宗暉被查

      涉嫌嚴重違紀違法,鄭宗暉被查

      都市快報橙柿互動
      2026-05-18 13:04:57
      重慶警方通報“一男子毆打嬰兒”:酒后與妻子發生口角,繼而毆打未滿兩個月的女兒,男子已被刑拘

      重慶警方通報“一男子毆打嬰兒”:酒后與妻子發生口角,繼而毆打未滿兩個月的女兒,男子已被刑拘

      環球網資訊
      2026-05-18 17:33:28
      兒童患癌越來越多!多名院士呼吁:這些東西少給孩子吃!危害大!

      兒童患癌越來越多!多名院士呼吁:這些東西少給孩子吃!危害大!

      蜉蝣說
      2026-05-17 21:59:37
      比克斯塔夫:球隊已拼盡全力,為隊員成長感到無比驕傲

      比克斯塔夫:球隊已拼盡全力,為隊員成長感到無比驕傲

      寶哥精彩賽事
      2026-05-18 16:00:24
      恭喜哈登!東決賽程出爐:超8.2w人看好晉級總決賽!

      恭喜哈登!東決賽程出爐:超8.2w人看好晉級總決賽!

      運籌帷幄的籃球
      2026-05-18 16:13:04
      公然拒掛國旗,訂單全給日韓,長榮如今的結局早已注定

      公然拒掛國旗,訂單全給日韓,長榮如今的結局早已注定

      瀲滟晴方DAY
      2026-05-11 06:31:37
      贊達亞又拍一部R級新片,太抓馬了

      贊達亞又拍一部R級新片,太抓馬了

      來看美劇
      2026-05-18 17:13:23
      馬斯克、黃仁勛空軍一號上合影曝光,馬斯克評論

      馬斯克、黃仁勛空軍一號上合影曝光,馬斯克評論

      霹靂炮
      2026-05-16 22:40:30
      搶七大勝挺進東決!騎士更衣室狂歡,哈登成隱形MVP

      搶七大勝挺進東決!騎士更衣室狂歡,哈登成隱形MVP

      鴻錦籃球
      2026-05-18 16:17:55
      殲20A新畫面,已經換裝渦扇15成為最強五代機

      殲20A新畫面,已經換裝渦扇15成為最強五代機

      三叔的裝備空間
      2026-05-18 15:13:06
      紅船觀察丨曾任湖北省長,正部級王曉東被查

      紅船觀察丨曾任湖北省長,正部級王曉東被查

      紅船融媒
      2026-05-18 17:12:09
      大反轉?中國人赴烏參戰被俘,外交部最新回應,結局意想不到

      大反轉?中國人赴烏參戰被俘,外交部最新回應,結局意想不到

      安珈使者啊
      2026-05-18 09:27:25
      《主角》直到兒子墜樓而亡,憶秦娥才知,楚嘉禾的算計有多狠

      《主角》直到兒子墜樓而亡,憶秦娥才知,楚嘉禾的算計有多狠

      老吳教育課堂
      2026-05-18 15:54:16
      何超蕸追悼會:大姐何超瓊全家安排,郭晶晶李澤楷數百位富商送別

      何超蕸追悼會:大姐何超瓊全家安排,郭晶晶李澤楷數百位富商送別

      素素娛樂
      2026-05-17 15:24:42
      柳州5.2級地震多名居民親歷:房屋垮塌、連夜避險不敢歸家,震前已有微震預警

      柳州5.2級地震多名居民親歷:房屋垮塌、連夜避險不敢歸家,震前已有微震預警

      封面新聞
      2026-05-18 15:00:31
      合資團滅!4月車市銷量前五驚變,小米把誰擠下去了?

      合資團滅!4月車市銷量前五驚變,小米把誰擠下去了?

      凡兮說
      2026-05-17 14:01:36
      國產DDR5顆粒大批進入供應鏈!內存廠加緊生產

      國產DDR5顆粒大批進入供應鏈!內存廠加緊生產

      3DM游戲
      2026-05-17 11:36:17
      2026-05-18 18:32:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      13027文章數 142650關注度
      往期回顧 全部

      科技要聞

      同一公司,有人獎金是6年工資,我卻只有半年

      頭條要聞

      5人在馬爾代夫洞穴潛水時身亡 3名專家將下水尋找遺體

      頭條要聞

      5人在馬爾代夫洞穴潛水時身亡 3名專家將下水尋找遺體

      體育要聞

      41歲,他還想第5次踢世界杯

      娛樂要聞

      票房會破14億!口碑第一電影出現了

      財經要聞

      前4月工業生產較快增長 失業率5.3%

      汽車要聞

      有五座有七座全系配四驅 哈弗猛龍PLUS限時售16.18萬起

      態度原創

      手機
      健康
      數碼
      時尚
      旅游

      手機要聞

      電競機皇降臨!紅魔11S Pro系列發布:全球首發第五代驍龍8至尊領先版 4999元起

      專家揭秘干細胞回輸的安全風險

      數碼要聞

      背板能當鏡子!影馳RTX 5070星曜LUNA OC圖賞

      夏天褲子不用多買,提前準備幾條休閑的闊腿褲,百搭舒適顯瘦

      旅游要聞

      環游威海貓頭山海上觀光航線 打造濱海文旅新名片

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产L精品国产亚洲区在线观看| 色偷偷亚洲男人的天堂| 日日碰狠狠添天天爽五月婷| 蜜国产精品JK白丝AV网站| 中字幕视频在线永久在线观看免费 | 中文字幕一二三区| 日本熟妇hdsex视频| 久久综合一香蕉老鬼色一个 | 97人妻碰碰碰久久久久禁片| 99热精品久久只有精品| 熟女在线视频| 亚洲乱人伦aⅴ精品| 国产精品亲子乱子伦XXXX裸| 免费人成再在线观看视频| 人人狠狠综合久久亚洲| 精东A片成人影视| 黑人巨大精品欧美视频一区| 久操综合| 亚洲国产精品一区二区成人片| 亚洲欧美成人一区二区在线电影| 亚洲人成一区二区| 久久国产精99精产国高潮| 国产精品欧美日韩在线观看| 国产高清国内精品福利99久久| 国产成人午夜福利院| 中文字幕有码高清日韩| xxxx国产| 呦系列视频一区二区三区| 97成人碰碰久久人人超级碰oo| 欧美精品国产综合久久| 日韩无套无码精品| 中文字幕人成乱码中文乱码| 亚洲乱码精品久久久久..| 51国精产品自偷自偷综合| 亚洲成人自拍| 亚洲国产日韩在线人高清不卡| 久久福利影院| 成人3d动漫一区二区三区| 亚洲中文字幕国产综合| 精品自拍视频| 亚洲成aⅴ人在线观看|