<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      將多教師沖突轉化為動態約束,破解多模態大模型推理對齊難題

      0
      分享至



      在多模態大模型(MLLM)快速發展的浪潮中,融合多模型 “集體智慧” 已成為提升模型性能的關鍵路徑,并催生了多教師知識蒸餾這一主流范式。然而,不同來源的教師模型在架構與優化上的差異,其在相似推理過程中呈現出不穩定甚至偏移的認知軌跡,即 “概念漂移”(Concept Drift)。這種多源推理分布的動態演變會將偏差與錯誤認知隱性傳遞給目標模型,進而引發邏輯沖突與生成幻覺等潛在風險。

      悉尼科技大學(UTS)研究團隊提出了一種全新的自主偏好優化框架 —— APO (Autonomous Preference Optimization)。該框架突破了傳統蒸餾對單一強教師模型的依賴,通過多流教師模型的協同機制,巧妙地將模型間的 “漂移” 轉化為動態負約束,并將 “共識” 視為正向偏好引導,系統性地解決了多模態大模型在多師蒸餾中的概念對齊難題。該工作已被 ICML 2026 正式接收。



      • 論文標題: Turning Drift into Constraint: Robust Reasoning Alignment in Non-Stationary Multi-Stream Environments
      • 作者信息:Xiaoyu Yang, En Yu, Wei Duan, Jie Lu
      • 作者單位:悉尼科技大學(UTS)澳大利亞人工智能研究院(AAII)
      • 論文鏈接:https://arxiv.org/abs/2510.04142
      • 項目主頁:https://xiaoyuyoung.github.io/APO/
      • 倉庫鏈接:https://github.com/XiaoyuYoung/APO
      • 數據集鏈接:https://huggingface.co/datasets/MiaoMiaoYang/CXR-MAX

      01 引言

      目前的蒸餾策略大多假設教師模型提供的是單一穩定、一致的監督信號。然而,研究團隊通過對 7 個主流 MLLM 在醫療診斷任務中的表現分析發現,這些模型在推理過程中展現出顯著的非平穩性,其推理分布會隨步驟深入而產生劇烈波動。具體而言,雖然 Qwen-VL-Max 等模型傾向于高精度且簡潔的推理,而 GPT-5 則偏好高召回率的詳盡闡述,這種互補性的發散意味著真實的推理流形潛藏在多流共識之中,而非單一強教師監督;然而,若學生模型只是簡單地模仿這些漂移的教師流,并不能自動綜合其優點,反而會因內化了各個模型的偏見而導致幻覺與語義不一致,這證明了在非平穩環境下,單純的模仿已無法實現穩健的概念對齊。

      為此,作者正式定義了非平穩多流概念對齊問題,并提出APO框架。這是一種將多流教師偏見內化為動態負約束、并將共識視為正向偏好引導,共同驅動學生模型收緊特征空間,實現穩健推理。



      圖 1:APO 整體框架。該框架通過兩階段協議將教師模型間的漂移沖突轉化為動態負約束,并結合共識合成與偏好優化,在分布演變中精煉出穩健的推理共識流形。

      02 方法

      研究團隊面向多教師蒸餾問題,首先將概念漂移理論擴展到多源 MLLM 非平穩多流概念對齊上,將多源 MLLM 蒸餾定義為非平穩條件下的約束滿足問題;其次,作者設計了兩階段協議,自主提取多源 MLLM 的共識作為正向引導,并將教師模型間相互沖突的漂移軌跡重構為動態負約束,通過多負樣本偏好優化驅動,實現穩健的概念對齊。

      多流推理漂移







      則認為發生了多流推理漂移。







      監督引導的共識合成

      在多流推理漂移框架下,研究團隊首先讓 MLLM 進行監督引導的共識合成。在這個階段,學生模型廣泛吸收所有教師模型的異構知識。通過將自身投射到多源模型能力的并集空間中,學生模型建立起了一個包容集體智慧的基礎能力基座。

      在此基礎上,研究團隊進一步利用大模型的推理能力,設計了上下文共識提取機制,將各個教師模型生成的、混合著有效信號與漂移錯誤的原始推理軌跡進行匯總,作為目標模型的參考上下文。此時,學生模型作為判別器,自主過濾掉那些缺乏跨模型支持的矛盾信息,并放大模型間的邏輯交集,最終提煉出一條高度邏輯自洽的共識軌跡。

      約束感知的偏好優化

      在提煉出邏輯自洽的共識軌跡后,APO 設計了約束感知優化進行概念對齊。這一階段的核心邏輯在于,目標模型不僅需要學習 “生成什么”(即共識軌跡),更需要明確 “避開什么”(即教師模型中固有的推理漂移)。通過最大化共識與漂移之間的邊際,模型得以針對幻覺和偏差進一步壓縮其決策邊界。





      這種優化目標強制模型滿足兩個動態條件:一方面,相對于參考模型提升共識軌跡的生成概率;另一方面,顯式壓制推理空間中的漂移模式。這一過程有效地將教師模型間的沖突從干擾噪聲轉化為強力的監督信號,在無需外部推理軌跡標注的情況下,自主勾勒出大模型魯棒的推理流形。

      03 數據集構建

      為了評估真實環境中非平穩環境的推理對齊效果,研究團隊選擇了高風險、高動態的醫療領域,胸片診斷任務。研究團隊推出了 CXR-MAX (Multi-source Alignment for X-rays) ,這是一個專為促進高風險領域多教師蒸餾研究而設計的大規模基準。CXR-MAX 擴展了著名的 MIMIC-CXR 數據集,匯集了來自 7 個不同主流 MLLM 的推理軌跡,其中包括:GPT-5, Gemini-2.5, Sonnet-4, Grok-4, Qwen-VL-MAX, GLM-4.5V 以及 Moonshot。該數據集提供了 170,982 個推理實例,涵蓋了 14 種胸部疾病,為臨床胸片任務的多教師蒸餾研究建立了大規模的實驗基座。

      04 實驗驗證



      表 1: 各個教師模型和學生模型在胸片疾病診斷任務上的的分類準確率(%)。紅色代表最優,藍色代表次優。

      為了驗證 APO 的有效性,研究團隊構建了胸部疾病分類、診斷報告生成、思維鏈一致性以及泛化性實驗。表 1 的結果表明,APO 訓練出的 7B 模型在所有疾病診斷任務中實現了 0.78 的最高平均準確率,一舉超越了包括 GPT-5 在內的所有教師模型。這一結果有力證明了,APO 賦予了緊湊型模型合成共識流形的能力,使其能夠有效整合多位教師的差異化優勢,真正實現站在巨人的肩膀上。

      特別是在實變(Con.)和水腫(Ede.)疾病預測中,教師模型間有極大的分歧,各模型間準確率落差甚至超過 70%,教師模型表現波動巨大。而在實變(Con.)、肺炎(Pna.)和水腫(Ede.)疾病預測上,7 個教師模型中達到 60% 以上準確率的教師模型僅有 5 個。相比之下,APO 訓練的學生模型在幾乎所有類別中都穩居前二,展現出極強的穩定性。APO 通過將這些劇烈發散的推理軌跡轉化為負約束,成功阻止了偏見和錯誤知識的滲透,確保了推理過程的嚴謹與可靠。

      05 結語

      APO 的提出標志著多教師蒸餾學習從 “靜態學習” 向 “動態約束” 邁出了關鍵一步。 該框架將教師模型間漂移形式化為動態負約束,將概念對齊內化為約束滿足問題,促進多模態大模型推理對齊的進一步發展,為高風險、高動態的復雜領域的模型自主演化提供了一種全新的解決方案。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      哈登23分8失誤!騎士94-115活塞,看數據:他就是頭號罪人!

      哈登23分8失誤!騎士94-115活塞,看數據:他就是頭號罪人!

      運籌帷幄的籃球
      2026-05-16 08:21:36
      江西舉報恩人沈女士已社死,正臉照曝光,大叔崗位被調,景區回應

      江西舉報恩人沈女士已社死,正臉照曝光,大叔崗位被調,景區回應

      奇思妙想草葉君
      2026-05-15 07:33:51
      國宴的頂級國風,盡顯東方之美!卻被外國元首的兒媳旗袍裝驚艷

      國宴的頂級國風,盡顯東方之美!卻被外國元首的兒媳旗袍裝驚艷

      白宸侃片
      2026-05-16 01:34:42
      美國已拒絕伊朗就結束戰爭提出的書面方案

      美國已拒絕伊朗就結束戰爭提出的書面方案

      新華社
      2026-05-15 16:07:03
      你吃的楊梅可能泡過防腐劑!記者暗訪楊梅批發點,商販稱自己不吃

      你吃的楊梅可能泡過防腐劑!記者暗訪楊梅批發點,商販稱自己不吃

      福建第一幫幫團
      2026-05-15 14:04:56
      哈登23+7+8失誤連創紀錄:終結戰僅2勝5負 關鍵戰低迷拖進搶七

      哈登23+7+8失誤連創紀錄:終結戰僅2勝5負 關鍵戰低迷拖進搶七

      醉臥浮生
      2026-05-16 09:43:09
      西決對陣出爐:馬刺深入狼窩大勝而歸,活塞與騎士連續兩輪搶七

      西決對陣出爐:馬刺深入狼窩大勝而歸,活塞與騎士連續兩輪搶七

      燒體壇
      2026-05-16 12:16:37
      特朗普剛離京,發表兩條涉臺重磅言論!

      特朗普剛離京,發表兩條涉臺重磅言論!

      大國之翼
      2026-05-16 06:49:13
      人類財富天花板!馬斯克身家飆升至5.8萬億,一人可敵160國

      人類財富天花板!馬斯克身家飆升至5.8萬億,一人可敵160國

      愛看劇的阿峰
      2026-05-15 18:33:01
      43小時全回顧|中美元首北京會晤為共同構建建設性戰略穩定關系邁出堅實一步

      43小時全回顧|中美元首北京會晤為共同構建建設性戰略穩定關系邁出堅實一步

      澎湃新聞
      2026-05-15 18:16:28
      “任何來自中國的物品”都不準許帶上空軍一號!

      “任何來自中國的物品”都不準許帶上空軍一號!

      認知決定世界
      2026-05-15 23:09:57
      這一刻我才明白:為什么男人都愛看籃球直播,而不愿看馬拉松直播

      這一刻我才明白:為什么男人都愛看籃球直播,而不愿看馬拉松直播

      馬拉松跑步健身
      2026-05-15 19:59:38
      美國聽證會:成本6美元的黑鷹直升機屏幕旋鈕,軍火商賣4萬美元!

      美國聽證會:成本6美元的黑鷹直升機屏幕旋鈕,軍火商賣4萬美元!

      爆角追蹤
      2026-05-16 12:09:32
      美國總統訪華,路費食宿誰掏錢?

      美國總統訪華,路費食宿誰掏錢?

      黃娜老師
      2026-05-13 20:31:40
      最強二代!萬向集團魯偉鼎接班九年,營收超2000億,國宴與馬斯克同席論道

      最強二代!萬向集團魯偉鼎接班九年,營收超2000億,國宴與馬斯克同席論道

      時代周報
      2026-05-15 23:24:31
      黃仁勛去吃炸醬面!大熱天穿皮衣,站在門口大口吃面條

      黃仁勛去吃炸醬面!大熱天穿皮衣,站在門口大口吃面條

      西樓知趣雜談
      2026-05-15 13:59:38
      付政浩:6000萬買世界杯版權是開玩笑!央視最終出價5億美元!

      付政浩:6000萬買世界杯版權是開玩笑!央視最終出價5億美元!

      一支破筆半支煙
      2026-05-16 08:01:20
      火遍全網后又"消失",網紅小胖如今樣貌已大變

      火遍全網后又"消失",網紅小胖如今樣貌已大變

      看看新聞Knews
      2026-05-15 18:53:41
      華為突然宣布:5月15日,Mate80全系正式官降

      華為突然宣布:5月15日,Mate80全系正式官降

      科技堡壘
      2026-05-15 11:44:35
      中美會談已結束,特朗普專機已離京,黃仁勛說了一句不尋常的話

      中美會談已結束,特朗普專機已離京,黃仁勛說了一句不尋常的話

      麓谷隱士
      2026-05-15 10:16:15
      2026-05-16 12:28:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      13006文章數 142650關注度
      往期回顧 全部

      科技要聞

      漲的是車價,要的是老命

      頭條要聞

      美國媒體在天壇里尋找俄勒岡木材 被指非常耐人尋味

      頭條要聞

      美國媒體在天壇里尋找俄勒岡木材 被指非常耐人尋味

      體育要聞

      35歲坎特,干了一件這輩子最吵的事

      娛樂要聞

      張嘉譯和老婆的差距讓人心酸

      財經要聞

      造詞狂魔賈躍亭

      汽車要聞

      高爾夫GTI刷新紐北紀錄 ID. Polo GTI迎全球首秀

      態度原創

      藝術
      本地
      游戲
      數碼
      公開課

      藝術要聞

      19位當代畫家油畫作品欣賞

      本地新聞

      用蘇繡的方式,打開江西婺源

      《星球大戰:舊共和國》重啟計劃遭EA董事會否決

      數碼要聞

      蘋果“產品百科”應用Mactracker迎25周年,新增對比和收藏記錄

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲综合av一区二区三区| 日本熟妇人妻xxxxx人hd| 久久久精品2019中文字幕之3| 久久精品国产清自在天天线 | 5月丁香,6月综合| 亚洲中文欧美日韩在线人| 天天干天天射天天操| 国产五区| 人妻激情偷一区二区三区| 97超碰人人| 人妖系列在线精品视频| 波多野结衣的av一区二区三区| 国产午夜影视大全免费观看| 欧美成人一卡二卡三卡四卡| 啪啪啪啪啪网站| 亚洲天堂精品一区| 无码福利在线观看1000集| 精品亚洲欧美无人区乱码| 日韩中文字幕av| 九九久久精品无码专区| 久久www免费人成一看片| 人妻中文字幕精品系列| 亚洲乱妇熟女爽到高潮的片| 无码一区二区三区av在线播放| 国产日韩av二区三区| 国产女人18水真多毛片18精品| 午夜在线网址| 久久精品免视看国产成人明星| 国产人成亚洲第一网站在线播放 | 亚洲成aⅴ人片久青草影院按摩| 美女啪啪av| 国产高清精品在线91| 精品国产成人a在线观看| 日本熟女Va视频| 国产jjzz| 国产孩cao大人xxxx| 白嫩少妇喷水正在播放| 久久久久亚洲精品系列色欲| 亚洲第一视频网站| 97久久精品人人做人人爽| 精品综合一区二区三区四区|