網易首頁 > 網易號 > 正文申請入駐

多模態預訓練，才是大模型的下一條路？Yann LeCun、謝賽寧參與

2026-03-09 11:53:58　來源: 機器之心Pro

北京舉報

分享至

機器之心編輯部

基礎模型時代，大模型能力的爆發，很大程度上源于在海量文本上的預訓練。然而問題在于，文本本質上只是人類對現實世界的一種抽象表達，是對真實世界信息的有損壓縮。

借用柏拉圖《洞穴寓言》的比喻：語言模型已經非常擅長描述洞穴墻壁上的影子，卻從未真正看到投射這些影子的實體。它們能夠很好地捕捉符號，但卻難以理解物理世界中高保真的物理規律、幾何結構以及因果關系。

在這種哲學層面的局限之外，還存在一個更現實的天花板：高質量的文本數據是有限的，而且正逐漸接近枯竭。

相比之下，視覺世界擁有幾乎無限的信號來源，那些洞穴之外的信息，記錄著現實世界最原始的動態變化，而這些恰恰是語言所無法完整表達的。

因此，未來的發展路徑需要走出影子的世界，直接去建模現實本身。

為此，來自 Meta、紐約大學的研究者轉向統一的多模態預訓練（unified multimodal pretraining）：不再把視覺信號當作一種輔助輸入，而是將其與語言一樣，視為模型中的一等公民（first-class citizen）。

論文地址：https://arxiv.org/pdf/2603.03276v1
論文標題：Beyond Language Modeling: An Exploration of Multimodal Pretraining

本文一作為 Shengbang Tong（童晟邦）、Divid Fan 和 John Nguyen。著名研究者 Yann LeCun 和謝賽寧亦有參與。

當前，統一多模態預訓練的科學研究版圖仍然相當不清晰。盡管近期的一些研究已經開始嘗試超越純語言預訓練，但整個設計空間仍充滿了各種相互干擾的變量。

與從零開始同時學習視覺和語言不同，目前大多數方法仍然依賴以預訓練語言模型為初始化。這種范式的核心目標，是盡量保留原有的語言能力，同時逐步讓模型適應多模態任務。

然而，這些預訓練語言模型中已經包含的大量知識，會對實驗結果產生干擾，使研究者難以判斷模型能力究竟來自統一多模態訓練本身，還是來自語言預訓練階段繼承的能力。因此，視覺與語言之間最基礎的學習機制以及它們的擴展關系（scaling relationship）至今仍缺乏清晰理解。

本文試圖為這一領域提供更清晰的實證認識，將研究重點放在預訓練階段，因為模型的大部分核心能力正是在這一階段形成的。

在實現方法上，他們從零開始訓練一個統一模型，并采用 Transfusion 框架：

對語言使用 next-token 預測；
對視覺使用擴散建模。

訓練數據涵蓋文本、視頻、圖文對，以及帶有動作條件的視頻數據。

同時，本文還設計了一系列可控實驗來逐一隔離關鍵變量，并在一個全面的任務體系上進行評估，任務范圍從語言能力評測、視覺理解與生成，一直延伸到世界模型中的規劃能力（planning）。

具體而言，本文從以下幾個維度展開研究：

視覺表示：論文評估了多種視覺表示方式，范圍從變分自編碼器（VAE）、語義表示（semantic representations）到原始像素。研究結果表明，表示自編碼器（Representation Autoencoder，RAE）是最優的視覺表示方式。（第 3 節）

數據：論文研究了多種數據組合方式，從純文本和視頻數據到圖文對數據以及帶動作條件的視頻數據。實驗發現，不同模態之間的相互干擾非常小，在某些情況下甚至會產生正向協同效應。（第 4 節）

世界建模：論文將評測擴展到導航世界模型（Navigation World Model, NWM）場景，并將動作直接表示為文本 token。實驗表明，模型的物理預測能力主要來自通用的多模態預訓練（如視頻數據），而不是依賴特定領域的數據。（第 5 節）

架構設計：他們在統一多模態框架下研究了 MoE 架構的設計選擇，并觀察到模型在訓練過程中會自然形成模態分離與統一并存的結構。（第 6 節）

擴展規律（Scaling Properties）：通過 IsoFLOP 實驗推導了統一預訓練過程中視覺與語言的擴展規律（scaling laws）。結果發現存在一種擴展不對稱性：視覺任務對數據規模的需求明顯高于語言。同時發現 MoE 架構能夠有效彌合這種差距。（第 7 節）

統一多模態預訓練中的視覺表示

這一小節研究了三類視覺編碼器：

VAE 系列，包括 Stable Diffusion 的 SD-VAE 以及 FLUX.1；

語義編碼器，既包括語言監督訓練的編碼器，也包括自監督編碼器；

最后，本文還研究了直接使用原始像素作為輸入的方案。相關實驗結果見圖 4。

文本性能。無論使用哪種視覺表示，模型的文本困惑度（perplexity）都與純文本訓練的基線模型相當，有時甚至略好，其中原始像素輸入表現最好。不過，這種差異非常有限，說明多模態預訓練并不會顯著影響模型的語言能力，無論使用哪種視覺表示，其語言能力都與僅使用文本訓練的模型基本一致。

視覺生成與理解。語義編碼器在視覺理解和視覺生成兩類任務上都持續優于基于 VAE 的編碼器。例如，SigLIP 2 不僅在 VQA 上優于 FLUX.1，在圖像生成基準測試（如 DPGBench 和 GenEval）上也表現更好。

這一結果呼應了 RAE 的研究發現：高維視覺表示在生成任務上的效果至少與低維 VAE 潛表示相當，甚至更好。這說明，一個統一的視覺編碼器就足以同時支持視覺理解和生成任務。后續實驗中將 SigLIP 2 作為默認視覺編碼器。

建議 1：采用單一的基于 RAE 的視覺編碼器（例如 SigLIP 2），可以同時在視覺理解和視覺生成任務上取得優異表現，從而簡化模型架構，并且不會損害模型的文本性能。

理解數據的影響

預訓練數據組成統一多模態預訓練的前提是利用所有可用數據。然而，目前尚不清楚每種數據類型對最終模型是起到貢獻作用還是干擾作用。為了更好地理解這一點，團隊研究了三種具有代表性的混合數據：

文本 + 視頻（不帶文本注釋的原始視頻）；
文本 + MetaCLIP（圖像 - 文本對）；
文本 + 視頻 + MetaCLIP + 動作（上述所有內容 + 動作條件視頻）。

所有多模態模型均在約 1 萬億個 token 上進行訓練（5200 億文本 + 5200 億多模態數據），并與在 5200 億文本 token 上訓練的純文本基準模型進行比較。

結果如下圖所示，團隊發現「文本 + 視頻」組合在 DCLM 驗證集和內部 Notes 語料庫上均取得了所有混合數據中最佳的困惑度。在 DCLM 上，「文本 + 視頻」甚至超越了純文本基準模型，這表明：視頻數據與語言建模至少是兼容的，甚至可能是有益的。這也意味著視覺本身并不是導致模態競爭的主要原因。

另一方面，「文本 + MetaCLIP」在所有混合數據中表現出的困惑度最差。而「文本 + 視頻 + MetaCLIP + 動作」相比純文本基準模型僅有輕微退化，這表明：視頻 + 動作軌跡與文本也是互補的。

團隊推測，文本性能的退化源于引入圖像說明導致的文本分布偏移。

其次，團隊還觀察到，在所有混合數據中，相對于純文本基準模型，在分布外（OOD）程度更高的 Notes 語料庫上困惑度均有所下降，但相對趨勢保持一致。這表明多模態預訓練可能會在文本泛化能力上引入微小的權衡（Trade-off）。

建議 2：在訓練中使用多模態數據（例如視頻、圖文對等）。視覺數據不會降低語言建模能力，而多樣化的預訓練數據還能為下游任務帶來協同效應，例如世界建模（world modeling）和 VQA 等任務。

邁向統一多模態模型中的世界建模

基于這樣一個觀察：語言與視覺是互補的，且多模態預訓練能夠顯著提升視覺問答（VQA）能力，團隊進一步探索：在不對模型架構做任何修改的情況下，多模態模型是否可以擴展到「世界建模（world modeling）」任務。

團隊采用 Navigation World Model（NWM）的設定，其中任務是：在給定當前上下文狀態和導航動作的條件下，預測下一視覺狀態：

不過，與 NWM 將導航動作（如平移與旋轉增量）編碼為專門設計的連續向量不同，團隊直接將動作表示為標準文本 token。

這樣一來，該任務就可以被統一表述為：

即「圖像 + 文本 → 圖像」的預測任務，并在統一多模態模型中完成。如下圖所示，與 NWM 不同，團隊沒有引入任何動作專用適配器，也沒有修改模型架構。

世界建模能力來自多模態預訓練

團隊一直在思考一個問題：有效的世界建模能力，究竟主要來自特定領域的導航數據，還是來自更廣泛的多模態能力？

為了驗證這一點，團隊對以下模型進行了比較：

模型 A：基于 500 億（50B）NWMtoken 和 500 億多模態數據（文本、MetaCLIP、帶文本注釋的視頻或純視頻）訓練的多模態模型；
模型 B：僅基于 500 億 NWM 數據訓練的基準模型。

結果如下圖所示，將特定領域的 NWM 數據從 500 億擴展到 1000 億 token 時，雖然在 ATE 和 RPE 上帶來了一定的改善，但多模態預訓練的效果更好。

具體而言，添加純視頻數據帶來的提升最大，但包括 MetaCLIP 和文本在內的所有其他模態也都有所幫助。這表明，世界建模更多地依賴于從多模態預訓練中獲得的能力，而非特定領域的數據。這與早期研究的發現相吻合。

世界建模能力可從通用訓練中遷移

另外，為了進一步分析世界建模能力的來源，團隊進行了消融實驗，在保持總訓練預算固定為 2000 億 token 的情況下，改變 NWM 數據的比例。

結果如下圖所示，性能相對于領域數據量的增加迅速達到飽和。團隊觀察到，模型僅需 1% 的域內數據即可達到極具競爭力的性能，比例更高時觀察到的收益微乎其微。

總的來說，這一發現加強了假設：導航和 VQA 等能力主要來自通用多模態預訓練，僅需要極少的域內數據即可激活。

建議 3：統一的多模態預訓練能夠解鎖世界建模（World Modeling）能力。只需將動作表示為文本 token，無需對模型架構進行額外修改；相關能力可以通過通用訓練自然涌現，并且只需要極少的領域特定數據。

統一多模態架構設計

在前面的實驗中，團隊僅僅將共享的 FFN（前饋網絡）替換為模態專屬 FFN，就發現能取得顯著效果，這證明了適度的容量分離（capacity separation）具有很大潛力。

然而，模態專屬 FFN 會在兩種模態之間平均分配模型容量，而這種平均分配未必是理想的容量配置方式。

為此，團隊進一步探索 MoE 是否能夠通過解耦總容量與實際計算量，從而動態學習這種容量分離。

團隊研究了 MoE 在統一多模態預訓練中的設計空間，主要是希望了解 MoE 是否能夠自動學習不同模態所需的容量分配，以及 MoE 是否能夠在多模態訓練中形成專家專門化。

而實驗結果表明，模型確實會形成明顯的「專家專門化」現象，具體來說：一部分專家主要處理文本 token，另一部分專家主要處理視覺 token，而且這種分工是自動形成的，并不需要任何顯式的模態標簽或約束。

進一步統計結果顯示，隨著訓練進行，專家之間的分工逐漸穩定。某些專家幾乎只接收文本 token，而另一些專家則主要處理圖像 token，還有少數專家保持跨模態能力，能夠同時處理多種模態輸入。

這種現象說明：MoE 可以在不顯式設計模態結構的情況下，自然形成功能分化。換句話說，模型會自動學習到不同模態所需的不同計算路徑。

而相比固定的模態專屬 FFN，MoE 具有兩個優勢：

動態容量分配：不同模態可以使用不同數量的專家。
靈活的專家共享：一些專家可以同時服務于多種模態。

因此，MoE 為統一多模態模型提供了一種更加靈活的架構方案。

建議 4：在統一模型中采用 MoE 架構。它的效果優于人為設計的模態分離策略，并且能夠從數據中自然學習出針對不同模態的專門化能力。

統一多模態模型的擴展律

本文同時推導了視覺與語言兩種模態的擴展規律（scaling laws），并進一步研究模型架構如何影響這些擴展趨勢。

圖 23 展示了 Dense IsoFLOP 的結果。

圖 24 顯示統一模型的性能可以達到甚至超過單模態基線。

圖 25 展示了 MoE IsoFLOP 結果：

圖 26 比較了 MoE Multimodal + RAE（SigLIP 2）與單模態 MoE 基線在整個計算范圍內的表現。結果表明 MoE 使得單一模型可以在兩種模態上同時達到接近單模態模型的性能，而且只需要極小的額外開銷。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

面壁智能開源全模態模型MiniCPM-o4.5，邊看邊聽還能主動搶答

量子位 2026-02-05 23:20:12
0 跟貼 0
讓擴散模型「可解釋」不再降質，開啟圖片編輯新思路

機器之心Pro 2025-12-16 14:37:44
0 跟貼 0

我在OpenAI修中文

機器之心Pro 2026-05-01 20:00:11
0 跟貼 0

GPT-5.6現身后，下一個Claude Sonnet 4.8又曝光了！

新智元 2026-05-01 19:06:33
0 跟貼 0
AI能改10萬行代碼，卻讓你走路去洗車！Karpathy戳破「鋸齒狀智能」

新智元 2026-05-01 17:08:00
0 跟貼 0

Karpathy：很多App就不該出生,人類護城河只剩理解,CPU將淪為配角

機器之心Pro 2026-05-01 20:44:49
0 跟貼 0

新一代具身智能仿真框架：高吞吐并行高保真渲染助力規模化訓練

量子位 2026-05-01 14:32:45
1 跟貼 1
騰訊混元CL-bench續作發布，讓大模型讀懂你的日常生活

機器之心Pro 2026-05-01 19:53:00
0 跟貼 0

拒絕“出廠即巔峰”！具身訓練系統再進化：LWD讓機器人自主開啟“打怪練級”

智東西 2026-05-01 18:59:28
0 跟貼 0
00后小哥復刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0
華為openJiuwen社區攜手中科大靈境造物重塑AI科研

量子位 2026-05-01 21:59:41
0 跟貼 0
他用AI辦了個音樂節，主題：別讀博

量子位 2026-05-01 21:22:42
0 跟貼 0
不用一個字，MIT團隊讓細胞自動機教會了大模型推理

DeepTech深科技 2026-03-23 18:28:08
1 跟貼 1
有人只用API就猜出了GPT、Claude、Gemini的參數量？社區吵翻了

機器之心Pro 2026-05-01 19:56:22
0 跟貼 0
DeepSeek用V4重畫了坐標系

鈦媒體APP 2026-05-01 09:52:15
1 跟貼 1
廣西平陸運河建240米動物通道橋，供豹貓等動物通行

星視頻 2026-05-01 11:08:08
93 跟貼 93
四川小伙做的導彈車模型，準備開出去測試，結果被拉走了！

星君搞笑怪 2026-04-29 16:01:55
0 跟貼 0
15%全量Attention！「RTPurbo」阿里Qwen3長文本推理5倍壓縮方案

機器之心Pro 2025-12-23 12:52:34
0 跟貼 0
津門虎和青島海牛比賽有內容，平民外援在中超就為爭數據#天津津門虎 #青島海牛 #云南玉昆 #潘談中超

Leslie潘偉力 2026-04-29 07:59:31
17 跟貼 17
視覺模型既懂語義，又能還原細節，南洋理工&商湯提出棱鏡假說

機器之心Pro 2026-01-13 18:26:48
0 跟貼 0
上海迪士尼回應游客勸阻吸煙被打：園區沒有禁煙；被打男子發聲：對方已賠錢和解

中國新聞周刊 2026-04-27 14:25:00
15170 跟貼 15170
不卷參數卷架構，這個開源模型把圖像理解和生成統一了

量子位 2026-04-29 12:24:59
3 跟貼 3
純靠文本獲得全場爆燈的脫口秀！文本太強大了！

徐醇老表哥 2026-05-01 18:43:40
1 跟貼 1
鐵液做模型

劉姐愛拉呱 2026-04-30 11:43:18
1 跟貼 1
全國人民感謝上海，樓市數據真相

王波說房 2026-05-01 16:33:41
13 跟貼 13
一篇哲學文章如何變成404現場

晚風也遺憾 2026-05-01 00:21:19
0 跟貼 0
【汽車人】鴻蒙擴張、小藝進化，歡迎來到“智能體”世界

汽車人傳媒 2026-04-30 21:22:51
0 跟貼 0
無感于心，默契響應

風度mensuno 2026-04-30 18:45:40
0 跟貼 0
加符號使等式成立#親子

我是玲妹妹 2026-04-29 13:52:50
0 跟貼 0
鳥鳥這種純文本的脫口秀，聽完確實享受！

徐醇老表哥 2026-05-01 18:36:51
3 跟貼 3
數學最后一條公理為何吵了100年

心事寄山海 2026-04-30 00:12:50
0 跟貼 0
反手攻球框架，下蹲下壓扎馬步、收腹展腹、上下不起伏

孤酒老巷QA 2026-04-28 09:07:56
1 跟貼 1
極越倒了、比亞迪跑了、大模型掉隊了：李彥宏的底牌，還夠輸幾次

顆粒度財經1 2026-05-01 21:54:44
0 跟貼 0
長坂坡趙云強過巔峰呂布？數據不說謊，戰神光環碎了一地！

老表是個手藝人 2026-04-30 17:46:49
1 跟貼 1
導游稱大熊貓“花花”是殘疾，旅行社致歉

界面新聞 2026-05-01 07:59:04
8134 跟貼 8134
正手框架大臂與前臂、大臂與身體的細節問題

孤酒老巷QA 2026-04-28 09:10:19
1 跟貼 1
韓國人吹噓本國地圖像猛虎，評論區翻車笑死人：感覺更像大青蟲！

肆無忌憚的哭 2026-04-27 04:47:43
1 跟貼 1
上海醫保新政落地！5月起配藥這部分費用提高了

看看新聞Knews 2026-05-01 13:24:05
215 跟貼 215
本周末的F1邁阿密大獎賽，雷暴天氣或成為阻礙正賽的最大變量！

街球人物 2026-05-01 18:40:05
0 跟貼 0
女子陪兒子玩手雷模型，手雷沒扔出尷尬了，竟被教練一腳踢飛

搞笑熱血青年 2026-05-01 09:24:17
2 跟貼 2

機器之心Pro

專業的人工智能媒體

12902文章數 142639關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

游戲

教育

旅游

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

多模態預訓練，才是大模型的下一條路？Yann LeCun、謝賽寧參與

DeepSeek發布多模態論文又連夜刪除

8歲女孩跟隨鄰居長江游泳溺亡 鄰居曾抓住她又脫手

8歲女孩跟隨鄰居長江游泳溺亡 鄰居曾抓住她又脫手

無奈！約基奇：這要在塞爾維亞 全隊早被炒了

馬筱梅產后身材恢復超好 現身戶外直播

GPU神話松動，AI真正的戰場變了

限時9.67萬起 吉利星越L/星瑞i-HEV智擎混動上市

態度原創

用青花瓷的方式，打開西溪濕地

LPL第二賽段：打破魔咒，讓一追二，IG三局戰勝WBG

五一首日熱度爆棚！秦淮區中招會傳來最新消息！

8歲女孩跟隨鄰居長江游泳溺亡鄰居曾抓住她又脫手

8歲女孩跟隨鄰居長江游泳溺亡鄰居曾抓住她又脫手

無奈！約基奇：這要在塞爾維亞全隊早被炒了

馬筱梅產后身材恢復超好現身戶外直播

限時9.67萬起吉利星越L/星瑞i-HEV智擎混動上市