<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      多模態預訓練,才是大模型的下一條路?Yann LeCun、謝賽寧參與

      0
      分享至



      機器之心編輯部

      基礎模型時代,大模型能力的爆發,很大程度上源于在海量文本上的預訓練。然而問題在于,文本本質上只是人類對現實世界的一種抽象表達,是對真實世界信息的有損壓縮。

      借用柏拉圖《洞穴寓言》的比喻:語言模型已經非常擅長描述洞穴墻壁上的影子,卻從未真正看到投射這些影子的實體。它們能夠很好地捕捉符號,但卻難以理解物理世界中高保真的物理規律、幾何結構以及因果關系。

      在這種哲學層面的局限之外,還存在一個更現實的天花板:高質量的文本數據是有限的,而且正逐漸接近枯竭。

      相比之下,視覺世界擁有幾乎無限的信號來源,那些洞穴之外的信息,記錄著現實世界最原始的動態變化,而這些恰恰是語言所無法完整表達的。

      因此,未來的發展路徑需要走出影子的世界,直接去建模現實本身。

      為此,來自 Meta、紐約大學的研究者轉向統一的多模態預訓練(unified multimodal pretraining):不再把視覺信號當作一種輔助輸入,而是將其與語言一樣,視為模型中的一等公民(first-class citizen)。



      • 論文地址:https://arxiv.org/pdf/2603.03276v1
      • 論文標題:Beyond Language Modeling: An Exploration of Multimodal Pretraining

      本文一作為 Shengbang Tong(童晟邦)、Divid Fan 和 John Nguyen。著名研究者 Yann LeCun 和謝賽寧亦有參與。

      當前,統一多模態預訓練的科學研究版圖仍然相當不清晰。盡管近期的一些研究已經開始嘗試超越純語言預訓練,但整個設計空間仍充滿了各種相互干擾的變量。

      與從零開始同時學習視覺和語言不同,目前大多數方法仍然依賴以預訓練語言模型為初始化。這種范式的核心目標,是盡量保留原有的語言能力,同時逐步讓模型適應多模態任務。

      然而,這些預訓練語言模型中已經包含的大量知識,會對實驗結果產生干擾,使研究者難以判斷模型能力究竟來自統一多模態訓練本身,還是來自語言預訓練階段繼承的能力。因此,視覺與語言之間最基礎的學習機制以及它們的擴展關系(scaling relationship)至今仍缺乏清晰理解。

      本文試圖為這一領域提供更清晰的實證認識,將研究重點放在預訓練階段,因為模型的大部分核心能力正是在這一階段形成的。

      在實現方法上,他們從零開始訓練一個統一模型,并采用 Transfusion 框架:

      • 對語言使用 next-token 預測;
      • 對視覺使用擴散建模。

      訓練數據涵蓋文本、視頻、圖文對,以及帶有動作條件的視頻數據。

      同時,本文還設計了一系列可控實驗來逐一隔離關鍵變量,并在一個全面的任務體系上進行評估,任務范圍從語言能力評測、視覺理解與生成,一直延伸到世界模型中的規劃能力(planning)。

      具體而言,本文從以下幾個維度展開研究:

      視覺表示:論文評估了多種視覺表示方式,范圍從變分自編碼器(VAE)、語義表示(semantic representations)到原始像素。研究結果表明,表示自編碼器(Representation Autoencoder,RAE)是最優的視覺表示方式。(第 3 節)

      數據:論文研究了多種數據組合方式,從純文本和視頻數據到圖文對數據以及帶動作條件的視頻數據。實驗發現,不同模態之間的相互干擾非常小,在某些情況下甚至會產生正向協同效應。(第 4 節)

      世界建模:論文將評測擴展到導航世界模型(Navigation World Model, NWM)場景,并將動作直接表示為文本 token。實驗表明,模型的物理預測能力主要來自通用的多模態預訓練(如視頻數據),而不是依賴特定領域的數據。(第 5 節)

      架構設計:他們在統一多模態框架下研究了 MoE 架構的設計選擇,并觀察到模型在訓練過程中會自然形成模態分離與統一并存的結構。(第 6 節)

      擴展規律(Scaling Properties):通過 IsoFLOP 實驗推導了統一預訓練過程中視覺與語言的擴展規律(scaling laws)。結果發現存在一種擴展不對稱性:視覺任務對數據規模的需求明顯高于語言。同時發現 MoE 架構能夠有效彌合這種差距。(第 7 節)

      統一多模態預訓練中的視覺表示

      這一小節研究了三類視覺編碼器:

      VAE 系列,包括 Stable Diffusion 的 SD-VAE 以及 FLUX.1;

      語義編碼器,既包括語言監督訓練的編碼器,也包括自監督編碼器;

      最后,本文還研究了直接使用原始像素作為輸入的方案。相關實驗結果見圖 4。



      文本性能。無論使用哪種視覺表示,模型的文本困惑度(perplexity)都與純文本訓練的基線模型相當,有時甚至略好,其中原始像素輸入表現最好。不過,這種差異非常有限,說明多模態預訓練并不會顯著影響模型的語言能力,無論使用哪種視覺表示,其語言能力都與僅使用文本訓練的模型基本一致。

      視覺生成與理解。語義編碼器在視覺理解和視覺生成兩類任務上都持續優于基于 VAE 的編碼器。例如,SigLIP 2 不僅在 VQA 上優于 FLUX.1,在圖像生成基準測試(如 DPGBench 和 GenEval)上也表現更好。

      這一結果呼應了 RAE 的研究發現:高維視覺表示在生成任務上的效果至少與低維 VAE 潛表示相當,甚至更好。這說明,一個統一的視覺編碼器就足以同時支持視覺理解和生成任務。后續實驗中將 SigLIP 2 作為默認視覺編碼器。

      建議 1:采用單一的基于 RAE 的視覺編碼器(例如 SigLIP 2),可以同時在視覺理解和視覺生成任務上取得優異表現,從而簡化模型架構,并且不會損害模型的文本性能。

      理解數據的影響

      預訓練數據組成統一多模態預訓練的前提是利用所有可用數據。然而,目前尚不清楚每種數據類型對最終模型是起到貢獻作用還是干擾作用。為了更好地理解這一點,團隊研究了三種具有代表性的混合數據:

      • 文本 + 視頻(不帶文本注釋的原始視頻);
      • 文本 + MetaCLIP(圖像 - 文本對);
      • 文本 + 視頻 + MetaCLIP + 動作(上述所有內容 + 動作條件視頻)。

      所有多模態模型均在約 1 萬億個 token 上進行訓練(5200 億文本 + 5200 億多模態數據),并與在 5200 億文本 token 上訓練的純文本基準模型進行比較。

      結果如下圖所示,團隊發現「文本 + 視頻」組合在 DCLM 驗證集和內部 Notes 語料庫上均取得了所有混合數據中最佳的困惑度。在 DCLM 上,「文本 + 視頻」甚至超越了純文本基準模型,這表明:視頻數據與語言建模至少是兼容的,甚至可能是有益的。這也意味著視覺本身并不是導致模態競爭的主要原因。



      另一方面,「文本 + MetaCLIP」在所有混合數據中表現出的困惑度最差。而「文本 + 視頻 + MetaCLIP + 動作」相比純文本基準模型僅有輕微退化,這表明:視頻 + 動作軌跡與文本也是互補的。

      團隊推測,文本性能的退化源于引入圖像說明導致的文本分布偏移。

      其次,團隊還觀察到,在所有混合數據中,相對于純文本基準模型,在分布外(OOD)程度更高的 Notes 語料庫上困惑度均有所下降,但相對趨勢保持一致。這表明多模態預訓練可能會在文本泛化能力上引入微小的權衡(Trade-off)。

      建議 2:在訓練中使用多模態數據(例如視頻、圖文對等)。視覺數據不會降低語言建模能力,而多樣化的預訓練數據還能為下游任務帶來協同效應,例如世界建模(world modeling)和 VQA 等任務。

      邁向統一多模態模型中的世界建模

      基于這樣一個觀察:語言與視覺是互補的,且多模態預訓練能夠顯著提升視覺問答(VQA)能力,團隊進一步探索:在不對模型架構做任何修改的情況下,多模態模型是否可以擴展到「世界建模(world modeling)」任務。

      團隊采用 Navigation World Model(NWM)的設定,其中任務是:在給定當前上下文狀態和導航動作的條件下,預測下一視覺狀態:



      不過,與 NWM 將導航動作(如平移與旋轉增量)編碼為專門設計的連續向量不同,團隊直接將動作表示為標準文本 token。

      這樣一來,該任務就可以被統一表述為:



      即「圖像 + 文本 → 圖像」的預測任務,并在統一多模態模型中完成。如下圖所示,與 NWM 不同,團隊沒有引入任何動作專用適配器,也沒有修改模型架構。



      世界建模能力來自多模態預訓練

      團隊一直在思考一個問題:有效的世界建模能力,究竟主要來自特定領域的導航數據,還是來自更廣泛的多模態能力?

      為了驗證這一點,團隊對以下模型進行了比較:

      • 模型 A:基于 500 億(50B)NWMtoken 和 500 億多模態數據(文本、MetaCLIP、帶文本注釋的視頻或純視頻)訓練的多模態模型;
      • 模型 B:僅基于 500 億 NWM 數據訓練的基準模型。

      結果如下圖所示,將特定領域的 NWM 數據從 500 億擴展到 1000 億 token 時,雖然在 ATE 和 RPE 上帶來了一定的改善,但多模態預訓練的效果更好。



      具體而言,添加純視頻數據帶來的提升最大,但包括 MetaCLIP 和文本在內的所有其他模態也都有所幫助。這表明,世界建模更多地依賴于從多模態預訓練中獲得的能力,而非特定領域的數據。這與早期研究的發現相吻合。

      世界建模能力可從通用訓練中遷移

      另外,為了進一步分析世界建模能力的來源,團隊進行了消融實驗,在保持總訓練預算固定為 2000 億 token 的情況下,改變 NWM 數據的比例。

      結果如下圖所示,性能相對于領域數據量的增加迅速達到飽和。團隊觀察到,模型僅需 1% 的域內數據即可達到極具競爭力的性能,比例更高時觀察到的收益微乎其微。



      總的來說,這一發現加強了假設:導航和 VQA 等能力主要來自通用多模態預訓練,僅需要極少的域內數據即可激活。

      建議 3:統一的多模態預訓練能夠解鎖世界建模(World Modeling)能力。只需將動作表示為文本 token,無需對模型架構進行額外修改;相關能力可以通過通用訓練自然涌現,并且只需要極少的領域特定數據。

      統一多模態架構設計

      在前面的實驗中,團隊僅僅將共享的 FFN(前饋網絡) 替換為模態專屬 FFN,就發現能取得顯著效果,這證明了適度的容量分離(capacity separation)具有很大潛力。

      然而,模態專屬 FFN 會在兩種模態之間平均分配模型容量,而這種平均分配未必是理想的容量配置方式。

      為此,團隊進一步探索 MoE 是否能夠通過解耦總容量與實際計算量,從而動態學習這種容量分離。

      團隊研究了 MoE 在統一多模態預訓練中的設計空間,主要是希望了解 MoE 是否能夠自動學習不同模態所需的容量分配,以及 MoE 是否能夠在多模態訓練中形成專家專門化。

      而實驗結果表明,模型確實會形成明顯的「專家專門化」現象,具體來說:一部分專家主要處理文本 token,另一部分專家主要處理視覺 token,而且這種分工是自動形成的,并不需要任何顯式的模態標簽或約束。

      進一步統計結果顯示,隨著訓練進行,專家之間的分工逐漸穩定。某些專家幾乎只接收文本 token,而另一些專家則主要處理圖像 token,還有少數專家保持跨模態能力,能夠同時處理多種模態輸入。

      這種現象說明:MoE 可以在不顯式設計模態結構的情況下,自然形成功能分化。換句話說,模型會自動學習到不同模態所需的不同計算路徑。

      而相比固定的模態專屬 FFN,MoE 具有兩個優勢:

      • 動態容量分配:不同模態可以使用不同數量的專家。
      • 靈活的專家共享:一些專家可以同時服務于多種模態。

      因此,MoE 為統一多模態模型提供了一種更加靈活的架構方案。

      建議 4:在統一模型中采用 MoE 架構。它的效果優于人為設計的模態分離策略,并且能夠從數據中自然學習出針對不同模態的專門化能力。

      統一多模態模型的擴展律

      本文同時推導了視覺與語言兩種模態的擴展規律(scaling laws),并進一步研究模型架構如何影響這些擴展趨勢。

      圖 23 展示了 Dense IsoFLOP 的結果。



      圖 24 顯示統一模型的性能可以達到甚至超過單模態基線。



      圖 25 展示了 MoE IsoFLOP 結果:



      圖 26 比較了 MoE Multimodal + RAE(SigLIP 2) 與單模態 MoE 基線在整個計算范圍內的表現。結果表明 MoE 使得單一模型可以在兩種模態上同時達到接近單模態模型的性能,而且只需要極小的額外開銷。



      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      谷歌16年后高調“入駐”中國:引發海內外關注,谷歌為何選擇廣州

      谷歌16年后高調“入駐”中國:引發海內外關注,谷歌為何選擇廣州

      影像溫度
      2026-05-01 12:39:12
      2026年一季度國企數據出爐:利潤下滑5.1%,降幅明顯大于收入降幅

      2026年一季度國企數據出爐:利潤下滑5.1%,降幅明顯大于收入降幅

      風向觀察
      2026-05-01 11:28:13
      “甲亢哥”不小心把在中國買的三折疊手機掉進海里,嘴里念叨“我的中國手機、花了4000美元”,感覺整個人要碎掉;網友:出新款了再來一趟

      “甲亢哥”不小心把在中國買的三折疊手機掉進海里,嘴里念叨“我的中國手機、花了4000美元”,感覺整個人要碎掉;網友:出新款了再來一趟

      瀟湘晨報
      2026-05-01 20:15:11
      解決“四人幫”過程中,吳德要調動部隊,華國鋒:你去找陳錫聯

      解決“四人幫”過程中,吳德要調動部隊,華國鋒:你去找陳錫聯

      元哥說歷史
      2026-05-01 20:45:03
      日防衛大臣曬與紙板無人機合影,網友:發射可能得挑天氣

      日防衛大臣曬與紙板無人機合影,網友:發射可能得挑天氣

      紅星新聞
      2026-05-01 17:58:13
      堵到懷疑人生!五一全國“最堵路段”終極盤點,第一名實至名歸

      堵到懷疑人生!五一全國“最堵路段”終極盤點,第一名實至名歸

      阿萊美食匯
      2026-05-01 00:18:58
      中國代表:要防止朝鮮半島生戰生亂

      中國代表:要防止朝鮮半島生戰生亂

      新華社
      2026-05-01 09:27:03
      掘金出局!約基奇無奈爆金句:這要在塞爾維亞,全隊早被炒了

      掘金出局!約基奇無奈爆金句:這要在塞爾維亞,全隊早被炒了

      仰臥撐FTUer
      2026-05-01 14:26:15
      蔚來遭索賠2.5億美元!

      蔚來遭索賠2.5億美元!

      新浪財經
      2026-05-01 15:12:36
      父親最后的日子里,一場關于告別的“預習”

      父親最后的日子里,一場關于告別的“預習”

      澎湃新聞
      2026-04-30 07:28:28
      62339人,大連英博主場上座人數再創新高,位列中超歷史第3

      62339人,大連英博主場上座人數再創新高,位列中超歷史第3

      懂球帝
      2026-05-01 20:49:19
      連扳2球+99分鐘絕平,52歲于根偉率隊2-2逼平中超前冠軍

      連扳2球+99分鐘絕平,52歲于根偉率隊2-2逼平中超前冠軍

      側身凌空斬
      2026-05-01 21:40:35
      離譜!世界杯轉播費高達18億,央視硬氣拒當冤大頭

      離譜!世界杯轉播費高達18億,央視硬氣拒當冤大頭

      寶哥精彩賽事
      2026-05-01 20:17:21
      斯諾克世錦賽半決賽前二階段:墨菲8-8希金斯,戰況十分膠著

      斯諾克世錦賽半決賽前二階段:墨菲8-8希金斯,戰況十分膠著

      側身凌空斬
      2026-05-01 20:29:20
      上映多時票房只有零元,一個觀眾都沒有,五一檔最慘電影誕生了

      上映多時票房只有零元,一個觀眾都沒有,五一檔最慘電影誕生了

      影視高原說
      2026-05-01 08:47:30
      金靖“瘦到認不出”熱搜第一,本人回應:目前98斤,瘦的4斤全是脂肪,腰圍小了5厘米!稱每晚盡量9點半入睡:保暖和睡眠很重要

      金靖“瘦到認不出”熱搜第一,本人回應:目前98斤,瘦的4斤全是脂肪,腰圍小了5厘米!稱每晚盡量9點半入睡:保暖和睡眠很重要

      極目新聞
      2026-05-01 19:56:17
      擔心的事發生了,俄方提議遭特朗普拒絕,兩國總統早已留好退路?

      擔心的事發生了,俄方提議遭特朗普拒絕,兩國總統早已留好退路?

      近史博覽
      2026-05-01 13:47:03
      五一檔首日票房破1.5億,多部影片緊急撤檔;陳思誠《10間敢死隊》票房1250萬,此前其否認哭窮:請大家多給電影人機會

      五一檔首日票房破1.5億,多部影片緊急撤檔;陳思誠《10間敢死隊》票房1250萬,此前其否認哭窮:請大家多給電影人機會

      臺州交通廣播
      2026-05-01 20:59:35
      2萬海員被困霍爾木茲,生活曝光!中國船員:戰機在空中飛,人在船上刷國旗保命!國際海事組織:整個海域已無安全通行可言

      2萬海員被困霍爾木茲,生活曝光!中國船員:戰機在空中飛,人在船上刷國旗保命!國際海事組織:整個海域已無安全通行可言

      每日經濟新聞
      2026-05-01 01:05:05
      破案!鄭智吃紅牌原因曝光,恐遭足協重罰

      破案!鄭智吃紅牌原因曝光,恐遭足協重罰

      何老師呀
      2026-05-01 21:46:50
      2026-05-01 23:23:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12902文章數 142639關注度
      往期回顧 全部

      科技要聞

      DeepSeek發布多模態論文又連夜刪除

      頭條要聞

      8歲女孩跟隨鄰居長江游泳溺亡 鄰居曾抓住她又脫手

      頭條要聞

      8歲女孩跟隨鄰居長江游泳溺亡 鄰居曾抓住她又脫手

      體育要聞

      無奈!約基奇:這要在塞爾維亞 全隊早被炒了

      娛樂要聞

      馬筱梅產后身材恢復超好 現身戶外直播

      財經要聞

      GPU神話松動,AI真正的戰場變了

      汽車要聞

      限時9.67萬起 吉利星越L/星瑞i-HEV智擎混動上市

      態度原創

      本地
      游戲
      教育
      旅游
      公開課

      本地新聞

      用青花瓷的方式,打開西溪濕地

      LPL第二賽段:打破魔咒,讓一追二,IG三局戰勝WBG

      教育要聞

      五一首日熱度爆棚!秦淮區中招會傳來最新消息!

      旅游要聞

      60秒看雄安|乘著巴士看城市風景線

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 色综合天天综合天天更新| 激情亚洲一区国产精品| 亚洲自偷自偷偷色无码中文| 国产重口老太伦Ⅱ15| 国产swag在线观看| 国产高清无遮挡内容丰富| 国产精品无码天天爽视频| 久久久噜噜噜久久熟女aa片| 国产亚洲精品久久yy50| 国产亚洲精久久久久久无码AV| 无码免费一区二区三区免费播放| 高级黄区18勿进视频免费| 亚洲 另类 熟女 字幕| 欧美综合网| 无码少妇一区二区三区免费| 亚洲精品AV久久看| 少妇伦子伦精品无码styles| 无码中文资源在线播放| 久久99精品久久久久久动态图| 少妇精品无码一区二区三区| av片子在线观看| 午夜亚洲www湿好爽| 国产九色自拍视频一区| 国内精品久久久久久影院中文字幕| 久久久亚洲欧洲日产国产成人无码| 最新国产乱人伦偷精品免费网站| 亚洲乱码一区二区三区在线观看 | 一区二区三区四区无码视频| 国产精品高清视亚洲中文| 人妻 色综合网站| 欧美国产日本精品一区二区三区| 动漫人妻h无码中文字幕| 亚洲一区二区激情| 日本人妻巨大乳挤奶水| 无码欧精品亚洲日韩一区| 黄色成年一区二区三区| 亚洲性无码av在线欣赏网| 国产丝袜剧情演绎| 免费区欧美一级猛片| 亚洲色欲色欲大片www无码| 国产999久久高清免费观看|