![]()
編輯丨&
在 AI 開發領域,多模態學習——讓模型同時理解圖像、視頻和文本——已經是當代研究的核心方向之一。長期以來,該領域的主要技術路線還是較為依賴擴散模型或者組合架構。雖然這些方法在特定任務上表現卓越,但它們也帶來結構復雜、推理成本高、跨模態統一性不足的深層次問題。
關于這個問題,2026 年 1 月 28 日,由智源帶來的多模態大模型成果以「Multimodal learning with next-token prediction for large multimodal models」為題刊登于《Nature》。
智源這項成果表明,只采用自回歸路線,就可以統一多模態學習,訓練出優秀的原生多模態大模型,對于確立自回歸成為生成式人工智能統一路線具有重大意義。
![]()
論文鏈接:https://www.nature.com/articles/s41586-025-10041-x
Emu3 模型
Emu3 模型是在該研究中,研究團隊所提出的一套全新的多模態模型,為解答「單一的預測下一個詞元框架是否能夠作為通用的多模態學習范式」而誕生。Emu3 的核心邏輯并不追求「更復雜的架構」,而是回歸到最基本的序列建模目標:預測序列中的下一個標記,而不是分別設計不同模態的子系統。
![]()
圖 1:Emu3 框架。
不同于傳統的自回歸建模方法,Emu3 認為:如果僅憑下一個詞元預測就能在所有模態上完成生成與理解任務,那就無需這些繁雜的模塊設計。它將圖像、文本和視頻統一離散化到同一個表示空間中,并從零開始,在多模態序列混合數據上聯合訓練一個單一的 Transformer。
這樣的設計將本來需要多個子網絡甚至多個訓練目標的問題,整合成一個極簡而統一的下一個詞元的預測任務。換言之,Emu3 并沒有為每種模態設計獨立的損失或生成機制,而是把所有模態看成一個整體序列,并讓模型以統一的概率分布來進行預測。
![]()
圖 2:以 token為中心的多模態基礎設施及與擴散模型和編碼器+LLM 組合范式的架構比較。
團隊還進一步提出了以 token 為中心的多模態基礎設施愿景。在該框架下,數據 token 化直接在邊緣設備上進行,只有所得的離散 token ID 會傳輸到大規模服務器,進行統一的多模態訓練和推斷。
評估與啟示
據各項實現的結果數據顯示,Emu3 在生成與感知任務上的整體表現可與多種成熟的任務專用模型相媲美。一方面,在圖像生成任務中,與依賴擴散機制的模型相比,Emu3 能夠生成高質量圖像,且樣式和語義一致性接近那些專用視覺生成架構。
另一方面,在視覺理解與視覺問答等任務上,它也能與組合模型(例如視覺編碼 + LLM 的設計)達到相當的表現水平。這說明這種預測模式不僅能統一不同模態的生成任務,還能在理解側保持強泛化能力。
表 1:多模態任務的評估。
![]()
區別于 Sora 的擴散式視頻生成,Emu3采用純自回歸方式逐詞元生成視頻,能夠在給定上下文下進行視頻延展與未來預測,并在文本引導下生成高保真視頻。此外,Emu3 還可拓展至視覺語言交錯生成,例如圖文并茂的菜譜生成;也可拓展至視覺語言動作建模,如機器人操作VLA等,進一步體現了「預測下一個詞元」的通用性。
該框架的成功核心在于,Transformer 解碼器具備極強的序列模式捕獲能力,與統一 token 表示、下一個詞元目標讓模型在跨模態訓練中共享底層表征,增強不同模態之間的協同效應。
持續引領大模型技術演進
Emu3 證明了其實僅靠下一個詞元預測就能大規模統一多模態學習,其在感知與生成方面均達到了成熟的任務特定模型的性能,匹配旗艦系統,同時消除了擴散或合成架構的需求。
Emu 系列模型自 2022 年啟動研發以來,圍繞「原生多模態」這一核心技術主線持續迭代。盡管如論文中所言,當下模型還存在著譯碼策略效率不足、壓縮比與重建保真度權重平衡等問題,但其表現出的統合能力與發展潛質,無疑可以認為它在可擴展和統一多模態智能中邁出了關鍵一步。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.