網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

美團(tuán)發(fā)布原生多模態(tài) LongCat-Next：把物理世界變成 AI “文字”

2026-03-27 12:14:35　來(lái)源: 讀懂?dāng)?shù)字財(cái)經(jīng)

北京舉報(bào)

分享至

物理世界的信息由圖像、聲音、文字交織而成，但通往真正物理世界智能的邊界，絕不僅僅是語(yǔ)言。近日，美團(tuán)發(fā)布并全面開(kāi)源原生多模態(tài)大模型 LongCat-Next 及其核心組件——離散原生分辨率視覺(jué)分詞器（dNaViT）。

▲美團(tuán)發(fā)布原生多模態(tài)LongCat-Next：讓視覺(jué)和語(yǔ)音成為AI“母語(yǔ)”（資料圖）

該模型打破了當(dāng)前大模型以“語(yǔ)言為中心”的傳統(tǒng)拼湊式架構(gòu)，將圖像、語(yǔ)音與文本統(tǒng)一映射為同源的離散 Token。通過(guò)純粹的“下一個(gè) Token 預(yù)測(cè)”（Next Token Prediction，NTP）范式，LongCat-Next 讓視覺(jué)與語(yǔ)音成為 AI 的“原生母語(yǔ)”。這不僅是一次底層架構(gòu)的革新，更是美團(tuán) LongCat 團(tuán)隊(duì)在通往物理世界 AI 道路上邁出的堅(jiān)實(shí)一步。

打破模態(tài)壁壘：賦予 AI 物理世界的“統(tǒng)一母語(yǔ)”

今天的主流多模態(tài)大模型，本質(zhì)上仍是"語(yǔ)言基座 + 外掛視覺(jué)/語(yǔ)音模塊"的拼湊系統(tǒng)。非語(yǔ)言模態(tài)往往只作為輔助組件被"投影"到語(yǔ)言空間，導(dǎo)致圖像的理解（依賴對(duì)齊機(jī)制）與生成（依賴擴(kuò)散模型）在結(jié)構(gòu)與優(yōu)化上長(zhǎng)期割裂。

能否讓 AI 像處理語(yǔ)言一樣，用同一種方式簡(jiǎn)潔有效地處理物理世界的多種信息？

▲LongCat-Next 架構(gòu)概覽，該架構(gòu)基于DiNA范式設(shè)計(jì)（資料圖）

美團(tuán) LongCat 團(tuán)隊(duì)給出了肯定的答案。通過(guò)構(gòu)建 DiNA（Discrete Native Autoregressive）離散原生自回歸架構(gòu)，LongCat-Next 將所有模態(tài)統(tǒng)一為離散 Token，并共享同一個(gè)自回歸骨干。無(wú)論輸入的是文字、圖像還是音頻，模型都使用同一套參數(shù)、同一個(gè)注意力機(jī)制和同一個(gè)損失函數(shù)。

在這一極簡(jiǎn)架構(gòu)下，視覺(jué)的“看”與“畫(huà)”、聽(tīng)覺(jué)的“聽(tīng)”與“說(shuō)”，不再是異構(gòu)模塊的拼接，而是同一套預(yù)測(cè)邏輯的自然涌現(xiàn)。給定圖像預(yù)測(cè)文字是“理解”，給定文字預(yù)測(cè)圖像是“生成”——兩者在數(shù)學(xué)形式上完全一致，不再割裂，多模態(tài)信息真正實(shí)現(xiàn)了更深層的模態(tài)“內(nèi)化”。

三大核心技術(shù)，重塑多模態(tài)底層邏輯

為了讓物理世界的信號(hào)真正轉(zhuǎn)化為 AI 的“母語(yǔ)”，LongCat-Next 實(shí)現(xiàn)了三項(xiàng)關(guān)鍵技術(shù)突破：

第一，離散原生自回歸架構(gòu)（DiNA）徹底打破模態(tài)隔閡。

以 LongCat-Flash-Lite MoE（總參數(shù) 68.5B，激活參數(shù)僅 3B）為基座，DiNA 讓所有模態(tài)共享同一個(gè)自回歸骨干，訓(xùn)練時(shí)更穩(wěn)定，部署時(shí)更輕量。實(shí)驗(yàn)表明，DiNA 的 MoE 路由在訓(xùn)練中逐漸出現(xiàn)模態(tài)專(zhuān)精化——激活專(zhuān)家數(shù)量相比純語(yǔ)言設(shè)置有所增加，模型正在用更大容量支撐能力擴(kuò)展。與此同時(shí)，不同模態(tài)的 Token 表征在表示空間中自然融合（t-SNE 可視化可見(jiàn)），MoE 專(zhuān)家自發(fā)形成模態(tài)偏好分化。這表明模型并非在“對(duì)齊模態(tài)”，而是在內(nèi)部形成了統(tǒng)一的多模態(tài)表征結(jié)構(gòu)——從“對(duì)齊”走向了真正的“內(nèi)化”。

第二，離散原生分辨率視覺(jué)分詞器（dNaViT）構(gòu)造視覺(jué)世界的“詞典”。

dNaViT 相當(dāng)于視覺(jué)領(lǐng)域的“分詞器”，將圖像拆解為一系列有意義的“視覺(jué)詞匯”，成功實(shí)現(xiàn)了“image → Token → image”的完整閉環(huán)——既用于“看懂”圖像，也用于“畫(huà)出”圖像。這其中包括了三項(xiàng)關(guān)鍵設(shè)計(jì)。

原生任意分辨率支持：不做縮放、裁剪與填充，完整保留畫(huà)面每一處細(xì)節(jié)，dNaViT 實(shí)現(xiàn)了任意分辨率的圖像編碼與解碼——在文檔解析（OCR）、復(fù)雜圖表推理等對(duì)細(xì)節(jié)敏感的任務(wù)中具備優(yōu)勢(shì)，并在 OmniDocBench、OCRBench 等密集文本場(chǎng)景的測(cè)試中均表現(xiàn)優(yōu)異；

8 層殘差向量量化（RVQ）：通過(guò)8層級(jí)聯(lián)遞歸擬合“殘差中的殘差”，實(shí)現(xiàn)高達(dá) 28 倍的極致像素空間壓縮；解碼時(shí)，DepthTransformer 將多級(jí) Token 合并重建，讓壓縮與還原高效協(xié)同；

解耦雙軌生成解碼器：離散 Token 還原圖像時(shí)，先由“結(jié)構(gòu)像素解碼器”還原布局，再由“擴(kuò)散像素細(xì)化器”注入紋理細(xì)節(jié)，解耦設(shè)計(jì)降低生成方差，確保文本渲染清晰無(wú)損。

值得強(qiáng)調(diào)的是，在 LongCat-Next 中，視覺(jué) Token 完成的僅是圖像到離散 ID 的映射，真正的視覺(jué)表征是在語(yǔ)言模型內(nèi)部通過(guò) embedding 原生學(xué)習(xí)得到的。模型不是"接入視覺(jué)能力"，而是在內(nèi)部學(xué)習(xí)并形成了自己的視覺(jué)語(yǔ)言——這種從“借用模態(tài)”到“內(nèi)生模態(tài)”的轉(zhuǎn)變，正是原生多模態(tài)建模的核心所在。

第三，語(yǔ)義對(duì)齊完備編碼器破解“離散化必然損失信息”的行業(yè)難題。

團(tuán)隊(duì)引入 SAE（Semantic-and-Aligned Encoder）范式。不同于以對(duì)比學(xué)習(xí)為主的模型（如 SigLIP），SAE 通過(guò)大規(guī)模視覺(jué)-語(yǔ)言監(jiān)督（涵蓋圖像描述、視覺(jué)問(wèn)答乃至視覺(jué)推理等任務(wù)），學(xué)習(xí)高信息密度、多屬性的表征。這類(lèi)表征不僅具備豐富的語(yǔ)義結(jié)構(gòu)，同時(shí)在網(wǎng)絡(luò)殘差傳遞機(jī)制下，底層視覺(jué)細(xì)節(jié)能夠持續(xù)向高層傳播，在抽象語(yǔ)義中保留顏色、紋理與空間結(jié)構(gòu)等細(xì)粒度信息，為離散 Token 的語(yǔ)義完備性提供基礎(chǔ)。在此之上，多級(jí)殘差向量量化（Residual Vector Quantization, RVQ）機(jī)制，對(duì)表征進(jìn)行逐級(jí)離散建模，在有限離散空間內(nèi)逼近高維連續(xù)表示，從而在壓縮率與信息保真之間取得平衡。

最終得到的離散視覺(jué) Token，不僅能夠支撐細(xì)粒度理解任務(wù)（例如在密集文本識(shí)別中優(yōu)于連續(xù)表征模型），同時(shí)也具備高保真的圖像重建能力。這表明：離散表示并非信息的退化形式，而可以成為統(tǒng)一理解與生成的完備表達(dá)載體。

實(shí)證破局：打破三大行業(yè)刻板印象

LongCat-Next 在視覺(jué)理解、圖像生成、音頻、智能體等多個(gè)維度的基準(zhǔn)測(cè)試中，以一套離散原生框架，展現(xiàn)出與多模態(tài)專(zhuān)用模型相當(dāng)甚至領(lǐng)先的性能，驗(yàn)證了三個(gè)關(guān)鍵發(fā)現(xiàn)。

▲LongCat-Next 的基準(zhǔn)測(cè)試性能（資料圖）

發(fā)現(xiàn)一：離散視覺(jué)沒(méi)有天花板。

行業(yè)曾普遍認(rèn)為，離散模型在細(xì)粒度文本識(shí)別上必然不如連續(xù)模型。但 LongCat-Next 在 OmniDocBench（學(xué)術(shù)論文、財(cái)報(bào)、行政表格）上取得 0.152 / 0.226 的成績(jī)，不僅超越 Qwen3-Omni，還超過(guò)了專(zhuān)用視覺(jué)模型 Qwen3-VL。離散化不是細(xì)粒度感知的天花板，關(guān)鍵在于如何構(gòu)建語(yǔ)義完備的離散視覺(jué)表征。

發(fā)現(xiàn)二：理解與生成可以協(xié)同。

傳統(tǒng)觀點(diǎn)認(rèn)為，單一模型難以兼顧理解與生成。但 LongCat-Next 證明了兩者不僅不沖突，反而表現(xiàn)出協(xié)同潛力：統(tǒng)一模型的理解損失僅比純理解模型高 0.006，而生成損失比純生成模型低 0.02。在圖像生成上，GenEval（84.44）、LongText-Bench （英文 93.15）等基準(zhǔn)測(cè)試結(jié)果均顯著超越 BAGEL 等統(tǒng)一模型；在圖像理解上，MathVista（83.1）達(dá)到行業(yè)領(lǐng)先水平。

發(fā)現(xiàn)三：統(tǒng)一框架不折損語(yǔ)言能力，在智能體與音頻上形成跨模態(tài)協(xié)同。

在純文本任務(wù)上，LongCat-Next 的 MMLU-Pro（77.02）和 C-Eval（86.80）表現(xiàn)領(lǐng)先，證明原生多模態(tài)訓(xùn)練未削弱語(yǔ)言核心能力。在工具調(diào)用上，τ2-Bench 零售場(chǎng)景（73.68）大幅領(lǐng)先
Qwen3-Next-80B-A3B-Instruct（57.3）；在代碼能力上，SWE-Bench（43.0）顯著超越同類(lèi)模型。

在音頻領(lǐng)域，TTS 任務(wù) SeedTTS 中文 WER 低至 1.90、英文 WER 低至 1.89；音頻理解 MMAU（76.40）、TUT2017（43.09）均達(dá)到先進(jìn)水平。模型同時(shí)支持低延遲并行文本語(yǔ)音生成與可定制語(yǔ)音克隆，讓語(yǔ)音交互更自然、更個(gè)性化。

全面開(kāi)源，共建物理世界 AI 基石

“作為一個(gè)初步的嘗試，我們展示了一個(gè)有意義的視角：物理世界的信息可以被離散化、統(tǒng)一化、像語(yǔ)言一樣被建模，讓 AI 第一次能夠像處理文字一樣原生地理解物理世界的多模態(tài)信號(hào)。”美團(tuán) LongCat 團(tuán)隊(duì)相關(guān)負(fù)責(zé)人表示，“我們期待，有一天 AI 能真正‘看懂’物理世界的每一個(gè)角落、‘聽(tīng)懂’顧客的每一句話、理解物理世界的每一條規(guī)律。”

在他看來(lái)，LongCat-Next 以小尺寸驗(yàn)證了原生離散架構(gòu)的潛力，是通往物理世界 AI 道路上的一塊重要基石，但未來(lái)仍有非常多且重要的方向尚未被充分探索——這恰恰是未來(lái)研究的機(jī)遇所在。

目前，LongCat-Next 模型、dNaViT 分詞器及相關(guān)技術(shù)報(bào)告全面開(kāi)源，開(kāi)發(fā)者可通過(guò)以下鏈接獲取資源：

Paper: https://github.com/meituan-longcat/LongCat-Next/blob/main/tech_report.pdf
GitHub: https://github.com/meituan-longcat/LongCat-Next
HuggingFace: https://huggingface.co/meituan-longcat/LongCat-Next

更多體驗(yàn)前往：

Demo: https://longcat.chat/longcat-next
Blog: https://longcat.chat/longcat-next/intro

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.