<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      美團(tuán)發(fā)布原生多模態(tài) LongCat-Next:把物理世界變成 AI “文字”

      0
      分享至

      物理世界的信息由圖像、聲音、文字交織而成,但通往真正物理世界智能的邊界,絕不僅僅是語(yǔ)言。近日,美團(tuán)發(fā)布并全面開(kāi)源原生多模態(tài)大模型 LongCat-Next 及其核心組件——離散原生分辨率視覺(jué)分詞器(dNaViT)。



      ▲美團(tuán)發(fā)布原生多模態(tài)LongCat-Next:讓視覺(jué)和語(yǔ)音成為AI“母語(yǔ)”(資料圖)

      該模型打破了當(dāng)前大模型以“語(yǔ)言為中心”的傳統(tǒng)拼湊式架構(gòu),將圖像、語(yǔ)音與文本統(tǒng)一映射為同源的離散 Token。通過(guò)純粹的“下一個(gè) Token 預(yù)測(cè)”(Next Token Prediction,NTP)范式,LongCat-Next 讓視覺(jué)與語(yǔ)音成為 AI 的“原生母語(yǔ)”。這不僅是一次底層架構(gòu)的革新,更是美團(tuán) LongCat 團(tuán)隊(duì)在通往物理世界 AI 道路上邁出的堅(jiān)實(shí)一步。

      打破模態(tài)壁壘:賦予 AI 物理世界的“統(tǒng)一母語(yǔ)”

      今天的主流多模態(tài)大模型,本質(zhì)上仍是"語(yǔ)言基座 + 外掛視覺(jué)/語(yǔ)音模塊"的拼湊系統(tǒng)。非語(yǔ)言模態(tài)往往只作為輔助組件被"投影"到語(yǔ)言空間,導(dǎo)致圖像的理解(依賴對(duì)齊機(jī)制)與生成(依賴擴(kuò)散模型)在結(jié)構(gòu)與優(yōu)化上長(zhǎng)期割裂。

      能否讓 AI 像處理語(yǔ)言一樣,用同一種方式簡(jiǎn)潔有效地處理物理世界的多種信息?



      ▲LongCat-Next 架構(gòu)概覽,該架構(gòu)基于DiNA范式設(shè)計(jì)(資料圖)

      美團(tuán) LongCat 團(tuán)隊(duì)給出了肯定的答案。通過(guò)構(gòu)建 DiNA(Discrete Native Autoregressive)離散原生自回歸架構(gòu),LongCat-Next 將所有模態(tài)統(tǒng)一為離散 Token,并共享同一個(gè)自回歸骨干。無(wú)論輸入的是文字、圖像還是音頻,模型都使用同一套參數(shù)、同一個(gè)注意力機(jī)制和同一個(gè)損失函數(shù)。

      在這一極簡(jiǎn)架構(gòu)下,視覺(jué)的“看”與“畫(huà)”、聽(tīng)覺(jué)的“聽(tīng)”與“說(shuō)”,不再是異構(gòu)模塊的拼接,而是同一套預(yù)測(cè)邏輯的自然涌現(xiàn)。給定圖像預(yù)測(cè)文字是“理解”,給定文字預(yù)測(cè)圖像是“生成”——兩者在數(shù)學(xué)形式上完全一致,不再割裂,多模態(tài)信息真正實(shí)現(xiàn)了更深層的模態(tài)“內(nèi)化”。

      三大核心技術(shù),重塑多模態(tài)底層邏輯

      為了讓物理世界的信號(hào)真正轉(zhuǎn)化為 AI 的“母語(yǔ)”,LongCat-Next 實(shí)現(xiàn)了三項(xiàng)關(guān)鍵技術(shù)突破:

      第一,離散原生自回歸架構(gòu)(DiNA)徹底打破模態(tài)隔閡。

      以 LongCat-Flash-Lite MoE(總參數(shù) 68.5B,激活參數(shù)僅 3B)為基座,DiNA 讓所有模態(tài)共享同一個(gè)自回歸骨干,訓(xùn)練時(shí)更穩(wěn)定,部署時(shí)更輕量。實(shí)驗(yàn)表明,DiNA 的 MoE 路由在訓(xùn)練中逐漸出現(xiàn)模態(tài)專(zhuān)精化——激活專(zhuān)家數(shù)量相比純語(yǔ)言設(shè)置有所增加,模型正在用更大容量支撐能力擴(kuò)展。與此同時(shí),不同模態(tài)的 Token 表征在表示空間中自然融合(t-SNE 可視化可見(jiàn)),MoE 專(zhuān)家自發(fā)形成模態(tài)偏好分化。這表明模型并非在“對(duì)齊模態(tài)”,而是在內(nèi)部形成了統(tǒng)一的多模態(tài)表征結(jié)構(gòu)——從“對(duì)齊”走向了真正的“內(nèi)化”。

      第二,離散原生分辨率視覺(jué)分詞器(dNaViT)構(gòu)造視覺(jué)世界的“詞典”。

      dNaViT 相當(dāng)于視覺(jué)領(lǐng)域的“分詞器”,將圖像拆解為一系列有意義的“視覺(jué)詞匯”,成功實(shí)現(xiàn)了“image → Token → image”的完整閉環(huán)——既用于“看懂”圖像,也用于“畫(huà)出”圖像。這其中包括了三項(xiàng)關(guān)鍵設(shè)計(jì)。

      原生任意分辨率支持:不做縮放、裁剪與填充,完整保留畫(huà)面每一處細(xì)節(jié),dNaViT 實(shí)現(xiàn)了任意分辨率的圖像編碼與解碼——在文檔解析(OCR)、復(fù)雜圖表推理等對(duì)細(xì)節(jié)敏感的任務(wù)中具備優(yōu)勢(shì),并在 OmniDocBench、OCRBench 等密集文本場(chǎng)景的測(cè)試中均表現(xiàn)優(yōu)異;

      8 層殘差向量量化(RVQ):通過(guò)8層級(jí)聯(lián)遞歸擬合“殘差中的殘差”,實(shí)現(xiàn)高達(dá) 28 倍的極致像素空間壓縮;解碼時(shí),DepthTransformer 將多級(jí) Token 合并重建,讓壓縮與還原高效協(xié)同;

      解耦雙軌生成解碼器:離散 Token 還原圖像時(shí),先由“結(jié)構(gòu)像素解碼器”還原布局,再由“擴(kuò)散像素細(xì)化器”注入紋理細(xì)節(jié),解耦設(shè)計(jì)降低生成方差,確保文本渲染清晰無(wú)損。

      值得強(qiáng)調(diào)的是,在 LongCat-Next 中,視覺(jué) Token 完成的僅是圖像到離散 ID 的映射,真正的視覺(jué)表征是在語(yǔ)言模型內(nèi)部通過(guò) embedding 原生學(xué)習(xí)得到的。模型不是"接入視覺(jué)能力",而是在內(nèi)部學(xué)習(xí)并形成了自己的視覺(jué)語(yǔ)言——這種從“借用模態(tài)”到“內(nèi)生模態(tài)”的轉(zhuǎn)變,正是原生多模態(tài)建模的核心所在。

      第三,語(yǔ)義對(duì)齊完備編碼器破解“離散化必然損失信息”的行業(yè)難題。

      團(tuán)隊(duì)引入 SAE(Semantic-and-Aligned Encoder)范式。不同于以對(duì)比學(xué)習(xí)為主的模型(如 SigLIP),SAE 通過(guò)大規(guī)模視覺(jué)-語(yǔ)言監(jiān)督(涵蓋圖像描述、視覺(jué)問(wèn)答乃至視覺(jué)推理等任務(wù)),學(xué)習(xí)高信息密度、多屬性的表征。這類(lèi)表征不僅具備豐富的語(yǔ)義結(jié)構(gòu),同時(shí)在網(wǎng)絡(luò)殘差傳遞機(jī)制下,底層視覺(jué)細(xì)節(jié)能夠持續(xù)向高層傳播,在抽象語(yǔ)義中保留顏色、紋理與空間結(jié)構(gòu)等細(xì)粒度信息,為離散 Token 的語(yǔ)義完備性提供基礎(chǔ)。在此之上,多級(jí)殘差向量量化(Residual Vector Quantization, RVQ)機(jī)制,對(duì)表征進(jìn)行逐級(jí)離散建模,在有限離散空間內(nèi)逼近高維連續(xù)表示,從而在壓縮率與信息保真之間取得平衡。

      最終得到的離散視覺(jué) Token,不僅能夠支撐細(xì)粒度理解任務(wù)(例如在密集文本識(shí)別中優(yōu)于連續(xù)表征模型),同時(shí)也具備高保真的圖像重建能力。這表明:離散表示并非信息的退化形式,而可以成為統(tǒng)一理解與生成的完備表達(dá)載體。

      實(shí)證破局:打破三大行業(yè)刻板印象

      LongCat-Next 在視覺(jué)理解、圖像生成、音頻、智能體等多個(gè)維度的基準(zhǔn)測(cè)試中,以一套離散原生框架,展現(xiàn)出與多模態(tài)專(zhuān)用模型相當(dāng)甚至領(lǐng)先的性能,驗(yàn)證了三個(gè)關(guān)鍵發(fā)現(xiàn)。



      ▲LongCat-Next 的基準(zhǔn)測(cè)試性能(資料圖)

      發(fā)現(xiàn)一:離散視覺(jué)沒(méi)有天花板。

      行業(yè)曾普遍認(rèn)為,離散模型在細(xì)粒度文本識(shí)別上必然不如連續(xù)模型。但 LongCat-Next 在 OmniDocBench(學(xué)術(shù)論文、財(cái)報(bào)、行政表格)上取得 0.152 / 0.226 的成績(jī),不僅超越 Qwen3-Omni,還超過(guò)了專(zhuān)用視覺(jué)模型 Qwen3-VL。離散化不是細(xì)粒度感知的天花板,關(guān)鍵在于如何構(gòu)建語(yǔ)義完備的離散視覺(jué)表征。

      發(fā)現(xiàn)二:理解與生成可以協(xié)同。

      傳統(tǒng)觀點(diǎn)認(rèn)為,單一模型難以兼顧理解與生成。但 LongCat-Next 證明了兩者不僅不沖突,反而表現(xiàn)出協(xié)同潛力:統(tǒng)一模型的理解損失僅比純理解模型高 0.006,而生成損失比純生成模型低 0.02。在圖像生成上,GenEval(84.44)、LongText-Bench (英文 93.15)等基準(zhǔn)測(cè)試結(jié)果均顯著超越 BAGEL 等統(tǒng)一模型;在圖像理解上,MathVista(83.1)達(dá)到行業(yè)領(lǐng)先水平。

      發(fā)現(xiàn)三:統(tǒng)一框架不折損語(yǔ)言能力,在智能體與音頻上形成跨模態(tài)協(xié)同。

      在純文本任務(wù)上,LongCat-Next 的 MMLU-Pro(77.02)和 C-Eval(86.80)表現(xiàn)領(lǐng)先,證明原生多模態(tài)訓(xùn)練未削弱語(yǔ)言核心能力。在工具調(diào)用上,τ2-Bench 零售場(chǎng)景(73.68)大幅領(lǐng)先
      Qwen3-Next-80B-A3B-Instruct(57.3);在代碼能力上,SWE-Bench(43.0)顯著超越同類(lèi)模型。

      在音頻領(lǐng)域,TTS 任務(wù) SeedTTS 中文 WER 低至 1.90、英文 WER 低至 1.89;音頻理解 MMAU(76.40)、TUT2017(43.09)均達(dá)到先進(jìn)水平。模型同時(shí)支持低延遲并行文本語(yǔ)音生成與可定制語(yǔ)音克隆,讓語(yǔ)音交互更自然、更個(gè)性化。

      全面開(kāi)源,共建物理世界 AI 基石

      “作為一個(gè)初步的嘗試,我們展示了一個(gè)有意義的視角:物理世界的信息可以被離散化、統(tǒng)一化、像語(yǔ)言一樣被建模,讓 AI 第一次能夠像處理文字一樣原生地理解物理世界的多模態(tài)信號(hào)。”美團(tuán) LongCat 團(tuán)隊(duì)相關(guān)負(fù)責(zé)人表示,“我們期待,有一天 AI 能真正‘看懂’物理世界的每一個(gè)角落、‘聽(tīng)懂’顧客的每一句話、理解物理世界的每一條規(guī)律。”

      在他看來(lái),LongCat-Next 以小尺寸驗(yàn)證了原生離散架構(gòu)的潛力,是通往物理世界 AI 道路上的一塊重要基石,但未來(lái)仍有非常多且重要的方向尚未被充分探索——這恰恰是未來(lái)研究的機(jī)遇所在。

      目前,LongCat-Next 模型、dNaViT 分詞器及相關(guān)技術(shù)報(bào)告全面開(kāi)源,開(kāi)發(fā)者可通過(guò)以下鏈接獲取資源:

      Paper: https://github.com/meituan-longcat/LongCat-Next/blob/main/tech_report.pdf
      GitHub: https://github.com/meituan-longcat/LongCat-Next
      HuggingFace: https://huggingface.co/meituan-longcat/LongCat-Next

      更多體驗(yàn)前往:

      Demo: https://longcat.chat/longcat-next
      Blog: https://longcat.chat/longcat-next/intro

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      游龍戲鳳:烏電子戰(zhàn)部隊(duì)空中擒獲俄軍戰(zhàn)機(jī),俄上將慘遭爆頭

      游龍戲鳳:烏電子戰(zhàn)部隊(duì)空中擒獲俄軍戰(zhàn)機(jī),俄上將慘遭爆頭

      史政先鋒
      2026-05-06 20:14:22
      如果你不開(kāi)心,就去看東北人的評(píng)論區(qū),能讓你笑出腹肌!

      如果你不開(kāi)心,就去看東北人的評(píng)論區(qū),能讓你笑出腹肌!

      夜深?lèi)?ài)雜談
      2026-04-14 15:18:00
      國(guó)企機(jī)關(guān)化帶來(lái)的問(wèn)題,已經(jīng)愈來(lái)愈嚴(yán)重了

      國(guó)企機(jī)關(guān)化帶來(lái)的問(wèn)題,已經(jīng)愈來(lái)愈嚴(yán)重了

      細(xì)說(shuō)職場(chǎng)
      2026-05-07 13:25:20
      恩里克霸氣發(fā)聲:歐洲已無(wú)球隊(duì)強(qiáng)于巴黎,我們要實(shí)現(xiàn)衛(wèi)冕壯舉

      恩里克霸氣發(fā)聲:歐洲已無(wú)球隊(duì)強(qiáng)于巴黎,我們要實(shí)現(xiàn)衛(wèi)冕壯舉

      星耀國(guó)際足壇
      2026-05-07 09:20:11
      老照片還原格瓦拉被捕遇害全過(guò)程:身體被肢解,遇害47年后才曝光

      老照片還原格瓦拉被捕遇害全過(guò)程:身體被肢解,遇害47年后才曝光

      史之銘
      2026-05-05 17:49:57
      退休后才明白:別人夸你“看起來(lái)真年輕”,千萬(wàn)別答“哪有哪有”

      退休后才明白:別人夸你“看起來(lái)真年輕”,千萬(wàn)別答“哪有哪有”

      心理觀察局
      2026-05-07 08:18:05
      白嫖烤全羊男子社會(huì)性死亡!“底褲”被扒,至今未付錢(qián),警方介入

      白嫖烤全羊男子社會(huì)性死亡!“底褲”被扒,至今未付錢(qián),警方介入

      凡知
      2026-05-06 15:07:44
      97年我對(duì)女老師說(shuō)我喜歡她,她紅著臉說(shuō):考上重點(diǎn)大學(xué)我就嫁給你

      97年我對(duì)女老師說(shuō)我喜歡她,她紅著臉說(shuō):考上重點(diǎn)大學(xué)我就嫁給你

      千秋文化
      2026-05-02 19:36:54
      “宗門(mén)老祖”火線回歸救場(chǎng),馬刺年輕人天性釋放

      “宗門(mén)老祖”火線回歸救場(chǎng),馬刺年輕人天性釋放

      毒舌NBA
      2026-05-07 15:25:40
      游戲中的中國(guó)背景永遠(yuǎn)都是臟亂差,“不隨地吐痰”顯得格外刺眼

      游戲中的中國(guó)背景永遠(yuǎn)都是臟亂差,“不隨地吐痰”顯得格外刺眼

      街機(jī)時(shí)代
      2026-05-06 15:00:03
      京粵戰(zhàn)出現(xiàn)了哪些爭(zhēng)議哨?裁判專(zhuān)家:漏了北京隊(duì)2次違體,1次技犯

      京粵戰(zhàn)出現(xiàn)了哪些爭(zhēng)議哨?裁判專(zhuān)家:漏了北京隊(duì)2次違體,1次技犯

      南海浪花
      2026-05-07 14:28:48
      A股:大家要做好準(zhǔn)備了,明天(5月8日),不出意外會(huì)這么走

      A股:大家要做好準(zhǔn)備了,明天(5月8日),不出意外會(huì)這么走

      財(cái)經(jīng)大拿
      2026-05-07 13:51:54
      鄭智被禁賽6場(chǎng)!媒體人熱議:不認(rèn)錯(cuò)從重處罰,7場(chǎng)不勝還不下課

      鄭智被禁賽6場(chǎng)!媒體人熱議:不認(rèn)錯(cuò)從重處罰,7場(chǎng)不勝還不下課

      奧拜爾
      2026-05-07 14:00:04
      WTI原油期貨日內(nèi)跌3% 布倫特原油期貨跌4%

      WTI原油期貨日內(nèi)跌3% 布倫特原油期貨跌4%

      財(cái)聯(lián)社
      2026-05-07 15:20:14
      不歡迎中國(guó)人的7個(gè)國(guó)家,不待見(jiàn)寫(xiě)在臉上,中國(guó)游客仍蜂擁而至

      不歡迎中國(guó)人的7個(gè)國(guó)家,不待見(jiàn)寫(xiě)在臉上,中國(guó)游客仍蜂擁而至

      番外行
      2026-04-23 07:54:08
      調(diào)整!5月7日央視直播倫敦世乒賽有變,馬琳帶隊(duì)很輕松王皓羨慕!

      調(diào)整!5月7日央視直播倫敦世乒賽有變,馬琳帶隊(duì)很輕松王皓羨慕!

      曹說(shuō)體育
      2026-05-07 14:56:54
      虧損超1.5億!《寒戰(zhàn)1994》票房崩塌,我感慨:這塊金字招牌砸了

      虧損超1.5億!《寒戰(zhàn)1994》票房崩塌,我感慨:這塊金字招牌砸了

      靠譜電影君
      2026-05-05 10:40:44
      歐冠決賽開(kāi)球時(shí)間提前?切費(fèi)林:這是為了提升球迷的觀賽體驗(yàn)

      歐冠決賽開(kāi)球時(shí)間提前?切費(fèi)林:這是為了提升球迷的觀賽體驗(yàn)

      懂球帝
      2026-05-07 10:24:12
      英媒:吳宜澤吞云吐霧照片讓老球迷更喜歡,他風(fēng)格很像颶風(fēng)希金斯

      英媒:吳宜澤吞云吐霧照片讓老球迷更喜歡,他風(fēng)格很像颶風(fēng)希金斯

      楊華評(píng)論
      2026-05-06 15:14:00
      巴黎6-5淘汰拜仁!第3次進(jìn)歐冠決賽 跟阿森納爭(zhēng)冠 登貝萊閃擊破門(mén)

      巴黎6-5淘汰拜仁!第3次進(jìn)歐冠決賽 跟阿森納爭(zhēng)冠 登貝萊閃擊破門(mén)

      侃球熊弟
      2026-05-07 04:17:48
      2026-05-07 16:11:00
      讀懂?dāng)?shù)字財(cái)經(jīng)
      讀懂?dāng)?shù)字財(cái)經(jīng)
      用數(shù)據(jù),說(shuō)點(diǎn)財(cái)經(jīng)人話
      1903文章數(shù) 3571關(guān)注度
      往期回顧 全部

      科技要聞

      月之暗面完成20億美元融資,估值突破200億

      頭條要聞

      記者詢問(wèn)"是否敦促美方從霍爾木茲撤出軍艦" 中方回應(yīng)

      頭條要聞

      記者詢問(wèn)"是否敦促美方從霍爾木茲撤出軍艦" 中方回應(yīng)

      體育要聞

      巴黎再進(jìn)歐冠決賽,最尷尬的情況還是發(fā)生了

      娛樂(lè)要聞

      小S阿雅重返大S母校,翻看大S畢業(yè)照

      財(cái)經(jīng)要聞

      特朗普:美伊“很有可能”達(dá)成協(xié)議

      汽車(chē)要聞

      理想為什么不做轎車(chē),有了解釋……

      態(tài)度原創(chuàng)

      本地
      時(shí)尚
      手機(jī)
      房產(chǎn)
      健康

      本地新聞

      用青花瓷的方式,打開(kāi)西溪濕地

      “白色闊腿褲”今年夏天又火了!這樣穿時(shí)髦又高級(jí)

      手機(jī)要聞

      消息稱(chēng)某廠天璣9500折疊工程機(jī)后置大圓鏡頭Deco

      房產(chǎn)要聞

      五一海南樓市,太淡了!

      干細(xì)胞治燒燙傷面臨這些“瓶頸”

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 一级黄片国产精品久久| 中文字幕亚洲综合第一页| 国产精品亚洲一区二区毛片| 国产精品美女被遭强扒开双腿| 一区二区三区免费视频播放器| 亚洲精品无码高潮喷水在线| 韩国无码AV片午夜福利| 99r在线精品视频在线播放| 67pao国产成视频永久免费| 亚洲午夜性猛春交xxxx| 亚洲一区二区三区偷拍女厕| 四虎成人精品永久在线视频| 国产精品情侣呻吟对白视频 | 成熟老妇女视频| Xvideos精品国产| 国产亚洲日韩在线aaaa| 国产精品久久久久久麻豆一区| 91老肥熟女九色老女人| 精品国产AV色欲果冻传媒| 蜜臀av久久国产午夜福利软件| 精品尤物国产尤物在线看| av在线播放制服| 久久狠狠色噜噜狠狠狠狠97视色| 久久久久国产亚洲AV麻豆| 日韩精品亚洲专在线电影| 亚洲中文字幕伊人久久无码| 中文字幕人妻有码在线| 无码熟熟妇丰满人妻porn| 亚洲成av人片无码天堂下载| 人人肏| 亚洲欧洲日韩一区| 微博| 欧美亚洲国产一区二区三区| 国产免费AV网站| 久久国产乱子伦精品免费女,网站| 永春县| 无码内射中文字幕岛国片 | 狠狠躁夜夜躁AV网站中文字幕| 涩涩av| 国产成人精品无码专区| 欧美色欧美亚洲高清在线视频|