美團(tuán)發(fā)布并開源視頻生成模型：部分參數(shù)比肩谷歌最先進(jìn)模型Veo3

2025-10-28 20:05:05　來源: 科工力量

上海舉報

分享至

10月27日消息，美團(tuán)LongCat團(tuán)隊(duì)今日發(fā)布并開源LongCat-Video視頻生成模型，以統(tǒng)一模型在文生、圖生視頻基礎(chǔ)任務(wù)上達(dá)到開源SOTA（最先進(jìn)水平）。

不同于以往針對單一任務(wù)訓(xùn)練的模型，LongCat-Video通過多任務(wù)聯(lián)合訓(xùn)練機(jī)制，在同一框架內(nèi)即可處理零幀、單幀及多幀條件輸入。

此外，LongCat-Video重點(diǎn)突破了長視頻生成難題，原生支持輸出5分鐘級別的視頻。相比常見模型在長時序生成中易出現(xiàn)的畫面漂移、色彩偏移等問題，該模型通過在視頻續(xù)寫任務(wù)上的原生預(yù)訓(xùn)練，保持了較高的時間一致性與視覺穩(wěn)定性。

近年來，“世界模型”被業(yè)界認(rèn)為是通往下一代人工智能的核心方向。它能在時空維度上建模物理規(guī)律與場景邏輯，使AI具備理解、預(yù)測甚至重構(gòu)現(xiàn)實(shí)世界的能力。

在這一背景下，視頻生成模型被視為構(gòu)建“世界模型”的關(guān)鍵路徑。通過視頻生成任務(wù)壓縮幾何、語義與物理知識，AI可以在數(shù)字空間中模擬真實(shí)世界的運(yùn)行過程。

美團(tuán)LongCat團(tuán)隊(duì)表示，LongCat-Video的推出是公司邁向這一目標(biāo)的關(guān)鍵一步。未來，該模型將與自動駕駛、具身智能等業(yè)務(wù)相結(jié)合，為美團(tuán)在連接“原子世界”和“比特世界”方面提供技術(shù)支撐。

文生視頻任務(wù)中，LongCat-Video可以根據(jù)提示詞準(zhǔn)確還原不少腦洞大開的畫面

據(jù)介紹，LongCat-Video可生成720p分辨率、30幀率的高清視頻，其突出特點(diǎn)在于能夠原生生成長達(dá)5分鐘的連貫視頻內(nèi)容。模型通過視頻續(xù)寫預(yù)訓(xùn)練、塊稀疏注意力等機(jī)制，旨在解決長視頻生成中常見的畫面斷裂、質(zhì)量下降等問題，保持時序一致性與運(yùn)動合理性。

在效率方面，針對高分辨率、高幀率視頻生成的計(jì)算瓶頸，LongCat-Video通過“二階段粗到精生成（C2F）+ 塊稀疏注意力（BSA）+ 模型蒸餾”三重優(yōu)化，視頻推理速度提升至10.1倍，實(shí)現(xiàn)效率與質(zhì)量的最優(yōu)平衡。

LongCat-Video視頻生成模型視頻推理速度提升至10.1倍

在內(nèi)部評測體系中，美團(tuán)構(gòu)建了一套覆蓋文本生成視頻與圖像生成視頻兩大核心任務(wù)的基準(zhǔn)，評估維度包括文本對齊、視覺質(zhì)量、運(yùn)動質(zhì)量與總體表現(xiàn)，并在圖生視頻任務(wù)中額外增加了圖像一致性指標(biāo)。

為確保評測的科學(xué)性，團(tuán)隊(duì)采用人工與自動雙軌評估機(jī)制，其中人工評價分為絕對打分與相對偏好兩種方式，所有樣本均由多名標(biāo)注員獨(dú)立評分，最終通過加權(quán)平均得出結(jié)果。

自動評測部分則由內(nèi)部訓(xùn)練的多模態(tài)“判官模型”完成，與人工結(jié)果的相關(guān)性高達(dá)0.92，保證了客觀性。

據(jù)發(fā)布的評測結(jié)果顯示，LongCat-Video在文生視頻任務(wù)的四個核心指標(biāo)中，視覺質(zhì)量得分幾乎與谷歌的Veo3持平，整體質(zhì)量超越了PixVerse-V5和國內(nèi)領(lǐng)先的開源模型Wan2.2。

在運(yùn)動質(zhì)量方面，LongCat-Video生成的視頻動作流暢、鏡頭移動自然，展現(xiàn)出較強(qiáng)的物理合理性。在文本對齊度上，LongCat-Video表現(xiàn)略差于Veo3。

在圖生視頻任務(wù)中，LongCat-Video畫面細(xì)節(jié)豐富、風(fēng)格真實(shí)，但在圖像一致性和動作連貫性上仍有改進(jìn)空間。技術(shù)報告認(rèn)為，模型在處理高精度參考幀時對細(xì)節(jié)的保持較為謹(jǐn)慎，這在視覺質(zhì)量上帶來加分，卻略微影響了動態(tài)平滑度。

LongCat-Video視頻生成模型在文生、圖生視頻基礎(chǔ)任務(wù)上達(dá)到開源SOTA

在公開評測平臺VBench 2.0上，LongCat-Video在“常識理解”一項(xiàng)中以70.94%的得分位居所有開源模型第一，總分達(dá)到62.11%，僅次于谷歌Veo 3與生數(shù)Vidu Q1等商用閉源模型。

作為構(gòu)建"世界模型"的技術(shù)嘗試，LongCat-Video未來或可應(yīng)用于自動駕駛模擬、具身智能等需要長時序建模的場景。該模型的發(fā)布標(biāo)志著美團(tuán)在視頻生成與物理世界模擬領(lǐng)域邁出重要一步。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.