![]()
10月27日消息,美團(tuán)LongCat團(tuán)隊(duì)今日發(fā)布并開源LongCat-Video視頻生成模型,以統(tǒng)一模型在文生、圖生視頻基礎(chǔ)任務(wù)上達(dá)到開源SOTA(最先進(jìn)水平)。
不同于以往針對單一任務(wù)訓(xùn)練的模型,LongCat-Video通過多任務(wù)聯(lián)合訓(xùn)練機(jī)制,在同一框架內(nèi)即可處理零幀、單幀及多幀條件輸入。
![]()
此外,LongCat-Video重點(diǎn)突破了長視頻生成難題,原生支持輸出5分鐘級別的視頻。相比常見模型在長時序生成中易出現(xiàn)的畫面漂移、色彩偏移等問題,該模型通過在視頻續(xù)寫任務(wù)上的原生預(yù)訓(xùn)練,保持了較高的時間一致性與視覺穩(wěn)定性。
近年來,“世界模型”被業(yè)界認(rèn)為是通往下一代人工智能的核心方向。它能在時空維度上建模物理規(guī)律與場景邏輯,使AI具備理解、預(yù)測甚至重構(gòu)現(xiàn)實(shí)世界的能力。
在這一背景下,視頻生成模型被視為構(gòu)建“世界模型”的關(guān)鍵路徑。通過視頻生成任務(wù)壓縮幾何、語義與物理知識,AI可以在數(shù)字空間中模擬真實(shí)世界的運(yùn)行過程。
美團(tuán)LongCat團(tuán)隊(duì)表示,LongCat-Video的推出是公司邁向這一目標(biāo)的關(guān)鍵一步。未來,該模型將與自動駕駛、具身智能等業(yè)務(wù)相結(jié)合,為美團(tuán)在連接“原子世界”和“比特世界”方面提供技術(shù)支撐。
![]()
文生視頻任務(wù)中,LongCat-Video可以根據(jù)提示詞準(zhǔn)確還原不少腦洞大開的畫面
據(jù)介紹,LongCat-Video可生成720p分辨率、30幀率的高清視頻,其突出特點(diǎn)在于能夠原生生成長達(dá)5分鐘的連貫視頻內(nèi)容。模型通過視頻續(xù)寫預(yù)訓(xùn)練、塊稀疏注意力等機(jī)制,旨在解決長視頻生成中常見的畫面斷裂、質(zhì)量下降等問題,保持時序一致性與運(yùn)動合理性。
在效率方面,針對高分辨率、高幀率視頻生成的計(jì)算瓶頸,LongCat-Video通過“二階段粗到精生成(C2F)+ 塊稀疏注意力(BSA)+ 模型蒸餾”三重優(yōu)化,視頻推理速度提升至10.1倍,實(shí)現(xiàn)效率與質(zhì)量的最優(yōu)平衡。
![]()
LongCat-Video視頻生成模型視頻推理速度提升至10.1倍
在內(nèi)部評測體系中,美團(tuán)構(gòu)建了一套覆蓋文本生成視頻與圖像生成視頻兩大核心任務(wù)的基準(zhǔn),評估維度包括文本對齊、視覺質(zhì)量、運(yùn)動質(zhì)量與總體表現(xiàn),并在圖生視頻任務(wù)中額外增加了圖像一致性指標(biāo)。
為確保評測的科學(xué)性,團(tuán)隊(duì)采用人工與自動雙軌評估機(jī)制,其中人工評價分為絕對打分與相對偏好兩種方式,所有樣本均由多名標(biāo)注員獨(dú)立評分,最終通過加權(quán)平均得出結(jié)果。
自動評測部分則由內(nèi)部訓(xùn)練的多模態(tài)“判官模型”完成,與人工結(jié)果的相關(guān)性高達(dá)0.92,保證了客觀性。
據(jù)發(fā)布的評測結(jié)果顯示,LongCat-Video在文生視頻任務(wù)的四個核心指標(biāo)中,視覺質(zhì)量得分幾乎與谷歌的Veo3持平,整體質(zhì)量超越了PixVerse-V5和國內(nèi)領(lǐng)先的開源模型Wan2.2。
![]()
在運(yùn)動質(zhì)量方面,LongCat-Video生成的視頻動作流暢、鏡頭移動自然,展現(xiàn)出較強(qiáng)的物理合理性。在文本對齊度上,LongCat-Video表現(xiàn)略差于Veo3。
在圖生視頻任務(wù)中,LongCat-Video畫面細(xì)節(jié)豐富、風(fēng)格真實(shí),但在圖像一致性和動作連貫性上仍有改進(jìn)空間。技術(shù)報告認(rèn)為,模型在處理高精度參考幀時對細(xì)節(jié)的保持較為謹(jǐn)慎,這在視覺質(zhì)量上帶來加分,卻略微影響了動態(tài)平滑度。
![]()
![]()
LongCat-Video視頻生成模型在文生、圖生視頻基礎(chǔ)任務(wù)上達(dá)到開源SOTA
在公開評測平臺VBench 2.0上,LongCat-Video在“常識理解”一項(xiàng)中以70.94%的得分位居所有開源模型第一,總分達(dá)到62.11%,僅次于谷歌Veo 3與生數(shù)Vidu Q1等商用閉源模型。
作為構(gòu)建"世界模型"的技術(shù)嘗試,LongCat-Video未來或可應(yīng)用于自動駕駛模擬、具身智能等需要長時序建模的場景。該模型的發(fā)布標(biāo)志著美團(tuán)在視頻生成與物理世界模擬領(lǐng)域邁出重要一步。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.