網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

AI「看不懂」、「做不好」視頻的問(wèn)題，混元用「MTSS」解決了

2026-04-28 16:19:27　來(lái)源: 機(jī)器之心Pro

河北舉報(bào)

分享至

導(dǎo)讀：騰訊混元團(tuán)隊(duì)提出了 Multi-Stream Scene Script（MTSS），一種全新的視頻描述范式 —— 將傳統(tǒng)的 "一段話描述整個(gè)視頻" 升級(jí)為 "多流結(jié)構(gòu)化劇本"，通過(guò) Stream Factorization 和 Relational Grounding 兩大核心原則，讓視頻描述既忠實(shí)又可擴(kuò)展，在視頻理解和生成任務(wù)中均取得顯著提升。

論文標(biāo)題：Script-a-Video: Deep Structured Audio-visual Captions via Factorized Streams and Relational Grounding
論文鏈接：https://arxiv.org/abs/2604.11244

多分鏡、ID 保持、音畫(huà)同出…… 當(dāng)視頻生成模型開(kāi)始具備這些核心能力時(shí)，一個(gè)容易被忽略的瓶頸開(kāi)始浮出水面：你拿什么來(lái)描述一段視頻，才能獲得更好的效果？

當(dāng)前主流的做法，是把視覺(jué)、聽(tīng)覺(jué)、人物、場(chǎng)景、鏡頭運(yùn)動(dòng)等所有信息，全部揉進(jìn)一段密密麻麻的自然語(yǔ)言段落里 —— 這就是所謂的 Monolithic Caption，我們姑且叫它「流水賬」式描述。

這種寫(xiě)法的問(wèn)題，其實(shí)和寫(xiě)劇本一樣直觀：把演員表、分鏡表、音效表全寫(xiě)在一篇散文里，導(dǎo)演沒(méi)法用，演員看不懂，后期更沒(méi)法改。

那有沒(méi)有可能，給視頻寫(xiě)一份真正的、更高效的「結(jié)構(gòu)化劇本」？

騰訊混元團(tuán)隊(duì)給出的答案是：MTSS——Multi-Stream Scene Script。

「流水賬」到底差在哪？

三個(gè)繞不開(kāi)的問(wèn)題

要理解 MTSS 為什么值得關(guān)注，得先看看傳統(tǒng) Monolithic Caption 在實(shí)際應(yīng)用中到底碰到了什么墻。

語(yǔ)義冗余與歧義。同一角色在不同鏡頭中被反復(fù)描述，容易產(chǎn)生不一致的身份引用。一段話里出現(xiàn)三次 "穿西裝的男人"，到底是不是同一個(gè)人？模型不確定，生成出來(lái)也就容易串。
可擴(kuò)展性差。想改一個(gè)局部細(xì)節(jié) —— 比如換個(gè)鏡頭運(yùn)動(dòng)、加一段音效 —— 可能需要重寫(xiě)整段描述才能保持?jǐn)⑹逻B貫性。牽一發(fā)動(dòng)全身，效率極低。
對(duì)小模型不友好。密集交織的信息增加了認(rèn)知負(fù)擔(dān)，小參數(shù)模型很難從中有效學(xué)習(xí)。大模型或許還能湊合理解，換成 7B 級(jí)別的開(kāi)源模型，表現(xiàn)就斷崖式下跌。

這些不是理論上的困難 —— 當(dāng)你想要實(shí)現(xiàn)多分鏡生成、跨鏡頭身份保持、音畫(huà)同出時(shí)，「流水賬」就成了最大的瓶頸。

不寫(xiě)流水賬，改寫(xiě)分鏡劇本：

「MTSS」怎么設(shè)計(jì)的？

MTSS 的核心思想非常直觀：不寫(xiě)流水賬，改寫(xiě) JSON 格式的分鏡頭劇本。它的兩大核心設(shè)計(jì)原則：Stream Factorization 與 Relational Grounding。

Stream Factorization：把一段視頻拆成四條并行的信息流

MTSS 將復(fù)雜的音視頻動(dòng)態(tài)剝離開(kāi)來(lái)，變成四個(gè)專門(mén)的、并行的信息流，并互相引用，實(shí)現(xiàn)了對(duì)視頻信息更本質(zhì)的表達(dá)方式：Reference Stream（資產(chǎn)信息）—— 特征錨點(diǎn)核心；Event Stream（事件信息）—— 發(fā)生了什么；Shot Stream（鏡頭信息）—— 如何呈現(xiàn)；Global Stream（全局信息）—— 全局信息。

Relational Grounding：讓四條流 "活" 起來(lái)

僅僅分解是不夠的 —— 孤立的信息流無(wú)法形成連貫的腳本。MTSS 通過(guò) Relational Grounding 在兩個(gè)維度上重新建立聯(lián)系：身份錨定實(shí)現(xiàn)實(shí)體全局引用，時(shí)間錨定實(shí)現(xiàn)多軌道并行對(duì)齊。

這樣一來(lái)，修改任何一條流中的局部信息（如改變一個(gè)角色的臺(tái)詞），不會(huì)影響其他流的內(nèi)容，真正實(shí)現(xiàn)了「局部編輯，全局一致」。

與 Monolithic Caption 的效果對(duì)比

與傳統(tǒng) Monolithic Caption 相比，MTSS 具備以下核心優(yōu)勢(shì)：

符合視頻數(shù)據(jù)本質(zhì)形式：解耦身份（Who）、事件（What）、呈現(xiàn)（How）等，并彼此精準(zhǔn)關(guān)聯(lián)。
全局一致性：全局身份信息統(tǒng)一管理與引用，避免反復(fù)的冗余描述帶來(lái)誤差。
易擴(kuò)展、易理解：從時(shí)間和空間對(duì)視頻進(jìn)行結(jié)構(gòu)化拆解，降低理解難度，實(shí)現(xiàn)局部編輯。
專業(yè)剪輯技巧表達(dá)：支持 ReactionShot（"說(shuō)話人 - 聽(tīng)眾" 模式）、L-Cut（聲音延續(xù)）、J-Cut（聲音先行）等專業(yè)剪輯技巧。

理解與生成兩手抓：

MTSS 到底有多能打？

說(shuō)一千道一萬(wàn)，不如數(shù)據(jù)說(shuō)話。針對(duì) MTSS 范式設(shè)計(jì)的有效性驗(yàn)證，團(tuán)隊(duì)在視頻理解和視頻生成兩個(gè)賽道上都進(jìn)行了詳盡的實(shí)驗(yàn)和評(píng)估。

視頻理解：格式一換，效果就來(lái)

在實(shí)驗(yàn)設(shè)計(jì)上，團(tuán)隊(duì)同時(shí)評(píng)估了 Zero-shot Prompting（直接讓模型輸出 MTSS 格式）和 Supervised Fine-tuning（在 MTSS 數(shù)據(jù)上微調(diào)）兩種使用方式，從而將「格式本身的優(yōu)勢(shì)」和「訓(xùn)練帶來(lái)的優(yōu)勢(shì)」進(jìn)行了有效分離。

遵循 MTSS 范式，Zero-shot Prompting 即可帶來(lái)普遍提升
MTSS 范式設(shè)計(jì)顯著降低認(rèn)知負(fù)擔(dān)，使得小模型效果提升更加顯著
適當(dāng)?shù)?SFT 能夠釋放 MTSS 范式設(shè)計(jì)的最大潛力
MTSS 對(duì)推理的提升幅度遠(yuǎn)超對(duì)描述任務(wù)本身的提升
One More Thing：MTSS 作為 "認(rèn)知腳手架" 縮小模型差距

視頻生成：從「理解端的描述格式」到「生成端的控制接口」

隨著視頻生成模型發(fā)展至具備多分鏡、ID 注入保持、音畫(huà)同出等核心能力，如何高效地讓視頻生成模型具備這些能力，數(shù)據(jù)表達(dá)是最關(guān)鍵變量之一。

為了驗(yàn)證 MTSS 范式對(duì)視頻生成模型的有效性和高效性，團(tuán)隊(duì)以音畫(huà)同出的開(kāi)源模型 LTX-2 為基礎(chǔ)，進(jìn)行了適配訓(xùn)練驗(yàn)證。主要改動(dòng)包括：Shot-Aware Structured Attention（鏡頭感知結(jié)構(gòu)化注意力）和Identity Customization（身份定制模塊）。

效果分析：

多分鏡：MTSS 的 Shot 時(shí)間戳提供了有效的分鏡信號(hào)，輕量級(jí)的 Attention 模塊即可帶來(lái)強(qiáng)有力的約束。
ID 注入保持：MTSS 的分流設(shè)計(jì)與跨鏡頭 Reference Grounding 機(jī)制對(duì) ID 注入保持提升顯著。
音畫(huà)同出：MTSS Event Stream 中顯式的 “l(fā)ine” 字段和 “description” 字段為音頻生成提供了清晰的 "說(shuō)什么" 和 "怎么說(shuō)" 的指令，從根本上改變了音頻輸出的性質(zhì)，從近乎隨機(jī)的環(huán)境噪聲轉(zhuǎn)變?yōu)檎Z(yǔ)義正確的對(duì)話。

結(jié)語(yǔ)：從「流水賬」到「劇本時(shí)代」

長(zhǎng)期以來(lái)，視頻理解、視頻生成領(lǐng)域一直試圖讓模型通過(guò)海量的 "糙數(shù)據(jù)" 自己去領(lǐng)悟視頻規(guī)律。然而，MTSS 工作證明了：更接近數(shù)據(jù)本質(zhì)的表達(dá)范式能釋放出遠(yuǎn)超架構(gòu)微調(diào)的紅利。

MTSS 不僅是一種 Caption 數(shù)據(jù)格式，它更像是一個(gè)友好的 "認(rèn)知腳手架"，幫助人類和模型更輕易地理解視頻、生成視頻。

雖然我們?nèi)匀幻媾R視角劇烈變化時(shí)仍有角色身份維持的挑戰(zhàn)，但 MTSS 無(wú)疑為下一代可控、超長(zhǎng)、多鏡頭聯(lián)合音視頻生成大模型指明了一條極具潛力的數(shù)據(jù)工程道路。告別 "流水賬"，迎接 "劇本時(shí)代"，視頻大模型正在進(jìn)入更加專業(yè)化的工業(yè)級(jí)工作流。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.