<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      AI「看不懂」、「做不好」視頻的問(wèn)題,混元用「MTSS」解決了

      0
      分享至



      導(dǎo)讀:騰訊混元團(tuán)隊(duì)提出了 Multi-Stream Scene Script(MTSS),一種全新的視頻描述范式 —— 將傳統(tǒng)的 "一段話描述整個(gè)視頻" 升級(jí)為 "多流結(jié)構(gòu)化劇本",通過(guò) Stream Factorization 和 Relational Grounding 兩大核心原則,讓視頻描述既忠實(shí)又可擴(kuò)展,在視頻理解和生成任務(wù)中均取得顯著提升。



      • 論文標(biāo)題:Script-a-Video: Deep Structured Audio-visual Captions via Factorized Streams and Relational Grounding
      • 論文鏈接:https://arxiv.org/abs/2604.11244

      多分鏡、ID 保持、音畫(huà)同出…… 當(dāng)視頻生成模型開(kāi)始具備這些核心能力時(shí),一個(gè)容易被忽略的瓶頸開(kāi)始浮出水面:你拿什么來(lái)描述一段視頻,才能獲得更好的效果?

      當(dāng)前主流的做法,是把視覺(jué)、聽(tīng)覺(jué)、人物、場(chǎng)景、鏡頭運(yùn)動(dòng)等所有信息,全部揉進(jìn)一段密密麻麻的自然語(yǔ)言段落里 —— 這就是所謂的 Monolithic Caption,我們姑且叫它「流水賬」式描述。

      這種寫(xiě)法的問(wèn)題,其實(shí)和寫(xiě)劇本一樣直觀:把演員表、分鏡表、音效表全寫(xiě)在一篇散文里,導(dǎo)演沒(méi)法用,演員看不懂,后期更沒(méi)法改。

      那有沒(méi)有可能,給視頻寫(xiě)一份真正的、更高效的「結(jié)構(gòu)化劇本」?

      騰訊混元團(tuán)隊(duì)給出的答案是:MTSS——Multi-Stream Scene Script。



      「流水賬」到底差在哪?

      三個(gè)繞不開(kāi)的問(wèn)題

      要理解 MTSS 為什么值得關(guān)注,得先看看傳統(tǒng) Monolithic Caption 在實(shí)際應(yīng)用中到底碰到了什么墻。

      • 語(yǔ)義冗余與歧義。 同一角色在不同鏡頭中被反復(fù)描述,容易產(chǎn)生不一致的身份引用。一段話里出現(xiàn)三次 "穿西裝的男人",到底是不是同一個(gè)人?模型不確定,生成出來(lái)也就容易串。
      • 可擴(kuò)展性差。 想改一個(gè)局部細(xì)節(jié) —— 比如換個(gè)鏡頭運(yùn)動(dòng)、加一段音效 —— 可能需要重寫(xiě)整段描述才能保持?jǐn)⑹逻B貫性。牽一發(fā)動(dòng)全身,效率極低。
      • 對(duì)小模型不友好。 密集交織的信息增加了認(rèn)知負(fù)擔(dān),小參數(shù)模型很難從中有效學(xué)習(xí)。大模型或許還能湊合理解,換成 7B 級(jí)別的開(kāi)源模型,表現(xiàn)就斷崖式下跌。

      這些不是理論上的困難 —— 當(dāng)你想要實(shí)現(xiàn)多分鏡生成、跨鏡頭身份保持、音畫(huà)同出時(shí),「流水賬」就成了最大的瓶頸。

      不寫(xiě)流水賬,改寫(xiě)分鏡劇本:

      「MTSS」怎么設(shè)計(jì)的?

      MTSS 的核心思想非常直觀:不寫(xiě)流水賬,改寫(xiě) JSON 格式的分鏡頭劇本。它的兩大核心設(shè)計(jì)原則:Stream Factorization 與 Relational Grounding。



      Stream Factorization:把一段視頻拆成四條并行的信息流

      MTSS 將復(fù)雜的音視頻動(dòng)態(tài)剝離開(kāi)來(lái),變成四個(gè)專門(mén)的、并行的信息流,并互相引用,實(shí)現(xiàn)了對(duì)視頻信息更本質(zhì)的表達(dá)方式:Reference Stream(資產(chǎn)信息)—— 特征錨點(diǎn)核心;Event Stream(事件信息)—— 發(fā)生了什么;Shot Stream(鏡頭信息)—— 如何呈現(xiàn);Global Stream(全局信息)—— 全局信息

      Relational Grounding:讓四條流 "活" 起來(lái)

      僅僅分解是不夠的 —— 孤立的信息流無(wú)法形成連貫的腳本。MTSS 通過(guò) Relational Grounding 在兩個(gè)維度上重新建立聯(lián)系:身份錨定實(shí)現(xiàn)實(shí)體全局引用,時(shí)間錨定實(shí)現(xiàn)多軌道并行對(duì)齊

      這樣一來(lái),修改任何一條流中的局部信息(如改變一個(gè)角色的臺(tái)詞),不會(huì)影響其他流的內(nèi)容,真正實(shí)現(xiàn)了「局部編輯,全局一致」。

      與 Monolithic Caption 的效果對(duì)比

      與傳統(tǒng) Monolithic Caption 相比,MTSS 具備以下核心優(yōu)勢(shì):

      • 符合視頻數(shù)據(jù)本質(zhì)形式:解耦 身份(Who)、事件(What)、呈現(xiàn)(How)等,并彼此精準(zhǔn)關(guān)聯(lián)。
      • 全局一致性:全局身份信息統(tǒng)一管理與引用,避免反復(fù)的冗余描述帶來(lái)誤差。
      • 易擴(kuò)展、易理解:從時(shí)間和空間對(duì)視頻進(jìn)行結(jié)構(gòu)化拆解,降低理解難度,實(shí)現(xiàn)局部編輯。
      • 專業(yè)剪輯技巧表達(dá):支持 ReactionShot("說(shuō)話人 - 聽(tīng)眾" 模式)、L-Cut(聲音延續(xù))、J-Cut(聲音先行)等專業(yè)剪輯技巧。



      理解與生成兩手抓:

      MTSS 到底有多能打?

      說(shuō)一千道一萬(wàn),不如數(shù)據(jù)說(shuō)話。針對(duì) MTSS 范式設(shè)計(jì)的有效性驗(yàn)證,團(tuán)隊(duì)在視頻理解和視頻生成兩個(gè)賽道上都進(jìn)行了詳盡的實(shí)驗(yàn)和評(píng)估。

      視頻理解:格式一換,效果就來(lái)

      在實(shí)驗(yàn)設(shè)計(jì)上,團(tuán)隊(duì)同時(shí)評(píng)估了 Zero-shot Prompting(直接讓模型輸出 MTSS 格式)和 Supervised Fine-tuning(在 MTSS 數(shù)據(jù)上微調(diào))兩種使用方式,從而將「格式本身的優(yōu)勢(shì)」和「訓(xùn)練帶來(lái)的優(yōu)勢(shì)」進(jìn)行了有效分離。

      • 遵循 MTSS 范式,Zero-shot Prompting 即可帶來(lái)普遍提升
      • MTSS 范式設(shè)計(jì)顯著降低認(rèn)知負(fù)擔(dān),使得小模型效果提升更加顯著
      • 適當(dāng)?shù)?SFT 能夠釋放 MTSS 范式設(shè)計(jì)的最大潛力
      • MTSS 對(duì)推理的提升幅度遠(yuǎn)超對(duì)描述任務(wù)本身的提升
      • One More Thing:MTSS 作為 "認(rèn)知腳手架" 縮小模型差距





      視頻生成:從「理解端的描述格式」到「生成端的控制接口」

      隨著視頻生成模型發(fā)展至具備多分鏡、ID 注入保持、音畫(huà)同出等核心能力,如何高效地讓視頻生成模型具備這些能力,數(shù)據(jù)表達(dá)是最關(guān)鍵變量之一。

      為了驗(yàn)證 MTSS 范式對(duì)視頻生成模型的有效性和高效性,團(tuán)隊(duì)以音畫(huà)同出的開(kāi)源模型 LTX-2 為基礎(chǔ),進(jìn)行了適配訓(xùn)練驗(yàn)證。主要改動(dòng)包括:Shot-Aware Structured Attention(鏡頭感知結(jié)構(gòu)化注意力)Identity Customization(身份定制模塊)



      效果分析:

      • 多分鏡:MTSS 的 Shot 時(shí)間戳提供了有效的分鏡信號(hào),輕量級(jí)的 Attention 模塊即可帶來(lái)強(qiáng)有力的約束。
      • ID 注入保持:MTSS 的分流設(shè)計(jì)與跨鏡頭 Reference Grounding 機(jī)制對(duì) ID 注入保持 提升顯著。
      • 音畫(huà)同出:MTSS Event Stream 中顯式的 “l(fā)ine” 字段和 “description” 字段為音頻生成提供了清晰的 "說(shuō)什么" 和 "怎么說(shuō)" 的指令,從根本上改變了音頻輸出的性質(zhì),從近乎隨機(jī)的環(huán)境噪聲轉(zhuǎn)變?yōu)檎Z(yǔ)義正確的對(duì)話。

      結(jié)語(yǔ):從「流水賬」到「劇本時(shí)代」

      長(zhǎng)期以來(lái),視頻理解、視頻生成領(lǐng)域一直試圖讓模型通過(guò)海量的 "糙數(shù)據(jù)" 自己去領(lǐng)悟視頻規(guī)律。然而,MTSS 工作證明了:更接近數(shù)據(jù)本質(zhì)的表達(dá)范式能釋放出遠(yuǎn)超架構(gòu)微調(diào)的紅利。

      MTSS 不僅是一種 Caption 數(shù)據(jù)格式,它更像是一個(gè)友好的 "認(rèn)知腳手架",幫助人類和模型更輕易地理解視頻、生成視頻。

      雖然我們?nèi)匀幻媾R視角劇烈變化時(shí)仍有角色身份維持的挑戰(zhàn),但 MTSS 無(wú)疑為下一代可控、超長(zhǎng)、多鏡頭聯(lián)合音視頻生成大模型指明了一條極具潛力的數(shù)據(jù)工程道路。告別 "流水賬",迎接 "劇本時(shí)代",視頻大模型正在進(jìn)入更加專業(yè)化的工業(yè)級(jí)工作流。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      2-1!鄭欽文拒絕爆冷,0-3落后卻強(qiáng)勢(shì)逆轉(zhuǎn),原因曝光,沖擊冠軍吧

      2-1!鄭欽文拒絕爆冷,0-3落后卻強(qiáng)勢(shì)逆轉(zhuǎn),原因曝光,沖擊冠軍吧

      體育就你秀
      2026-05-05 21:40:23
      最高190億!600673,簽署算力服務(wù)大單

      最高190億!600673,簽署算力服務(wù)大單

      中國(guó)基金報(bào)
      2026-05-05 20:04:35
      瀏陽(yáng)煙花往事

      瀏陽(yáng)煙花往事

      城市進(jìn)化論
      2026-05-05 12:27:51
      國(guó)乒橫零封澳洲,王皓再遭質(zhì)疑:向鵬不上場(chǎng),就算奪冠他也沒(méi)金牌

      國(guó)乒橫零封澳洲,王皓再遭質(zhì)疑:向鵬不上場(chǎng),就算奪冠他也沒(méi)金牌

      云舟史策
      2026-05-05 22:12:33
      太絕了!榮耀自帶功能碾壓全網(wǎng)不用瞎下載

      太絕了!榮耀自帶功能碾壓全網(wǎng)不用瞎下載

      輝哥說(shuō)動(dòng)漫
      2026-05-06 06:22:55
      不是文班 不是福克斯!馬刺爆冷輸球揪出水貨 33歲老將今夏恐退役

      不是文班 不是福克斯!馬刺爆冷輸球揪出水貨 33歲老將今夏恐退役

      籃球圈里的那些事
      2026-05-05 17:15:20
      莫氏雞煲上線湯料包5分鐘售罄4000多份,累計(jì)賣(mài)出4萬(wàn)多份,總銷售額破160萬(wàn)元,記者實(shí)測(cè):1分鐘搶到兩包

      莫氏雞煲上線湯料包5分鐘售罄4000多份,累計(jì)賣(mài)出4萬(wàn)多份,總銷售額破160萬(wàn)元,記者實(shí)測(cè):1分鐘搶到兩包

      極目新聞
      2026-05-04 09:46:46
      文班:我消耗了太多體力 做了一些對(duì)球隊(duì)并沒(méi)有太大幫助的事情

      文班:我消耗了太多體力 做了一些對(duì)球隊(duì)并沒(méi)有太大幫助的事情

      北青網(wǎng)-北京青年報(bào)
      2026-05-05 19:44:31
      技術(shù)越牛,死得越快?一個(gè)蘇州新材料老板的深夜困惑

      技術(shù)越牛,死得越快?一個(gè)蘇州新材料老板的深夜困惑

      胡華成
      2026-04-05 18:18:14
      日本部署消耗性超廉價(jià)紙板無(wú)人機(jī):售價(jià)2000美元 可在5到10分鐘內(nèi)組裝完成

      日本部署消耗性超廉價(jià)紙板無(wú)人機(jī):售價(jià)2000美元 可在5到10分鐘內(nèi)組裝完成

      快科技
      2026-05-05 10:29:05
      恒大退薪名單實(shí)錘!200多名高管排隊(duì)退錢(qián)!任澤平退款731萬(wàn)?

      恒大退薪名單實(shí)錘!200多名高管排隊(duì)退錢(qián)!任澤平退款731萬(wàn)?

      巢客HOME
      2026-05-05 09:20:10
      社保基數(shù)嚴(yán)管來(lái)了!按最低交社保的公司,該慌了!

      社保基數(shù)嚴(yán)管來(lái)了!按最低交社保的公司,該慌了!

      職場(chǎng)資深秘書(shū)
      2026-05-05 20:46:29
      張若昀為女兒慶生,穿卡通T恤,蹲地吹氣球,網(wǎng)友:父愛(ài)溢出屏幕

      張若昀為女兒慶生,穿卡通T恤,蹲地吹氣球,網(wǎng)友:父愛(ài)溢出屏幕

      韓小娛
      2026-05-04 16:45:58
      萬(wàn)人深夜“組團(tuán)攻打”四姑娘山導(dǎo)致“堵人”?向?qū)В荷锨в慰土璩?點(diǎn)起床,登頂看日出

      萬(wàn)人深夜“組團(tuán)攻打”四姑娘山導(dǎo)致“堵人”?向?qū)В荷锨в慰土璩?點(diǎn)起床,登頂看日出

      極目新聞
      2026-05-05 12:06:55
      麥迪:湖人想要贏下雷霆必須從詹姆斯開(kāi)始,他們無(wú)法靠體系抗衡雷霆

      麥迪:湖人想要贏下雷霆必須從詹姆斯開(kāi)始,他們無(wú)法靠體系抗衡雷霆

      銜春信
      2026-05-06 07:05:39
      當(dāng)年鐵道部有多牛?拆分出2個(gè)正部級(jí),還養(yǎng)出3家世界500強(qiáng)

      當(dāng)年鐵道部有多牛?拆分出2個(gè)正部級(jí),還養(yǎng)出3家世界500強(qiáng)

      小影的娛樂(lè)
      2026-05-05 20:41:17
      賴清德已登機(jī)返臺(tái),路線的選擇出人意料,臺(tái)媒:比想象中還要狼狽

      賴清德已登機(jī)返臺(tái),路線的選擇出人意料,臺(tái)媒:比想象中還要狼狽

      晨光蘇醒a(bǔ)
      2026-05-05 10:59:03
      小刀又要奉子成婚了

      小刀又要奉子成婚了

      毒舌扒姨太
      2026-05-05 22:31:14
      新款不知火舞性感手辦推出!前凸后翹難以抵擋!

      新款不知火舞性感手辦推出!前凸后翹難以抵擋!

      游民星空
      2026-05-03 23:45:02
      特朗普:如果伊朗在波斯灣 或霍爾木茲海峽附近向美國(guó)船只開(kāi)火 將被“從地球表面抹去”

      特朗普:如果伊朗在波斯灣 或霍爾木茲海峽附近向美國(guó)船只開(kāi)火 將被“從地球表面抹去”

      每日經(jīng)濟(jì)新聞
      2026-05-05 09:25:33
      2026-05-06 07:35:00
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12919文章數(shù) 142642關(guān)注度
      往期回顧 全部

      科技要聞

      傳蘋(píng)果考慮讓英特爾、三星代工設(shè)備處理器

      頭條要聞

      媒體:中國(guó)史無(wú)前例下"阻斷禁令" 美媒迅速捕捉到信號(hào)

      頭條要聞

      媒體:中國(guó)史無(wú)前例下"阻斷禁令" 美媒迅速捕捉到信號(hào)

      體育要聞

      全世界都等著看他笑話,他帶國(guó)米拿下冠軍

      娛樂(lè)要聞

      內(nèi)娛真情誼!楊紫為謝娜演唱會(huì)送花籃

      財(cái)經(jīng)要聞

      瀏陽(yáng)煙花往事

      汽車要聞

      同比大漲190% 方程豹4月銷量29138臺(tái)

      態(tài)度原創(chuàng)

      教育
      本地
      家居
      數(shù)碼
      公開(kāi)課

      教育要聞

      富人才不會(huì)把女兒養(yǎng)這么胖!家長(zhǎng)曬女兒喝60元礦泉水,被網(wǎng)友群嘲

      本地新聞

      用青花瓷的方式,打開(kāi)西溪濕地

      家居要聞

      靈動(dòng)實(shí)用 生活藝術(shù)場(chǎng)

      數(shù)碼要聞

      微星“MAG 276QRDY54”27英寸顯示器發(fā)售,6299元

      公開(kāi)課

      李玫瑾:為什么性格比能力更重要?

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: www.九九热| 亚洲激情av一区二区三区| 多p在线观看| 图片区小说区视频区综合| 精品久久久久久久免费影院大全| 国产乱码字幕精品高清av| 亚洲日韩av无码一区二区三区人| 欧美老人巨大xxxx做受视频| 四虎成人精品无码永久在线| 亚洲精品无码mⅴ在线观看| 国产人免费人成免费视频| 日韩欧美视频一区二区三区| 欧美成人视频在线| 99久久精品免费看国产电影| 极品无码国模国产在线观看| 一区二区高清国产视频| 亚洲综合另类欧美久久久精品| 偷拍福利视频一区二区三区| 久久久无码精品国产一区| 国产在线观看免费观看不卡| 极品粉嫩福利午夜在线播放| 亚洲日韩欧美一区二区三区| 久久无码人妻一区二区三区午夜| 欧亚AV| 欧美大片va欧美在线播放| 在线看国产丝袜精品| 国产精品进线69影院| 亚洲成色综合网站在线| 欧美日韩精品在线播放| 色偷偷88888欧美精品久久久| 日韩av中文| 麻豆av无码蜜臀av| 一区二区三区四区黄色网| 亚洲无码丝袜| 国产人妻人伦精品一区二区| 午夜性爱福利| 全部免费特黄特色大片视频| 乱女乱妇熟女熟妇综合网| 日日噜噜噜夜夜爽爽狠狠| 在线播放网址| 久久久99久久久国产精品|