<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      賦予視頻生成「視覺思維鏈」:VChain顯式建模時空規劃與狀態演變

      0
      分享至



      當視頻生成模型在視覺保真度上不斷突破時,一個核心瓶頸正變得愈發清晰:模型是否真正理解了真實世界?能否推理出合理的演變過程?

      在具身智能、影視制作以及物理仿真等應用場景中,要求模型不僅要生成 “平滑的像素”,更要實現 “邏輯連貫的演化”。這種對物理規律與因果關系的建模能力,是當前基于大數據驅動的端到端生成模型面臨的長期挑戰。

      那么,我們能否將多模態大模型(MLLM)的推理能力,作為一種 “外腦” 注入到視頻生成過程中呢?

      來自南洋理工大學(NTU)的研究團隊在ACL 2026 (Findings)發表了VChain。這一框架試圖將大型多模態模型(如 GPT-4o)的視覺推理能力引入視頻生成,以提升視頻在邏輯與物理規律上的連貫性。



      • 論文: VChain: Chain-of-Visual-Thought for Reasoning in Video Generation
      • 作者:黃子琪 (Ziqi Huang), 于寧 (Ning Yu), Gordon Chen, 邱浩楠 (Haonan Qiu), Paul Debevec, 劉子緯 (Ziwei Liu)
      • 論文地址: https://arxiv.org/abs/2510.05094
      • 項目主頁: https://eyeline-labs.github.io/VChain

      背景

      視頻生成的 “常識缺失”

      現有的視頻生成模型往往表現出一種 “物理不及格” 的狀態:球可以反物理地滾動,羽毛可能比石頭下落得更快。原因在于,目前的模型擅長模仿 “樣子”(視覺模式),卻不懂 “道理”(物理因果)。

      雖然 GPT-4o 等多模態大模型在視覺推理上表現出色,但直接生成視頻成本極高。VChain 的核心思路是 “讓專業的人做專業的事”:引入一個在推理階段工作的框架,利用 LMM 進行邏輯推演,轉而 “指導” 視頻模型進行創作。



      為了解決這個問題,研究者們提出了VChain,一個在推理階段工作的框架,VChain 的核心思路是 “讓專業的人做專業的事”:利用 LMM 進行邏輯推演,轉而指導視頻模型進行內容創作。

      方法

      三步走的 VChain 框架 - “視覺思維鏈”

      VChain 的實現流程非常優雅,主要分為三個階段,全部在推理時完成,無需對視頻模型進行重新訓練,非常高效。



      1. 視覺思維推理 (Visual Thought Reasoning)

      面對 “將濃硫酸倒在木桌上” 這類指令,VChain 首先調用 LMM 進行 “頭腦風暴”,推演事件的因果鏈并生成關鍵圖像幀。這些幀被稱為 “視覺思維鏈 (Chain of Visual Thoughts)”,它將抽象邏輯轉化為具體的視覺步驟。

      這個過程是迭代的,LMM 會一步步地思考:“首先,一杯硫酸在桌子上方;然后,硫酸開始傾倒;接著,液體接觸到桌面;最后,桌面被腐蝕變黑。” 并為每一步生成對應的圖像。



      2. 推理時稀疏調優 (Sparse Inference-Time Visual-State Adaptation)

      有了這些包含邏輯關系的關鍵幀(視覺思維)后,VChain 并不會用它們來生成所有視頻幀。相反,它只在這些 “關鍵時刻” 對預訓練好的視頻生成器進行微調。

      具體來說,它將這些關鍵幀和對應的文本描述配對,作為稀疏的監督信號,通過 LoRA 高效地調整視頻生成模型的參數。這種方式只在幾個關鍵點上進行 “校準”,大大降低了計算開銷。

      3. 視頻采樣 (Video Sampling)

      經過稀疏調優后,視頻生成模型就領會了整個事件的 “大綱”。最后,VChain 將所有步驟的文本描述連接成一個完整的長提示,輸入給調優后的模型,從而生成一個連貫、流暢且符合邏輯的完整視頻。

      實驗效果

      從 “貌合神離” 到 “形神兼備”

      那么,VChain 的效果究竟如何呢?

      在定性對比中,我們可以看到,對于 “保齡球撞擊球瓶” 這個場景,現有模型生成的視頻中,球瓶幾乎不動或只是輕微抖動,完全沒有發生真實的碰撞。而經過提示增強后,雖然有了互動,但動態效果非常不自然,甚至出現了偽影。

      相比之下,如果給同樣的模型加上 VChain 框架,生成的視頻則完全符合物理規律:球以合理的力量撞擊球瓶,球瓶被擊倒的過程連貫且真實。物體的幾何形狀和材質在整個過程中都保持得很好。



      在定量評估中,VChain 在各項指標上也達到或超過了現有方法。在針對物理規律常識推理因果邏輯的專項測評中,VChain 顯著優于現有方法。



      研究者們還通過消融實驗證明了 VChain 每個組成部分的重要性。如果去掉 “視覺思維”,模型雖然知道要生成第一人稱視角的視頻,但無法捕捉到正確的 “接球” 視覺模式。如果去掉 “稀疏調優”,直接用關鍵幀進行插值,則會導致嚴重的圖像扭曲和偽影。只有將兩者結合,才能得到最連貫、最真實的結果。



      VChain 巧妙的地方在于它是一種 “即插即用” 的推理時框架,它沒有去大動干戈地訓練一個全新的視頻模型,也不依賴額外的數據,而是通過 “LMM” 賦能;這為未來多模態模型的協同工作提供了一個范例。

      深度思考

      視頻生成范式的 “推理革命”

      基于論文附錄的探討,VChain 展示了視頻推理與生成的兩種潛在趨勢:

      1. 從 “語義指引” 到 “具象視覺推理” 的跨越

      過去的研究多依賴 LLM 生成文字腳本或簡單的布局信息。然而,文本在傳達 “復雜的物理形變” 時存在表達盲區。

      VChain 證明了:對于視頻生成任務,推理過程也需要 “去符號化” 并直接進入視覺空間。 只有通過具備空間與材質約束的圖像錨點,才能有效修正生成器內心錯誤的物理先驗,實現邏輯與像素的統一。

      2. 推理者 - 渲染者 (Reasoner-Renderer)” 協作新范式

      VChain 提出了一種模塊化的協作路徑,將復雜的邏輯判斷(由 MLLM,也就是 Reasoner 來完成)與底層的視覺渲染(由擴散變壓器架構,或者更廣義的 Renderer 來完成)進行解耦。

      當視頻生成逐漸被視為 “世界模型” 的一種實現形式,我們不應只滿足于畫面的精美。只要多模態大模型的常識以及邏輯推理能力上限依然高于視覺生成模型,這種將推理能力引導至生成過程的范式,就為未來多模態模型的協同工作提供了一個可參考的方向。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      張本智和棄日赴德?德乒國家隊教練發聲,真相估計和你想的不一樣

      張本智和棄日赴德?德乒國家隊教練發聲,真相估計和你想的不一樣

      阿纂看事
      2026-05-20 12:33:01
      事態升級!川觀新聞怒批《監獄來的媽媽》,李敖的話終于有人信了

      事態升級!川觀新聞怒批《監獄來的媽媽》,李敖的話終于有人信了

      八斗小先生
      2026-05-20 10:49:17
      俄版052D已經造到第九艘,火力比052C還猛,這就是不買052D的理由

      俄版052D已經造到第九艘,火力比052C還猛,這就是不買052D的理由

      鋒芒點兵
      2026-05-19 17:49:51
      羅永浩爆料:華為余承東不講誠信,借收購名義當面挖我的首席研發和產品

      羅永浩爆料:華為余承東不講誠信,借收購名義當面挖我的首席研發和產品

      爆角追蹤
      2026-05-19 12:38:40
      壽司郎回應“盤子10抽10臟”:已按監管部門要求整改完畢

      壽司郎回應“盤子10抽10臟”:已按監管部門要求整改完畢

      南方都市報
      2026-05-20 16:22:07
      那一腳,踹飛9萬塊還搭上終身禁入,巨嬰憑啥讓全體國人買單?

      那一腳,踹飛9萬塊還搭上終身禁入,巨嬰憑啥讓全體國人買單?

      糖逗在娛樂
      2026-05-19 15:05:35
      關注:2026是中國青年就業最難的一年,沒有之一!

      關注:2026是中國青年就業最難的一年,沒有之一!

      葉初七
      2026-05-20 12:06:51
      北京協和專家:2塊錢的維生素B12,是失眠的頂尖藥,便宜又管用!

      北京協和專家:2塊錢的維生素B12,是失眠的頂尖藥,便宜又管用!

      健康科普365
      2026-05-19 09:25:22
      回顧:孫小果被執行死刑后,前女友曝光其生活習慣,讓人感到后怕

      回顧:孫小果被執行死刑后,前女友曝光其生活習慣,讓人感到后怕

      健身狂人
      2026-05-20 10:46:40
      危險!美國,大拋售!

      危險!美國,大拋售!

      財經要參
      2026-05-20 12:00:03
      黃仁勛混血女兒下巴神似動畫人物,引發熱議

      黃仁勛混血女兒下巴神似動畫人物,引發熱議

      阿廢冷眼觀察所
      2026-05-20 09:30:06
      為何是1976年?三位開國偉人,為何在同年告別我們?

      為何是1976年?三位開國偉人,為何在同年告別我們?

      歷史人文2
      2026-05-19 22:11:51
      再爆!樊思睿背景被扒,難怪這么囂張,更可怕的還在后面

      再爆!樊思睿背景被扒,難怪這么囂張,更可怕的還在后面

      金哥說新能源車
      2026-05-20 12:08:56
      黃奇帆再預測的未來房價:80萬的房子,到2030年還能值多少錢?

      黃奇帆再預測的未來房價:80萬的房子,到2030年還能值多少錢?

      專業聊房君
      2026-05-20 10:59:04
      霸州x華為:立一個存力支點,撬動華北平原的數據富礦

      霸州x華為:立一個存力支點,撬動華北平原的數據富礦

      腦極體
      2026-04-30 12:15:24
      母貓在交配之后為何會滿地打滾,攻擊公貓?

      母貓在交配之后為何會滿地打滾,攻擊公貓?

      宇宙時空
      2026-05-19 15:25:08
      神舟二十三號乘組確定,第四批次女航天員或首亮相,執行全新任務

      神舟二十三號乘組確定,第四批次女航天員或首亮相,執行全新任務

      科學黑洞v
      2026-05-19 20:26:55
      湖南20歲大三女生被母親安排,嫁給26歲環衛工人,男方給10.8萬彩禮后還出后續學費,婚后僅兩個月,母親要求離婚,女生拒絕了

      湖南20歲大三女生被母親安排,嫁給26歲環衛工人,男方給10.8萬彩禮后還出后續學費,婚后僅兩個月,母親要求離婚,女生拒絕了

      黎兜兜
      2026-05-20 11:11:48
      4年3億美元超級合同遭文班亞馬拒絕,他的野心早已寫在臉上

      4年3億美元超級合同遭文班亞馬拒絕,他的野心早已寫在臉上

      郝小小看體育
      2026-05-15 06:33:32
      曼聯哭暈!穆里尼奧上任皇馬就反戈!直接斷了紅魔的救命稻草

      曼聯哭暈!穆里尼奧上任皇馬就反戈!直接斷了紅魔的救命稻草

      瀾歸序
      2026-05-20 06:23:20
      2026-05-20 18:23:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      13045文章數 142651關注度
      往期回顧 全部

      科技要聞

      一文看懂谷歌I/O2026:谷歌打響智能體大戰

      頭條要聞

      捷克總理重申政府將堅定奉行一個中國政策 外交部表態

      頭條要聞

      捷克總理重申政府將堅定奉行一個中國政策 外交部表態

      體育要聞

      不再美麗的阿森納,終于成為英超冠軍

      娛樂要聞

      王菲“沒事兒”,成年人學不來的松弛

      財經要聞

      白酒榜|汾酒營收凈利雙增 口子窖"造富"

      汽車要聞

      煥新極氪009上市41.38萬起 齊家版讓MPV回歸家庭

      態度原創

      藝術
      數碼
      教育
      公開課
      軍事航空

      藝術要聞

      18幅 玫瑰花與女子畫作

      數碼要聞

      米粉狂喜!佳能 61 款打印機全面接入米家,小米生態再添硬核盟友

      教育要聞

      “見過最廉價的兜底”,一份趁熱吃的山姆烤雞,讓家長被全網群嘲

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      俄媒盛贊中國軍人:身姿挺拔 站如松柏

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 嫩草研究院久久久精品| 一区二区三区国产美女在线播放| 亚洲aⅴ综合色区无码一区| 精品激情视频一区二区三区| 日韩色导航| 门国产乱子视频观看| 亚洲夜夜性无码国产盗摄| 成人午夜国产内射主播| 国产999精品2卡3卡4卡| 手机看片日韩| 蜜臀久久精精品久久久久久噜噜| 中文有无人妻vs无码人妻激烈| 免费观看一级欧美大| 国产精品爽爽久久久久久无码| 中文亚洲欧美日韩无线码| 亚洲成熟丰满熟妇高潮xxxxx| 亚洲精品乱码久久久久| 国产乱码精品一区二区三区中文| 非产精品二区| 91精品久久久久含羞草| 免费人成网站视频在线观看国内| 亚洲一区二区不卡av| 日韩欧美一级特黄大片| 国产精品久线在线播放| 亚洲aⅴ无码专区在线观看| 国产精品v欧美精品v日韩精品 | 久久精品国产77777蜜臀| 无码无遮挡刺激喷水视频| 午夜福利一区| 高清无码爆乳潮喷在线观看| 日韩乱码人妻无码中文字幕视频 | 国产精品视频公开费视频| 欧洲无码一区二区三区在线观看| 亚洲精品国产精品乱码视色| 精品人无码一区二区三区| 狠狠插影院| 美女内射毛片在线看3d| 欧美精品国产制服第一页| 538porm在线看国产亚洲| 成年免费视频黄网站zxgk| 国产香蕉尹人综合在线观|