網易首頁 > 網易號 > 正文申請入駐

NUS、牛津等聯合發布音視頻智能綜述：系統梳理大模型時代的AVI全景圖

2026-05-20 12:33:15　來源: 新智元

北京舉報

分享至

新智元報道

【新智元導讀】NUS等聯合發布音視頻智能綜述，系統梳理大模型時代AVI發展全貌，涵蓋感知、生成與交互三大主線，揭示從單模態到跨模態的演進路徑，并為未來研究與應用提供清晰方向。

最近，由新加坡國立大學（NUS）領銜，聯合牛津大學、多倫多大學、UTD、HKUST、QMUL、羅切斯特大學等近10家機構共同發布了「第一份站在大基礎模型視角下」對音視頻智能（Audio-Visual Intelligence, AVI）做系統梳理的綜述。

論文地址：https://arxiv.org/abs/2605.04045

代碼鏈接：https://github.com/JavisVerse/Awesome-AVI

目主頁：https://javisverse.github.io/

整篇論文不僅復盤了過去近十年里散落在 ASR、數字人 / 說話頭（talking head）、Foley（擬音）合成、視頻配音 / 音頻驅動視頻生成、音視頻問答（AVQA）、空間音頻、具身導航等十幾個子方向的工作，還把它們重新組織成理解世界（Understanding the World）/ 創造世界（Creating the World）/ 與世界交互（Interacting with the World）三條主線，更像是一份「音視頻版 GPT-4o / Sora」研發團隊的全景速查圖。

編程范式之后

「聽-看-說-動」一體化

論文從一條直觀的演化路徑切入：從L3-Net、Wav2Lip這類「對得上 / 唇形對齊」的早期 AV 工作，到 ImageBind、AudioLDM、MusicGen 的可擴展表示，再到 MMAudio、FoleyCrafter、JavisDiT 的跨模態生成與聯合音視頻生成，最后落到 GPT-4o、Veo-3、Seedance 2.0、HappyHorse、Qwen-Omni、OpenVLA 這一類同時聽、看、說、生成或行動的 omni / VLA 模型。

過去我們只讓模型「對得上音和畫」，現在的趨勢正在轉變——開發者更習慣于讓一個backbone同時干完感知、生成與交互。

隨著上下文窗口越來越長、工具調用與策略學習越來越成熟，這種范式正在悄悄改寫多模態系統的搭法。

當一個模型能直接聽清環境聲、看懂屏幕、說出自然回應、必要時還能動手時，「音視頻智能」的起點就不再是「做單一任務」，而是組織感知-推理-響應的閉環。

這類范式變化帶來的沖擊，比任何一次單點性能升級都更結構性。

論文開篇的演化樹，把這條變化路徑直接畫了出來。

統一任務體系

感知 / 生成 / 交互三條主線

論文首先搭建了AVI的整體任務藍圖。

它不僅比較了通用多模態大模型與音視頻專用模型的訓練側重，也梳理了每一類任務背后的語料：LibriSpeech、AudioSet、VGGSound、AVQA、SoundSpaces、AVSpeech、HDTF……這些資源共同構成了AVI模型的「音視世界知識」。

為了讓模型獲得跨模態理解能力，預訓練中大量使用對比對齊、masked / denoising重建、token級跨模態預測等任務，讓模型能處理跨幀、跨模態的復雜依賴。

同時，從CLIP / AudioCLIP到AV-HuBERT、ImageBind，再到當下主流的Decoder-only LLM + omni encoder與MoE架構，模型結構的演化也體現了對AV任務需求的不斷適配。

把這些內容拼起來，你會發現：所謂「視視頻智能」，并不是單點突破，而是整個訓練體系長期協同演進的結果。

數據集、基準與評價指標：從單段對齊到長視頻工程級

AVI 的評測體系一直比較碎片化。論文系統整理了音視頻理解、生成、交互、具身智能等方向的代表性數據集、benchmark 與評價指標，按粒度從片段級、單事件，到長視頻級和智能體級任務串成完整序列。

LibriSpeech、AudioSet、VGGSound、AVE、MUSIC、AVQA 仍是基礎指標，但它們只反映模型的「底層聽看能力」。

在更真實的多模態語境中，長視頻 AV 推理、跨場景的視頻配音 / 音頻驅動視頻生成一致性、多說話人對話理解、空間音頻推理、AV 具身任務才能真正體現模型是否「理解了世界」。

論文同時介紹了LLM-as-a-Judge、多智能體評測、執行級校驗、低延遲交互評測等方法，并指出FAD / FVD / CLIP / SyncNet這些代理指標在音畫同步與音頻不可替代性維度上的局限，使評估更接近實際部署場景。

這一部分很清楚地呈現出一個結論：模型能不能做好音視頻任務，取決于它能否處理真實場景的復雜依賴，而不僅僅是幾個單段benchmark上的小提升。

基礎技術：讓模型「既會聽看，也會生成和交互」

論文對AVI的基礎技術做了系統總結。

從音頻與視覺表示、tokenization、跨模態對齊與融合，到VAE / GAN / Diffusion / 自回歸（AR）/ Masked Autoregressive（MAR）五類生成范式，再到Encoder + LLM、LLM + Generator、統一感知生成模型（unified Encoder + LLM + Decoder）、Agentic系統與VLA模型，每一步都圍繞同一個目標：讓模型理解世界，而不是僅「看起來會處理音視頻」。

其中一個關鍵點是LLM-centric的設計選擇。單純把音頻特征拼到視覺模型上遠遠不夠，模型必須理解模態之間的依賴、時間結構和任務上下文，才能在真實場景中表現穩定。

在生成能力方面，擴散 / flow matching、masked autoregressive、以及diffusion + AR的混合架構，也成為提升性能的新趨勢。

強化學習與偏好對齊部分則系統比較了RLHF、DPO、reward shaping在AV生成上的表現。論文特別提到verifier與reward生態——通過更靠近「音頻不可替代性 / 物理合理性 / 長程一致性 / 音畫同步」的獎勵信號，讓模型基于真實任務效用學習正確性。

這是近兩年音視頻大模型質量躍遷最顯著的方向之一。

三條主線怎么落地：理解世界 → 創造世界 → 與世界交互

當模型以「統一backbone」身份參與音視頻流程時，AVI 的潛力被進一步放大。

論文從理解世界（音視頻感知、聲源定位、AVQA、跨模態檢索、推理）、創造世界（視頻配音、音頻驅動視頻生成、聯合音視頻生成、音畫編輯）、與世界交互（音視頻對話、omni-modal交互、具身智能與機器人）三條線切入，為每一步構建了對應的方法地圖與代表模型。

在理解這條主線里，模型不再是「只看視頻」或「只聽語音」，而是要在統一表示下做對齊、grounding與推理；AV-LLM的崛起讓long-form video understanding、AVQA等任務有了新的基線。

在生成這條主線里，論文指出當前最大的瓶頸不是單模態畫質或音質，而是聯合音視頻生成中的音畫同步、跨身份一致性與長時一致性。MovieGen、Veo-3、Seedance 2.0、JavisDiT，以及 HappyHorse 這類近期音視頻生成模型已經能從文本或多模態條件生成帶原生音軌的視頻，但跨場景物理合理性、跨語義身份一致性，以及局部、可控的音畫編輯，仍然是開放問題。

在交互這條主線里，從級聯式ASR + LLM + TTS，到speech-native LLM（Qwen-Audio、SALMONN），再到GPT-4o / Qwen-Omni這類原生 omni-modal 實時音視頻對話——模型從「被動執行單輪指令」走向「主動審視環境并實時響應」，這是一個完整的范式躍遷。

代碼 / 工具 / 行動在 AVI 中的新地位

論文也探討了AVI在更通用智能體生態中的新角色。

對很多智能體來說，音視頻不只是輸入或輸出物，更是一種用于表達環境狀態、長期記憶和行動反饋的通用通道。

這意味著未來的智能體體系，可能會越來越依賴以AV為核心能力的模型。

擅長音視頻的模型在規劃、工具使用、人機協作中具有天然優勢，也更容易成為智能體系統的底層能力模塊。

具身這條子線尤其值得關注：以SoundSpaces 一脈為起點的AV導航，疊加 OpenVLA / π0 / GR00T這類把語言、視覺、動作甚至環境聲音統一到一個策略里的方向，正在讓「聲音」重新成為機器人感知世界不可缺的一環。

安全治理：能力越強，風險越復雜

論文把音視頻大模型的安全風險拆成數據、模型與執行三個層面：包括訓練數據的版權、隱私與數據合規問題、生成內容的深偽與冒名、提示攻擊、多模態越獄、以及部署側實時音視頻流的濫用風險。

對應的治理手段包括數據審計、安全微調、偏好對齊、紅隊測試、深偽檢測、水印與可溯源、運行時沙箱等機制。

隨著AV模型越來越多地集成進社交、教育、醫療、機器人場景，這些安全治理能力正成為基礎設施的一部分。

應用正在加速落地：AIGC、數字人、XR、機器人

論文最后回到應用層面：從短視頻AIGC、配音與Foley（擬音）合成，到數字人、對話助手、AI教學、無障礙輔助、空間音頻與Metaverse、再到具身機器人與智慧城市，AVI已經開始進入大量真實場景的關鍵環節。

隨著omni模型與VLA框架不斷成熟，音視頻智能也正從「輔助工具」逐漸成為大模型基礎設施的一部分。

未來一段時間，音視頻大模型很可能繼續朝意圖驅動、閉環交互、原生音畫同步生成的方向演化，而它在通用智能體里的角色也會越來越重要。

未來六大研究軸

論文用一張路線圖把這件事講明白：前三階段已經把「對得上 / 感知 / 生成」的家底攢齊，當下站在交互式omni-modal與具身模型這條前沿線上，再往后兩站，是因果—上下文AVI和可驗證的agentic AVI。

圍繞這張路線圖，論文進一步把AVI接下來的研究路線總結成六條主軸，覆蓋音畫同步、因果事件grounding、空間音頻推理、長程上下文記憶、可控生成、安全治理、水印與數據合規等關鍵問題：

因果事件-聲源grounding：建模延遲、遮擋、畫外音、多源混合下的源級、事件級與因果對齊，把音畫同步推向因果可解釋層面；
AV世界模型：把音視頻當作幾何、材質、動力學、可供性的互補證據，并以空間音頻推理作為關鍵能力；
長程AV上下文記憶：構建流式 / 情景 / 語義多層、可選擇、可溯源的 AV 記憶，而不是簡單加長上下文；
因果AV干預與可控生成：讓生成與編輯支持對物體、聲音、身份、情緒、空間、時間的局部、因果且同步的干預；
Verifier與Reward生態：超越 FAD / FVD / CLIP / SyncNet 這類代理指標，發展面向 grounding、物理合理性、音頻不可替代性與任務效用的驗證器；
交互式與負責任AVI：在低延遲、隱私、版權、水印與數據合規等安全治理約束下，把AV模型變成可信賴的實時合作者。

這六條主軸和今天工業界正在做的「音視頻版GPT-4o / 音視頻版 Sora / 音視頻版Voyager」高度對應，也是論文對未來1–3年研究方向最具體的判斷。

這篇綜述長文將AVI的關鍵模塊按邏輯串聯起來：從演化時間線、任務體系、技術地基、三條主線、應用版圖、到未來六軸，勾勒出一張完整、系統、可實踐的音視頻大模型地圖。

無論你關注omni模型訓練、AV生成 / 編輯工具、AV智能體，還是想理解未來音視頻AI的演化方向，這篇文獻都值得完整讀一次！

編輯：LRST

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.