<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      NUS、牛津等聯合發布音視頻智能綜述:系統梳理大模型時代的AVI全景圖

      0
      分享至


      新智元報道


      【新智元導讀】NUS等聯合發布音視頻智能綜述,系統梳理大模型時代AVI發展全貌,涵蓋感知、生成與交互三大主線,揭示從單模態到跨模態的演進路徑,并為未來研究與應用提供清晰方向。

      最近,由新加坡國立大學(NUS)領銜,聯合牛津大學、多倫多大學、UTD、HKUST、QMUL、羅切斯特大學等近10家機構共同發布了「第一份站在大基礎模型視角下」對音視頻智能(Audio-Visual Intelligence, AVI)做系統梳理的綜述。


      論文地址:https://arxiv.org/abs/2605.04045

      代碼鏈接:https://github.com/JavisVerse/Awesome-AVI

      目主頁:https://javisverse.github.io/

      整篇論文不僅復盤了過去近十年里散落在 ASR、數字人 / 說話頭(talking head)、Foley(擬音)合成、視頻配音 / 音頻驅動視頻生成、音視頻問答(AVQA)、空間音頻、具身導航等十幾個子方向的工作,還把它們重新組織成理解世界(Understanding the World)/ 創造世界(Creating the World)/ 與世界交互(Interacting with the World)三條主線,更像是一份「音視頻版 GPT-4o / Sora」研發團隊的全景速查圖。


      編程范式之后

      「聽-看-說-動」一體化

      論文從一條直觀的演化路徑切入:從L3-Net、Wav2Lip這類「對得上 / 唇形對齊」的早期 AV 工作,到 ImageBind、AudioLDM、MusicGen 的可擴展表示,再到 MMAudio、FoleyCrafter、JavisDiT 的跨模態生成與聯合音視頻生成,最后落到 GPT-4o、Veo-3、Seedance 2.0、HappyHorse、Qwen-Omni、OpenVLA 這一類同時聽、看、說、生成或行動的 omni / VLA 模型。

      過去我們只讓模型「對得上音和畫」,現在的趨勢正在轉變——開發者更習慣于讓一個backbone同時干完感知、生成與交互。

      隨著上下文窗口越來越長、工具調用與策略學習越來越成熟,這種范式正在悄悄改寫多模態系統的搭法。

      當一個模型能直接聽清環境聲、看懂屏幕、說出自然回應、必要時還能動手時,「音視頻智能」的起點就不再是「做單一任務」,而是組織感知-推理-響應的閉環。

      這類范式變化帶來的沖擊,比任何一次單點性能升級都更結構性。

      論文開篇的演化樹,把這條變化路徑直接畫了出來。


      統一任務體系

      感知 / 生成 / 交互三條主線

      論文首先搭建了AVI的整體任務藍圖。

      它不僅比較了通用多模態大模型與音視頻專用模型的訓練側重,也梳理了每一類任務背后的語料:LibriSpeech、AudioSet、VGGSound、AVQA、SoundSpaces、AVSpeech、HDTF……這些資源共同構成了AVI模型的「音視世界知識」。

      為了讓模型獲得跨模態理解能力,預訓練中大量使用對比對齊、masked / denoising重建、token級跨模態預測等任務,讓模型能處理跨幀、跨模態的復雜依賴。

      同時,從CLIP / AudioCLIP到AV-HuBERT、ImageBind,再到當下主流的Decoder-only LLM + omni encoder與MoE架構,模型結構的演化也體現了對AV任務需求的不斷適配。

      把這些內容拼起來,你會發現:所謂「視視頻智能」,并不是單點突破,而是整個訓練體系長期協同演進的結果。


      數據集、基準與評價指標:從單段對齊到長視頻工程級

      AVI 的評測體系一直比較碎片化。論文系統整理了音視頻理解、生成、交互、具身智能等方向的代表性數據集、benchmark 與評價指標,按粒度從片段級、單事件,到長視頻級和智能體級任務串成完整序列。

      LibriSpeech、AudioSet、VGGSound、AVE、MUSIC、AVQA 仍是基礎指標,但它們只反映模型的「底層聽看能力」。

      在更真實的多模態語境中,長視頻 AV 推理、跨場景的視頻配音 / 音頻驅動視頻生成一致性、多說話人對話理解、空間音頻推理、AV 具身任務才能真正體現模型是否「理解了世界」。

      論文同時介紹了LLM-as-a-Judge、多智能體評測、執行級校驗、低延遲交互評測等方法,并指出FAD / FVD / CLIP / SyncNet這些代理指標在音畫同步與音頻不可替代性維度上的局限,使評估更接近實際部署場景。

      這一部分很清楚地呈現出一個結論:模型能不能做好音視頻任務,取決于它能否處理真實場景的復雜依賴,而不僅僅是幾個單段benchmark上的小提升。

      基礎技術:讓模型「既會聽看,也會生成和交互」

      論文對AVI的基礎技術做了系統總結。

      從音頻與視覺表示、tokenization、跨模態對齊與融合,到VAE / GAN / Diffusion / 自回歸(AR)/ Masked Autoregressive(MAR)五類生成范式,再到Encoder + LLM、LLM + Generator、統一感知生成模型(unified Encoder + LLM + Decoder)、Agentic系統與VLA模型,每一步都圍繞同一個目標:讓模型理解世界,而不是僅「看起來會處理音視頻」。


      其中一個關鍵點是LLM-centric的設計選擇。單純把音頻特征拼到視覺模型上遠遠不夠,模型必須理解模態之間的依賴、時間結構和任務上下文,才能在真實場景中表現穩定。

      在生成能力方面,擴散 / flow matching、masked autoregressive、以及diffusion + AR的混合架構,也成為提升性能的新趨勢。

      強化學習與偏好對齊部分則系統比較了RLHF、DPO、reward shaping在AV生成上的表現。論文特別提到verifier與reward生態——通過更靠近「音頻不可替代性 / 物理合理性 / 長程一致性 / 音畫同步」的獎勵信號,讓模型基于真實任務效用學習正確性。

      這是近兩年音視頻大模型質量躍遷最顯著的方向之一。

      三條主線怎么落地:理解世界 → 創造世界 → 與世界交互

      當模型以「統一backbone」身份參與音視頻流程時,AVI 的潛力被進一步放大。

      論文從理解世界(音視頻感知、聲源定位、AVQA、跨模態檢索、推理)、創造世界(視頻配音、音頻驅動視頻生成、聯合音視頻生成、音畫編輯)、與世界交互(音視頻對話、omni-modal交互、具身智能與機器人)三條線切入,為每一步構建了對應的方法地圖與代表模型。


      在理解這條主線里,模型不再是「只看視頻」或「只聽語音」,而是要在統一表示下做對齊、grounding與推理;AV-LLM的崛起讓long-form video understanding、AVQA等任務有了新的基線。


      在生成這條主線里,論文指出當前最大的瓶頸不是單模態畫質或音質,而是聯合音視頻生成中的音畫同步、跨身份一致性與長時一致性。MovieGen、Veo-3、Seedance 2.0、JavisDiT,以及 HappyHorse 這類近期音視頻生成模型已經能從文本或多模態條件生成帶原生音軌的視頻,但跨場景物理合理性、跨語義身份一致性,以及局部、可控的音畫編輯,仍然是開放問題。


      在交互這條主線里,從級聯式ASR + LLM + TTS,到speech-native LLM(Qwen-Audio、SALMONN),再到GPT-4o / Qwen-Omni這類原生 omni-modal 實時音視頻對話——模型從「被動執行單輪指令」走向「主動審視環境并實時響應」,這是一個完整的范式躍遷。

      代碼 / 工具 / 行動在 AVI 中的新地位

      論文也探討了AVI在更通用智能體生態中的新角色。

      對很多智能體來說,音視頻不只是輸入或輸出物,更是一種用于表達環境狀態、長期記憶和行動反饋的通用通道。

      這意味著未來的智能體體系,可能會越來越依賴以AV為核心能力的模型。

      擅長音視頻的模型在規劃、工具使用、人機協作中具有天然優勢,也更容易成為智能體系統的底層能力模塊。


      具身這條子線尤其值得關注:以SoundSpaces 一脈為起點的AV導航,疊加 OpenVLA / π0 / GR00T這類把語言、視覺、動作甚至環境聲音統一到一個策略里的方向,正在讓「聲音」重新成為機器人感知世界不可缺的一環。

      安全治理:能力越強,風險越復雜

      論文把音視頻大模型的安全風險拆成數據、模型與執行三個層面:包括訓練數據的版權、隱私與數據合規問題、生成內容的深偽與冒名、提示攻擊、多模態越獄、以及部署側實時音視頻流的濫用風險。

      對應的治理手段包括數據審計、安全微調、偏好對齊、紅隊測試、深偽檢測、水印與可溯源、運行時沙箱等機制。

      隨著AV模型越來越多地集成進社交、教育、醫療、機器人場景,這些安全治理能力正成為基礎設施的一部分。

      應用正在加速落地:AIGC、數字人、XR、機器人

      論文最后回到應用層面:從短視頻AIGC、配音與Foley(擬音)合成,到數字人、對話助手、AI教學、無障礙輔助、空間音頻與Metaverse、再到具身機器人與智慧城市,AVI已經開始進入大量真實場景的關鍵環節。


      隨著omni模型與VLA框架不斷成熟,音視頻智能也正從「輔助工具」逐漸成為大模型基礎設施的一部分。

      未來一段時間,音視頻大模型很可能繼續朝意圖驅動、閉環交互、原生音畫同步生成的方向演化,而它在通用智能體里的角色也會越來越重要。

      未來六大研究軸

      論文用一張路線圖把這件事講明白:前三階段已經把「對得上 / 感知 / 生成」的家底攢齊,當下站在交互式omni-modal與具身模型這條前沿線上,再往后兩站,是因果—上下文AVI和可驗證的agentic AVI。


      圍繞這張路線圖,論文進一步把AVI接下來的研究路線總結成六條主軸,覆蓋音畫同步、因果事件grounding、空間音頻推理、長程上下文記憶、可控生成、安全治理、水印與數據合規等關鍵問題:

      • 因果事件-聲源grounding:建模延遲、遮擋、畫外音、多源混合下的源級、事件級與因果對齊,把音畫同步推向因果可解釋層面;

      • AV世界模型:把音視頻當作幾何、材質、動力學、可供性的互補證據,并以空間音頻推理作為關鍵能力;

      • 長程AV上下文記憶:構建流式 / 情景 / 語義多層、可選擇、可溯源的 AV 記憶,而不是簡單加長上下文;

      • 因果AV干預與可控生成:讓生成與編輯支持對物體、聲音、身份、情緒、空間、時間的局部、因果且同步的干預;

      • Verifier與Reward生態:超越 FAD / FVD / CLIP / SyncNet 這類代理指標,發展面向 grounding、物理合理性、音頻不可替代性與任務效用的驗證器;

      • 交互式與負責任AVI:在低延遲、隱私、版權、水印與數據合規等安全治理約束下,把AV模型變成可信賴的實時合作者。

      這六條主軸和今天工業界正在做的「音視頻版GPT-4o / 音視頻版 Sora / 音視頻版Voyager」高度對應,也是論文對未來1–3年研究方向最具體的判斷。

      這篇綜述長文將AVI的關鍵模塊按邏輯串聯起來:從演化時間線、任務體系、技術地基、三條主線、應用版圖、到未來六軸,勾勒出一張完整、系統、可實踐的音視頻大模型地圖。

      無論你關注omni模型訓練、AV生成 / 編輯工具、AV智能體,還是想理解未來音視頻AI的演化方向,這篇文獻都值得完整讀一次!

      編輯:LRST

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      豪賭?34歲內馬爾小腿水腫嚴重+無法訓練 世界杯前僅2場比賽熱身

      豪賭?34歲內馬爾小腿水腫嚴重+無法訓練 世界杯前僅2場比賽熱身

      風過鄉
      2026-05-20 13:09:14
      日本羽毛球女神無緣亞運會 韓媒:中國運動品牌天價合約瞬間不香了

      日本羽毛球女神無緣亞運會 韓媒:中國運動品牌天價合約瞬間不香了

      林子說事
      2026-05-20 16:01:08
      “給兒子吃得大腦缺氧了!”一頓全碳水早餐,暴露了寶媽的低認知

      “給兒子吃得大腦缺氧了!”一頓全碳水早餐,暴露了寶媽的低認知

      妍妍教育日記
      2026-05-14 13:30:26
      普京訪華拿出“王炸”,全世界看清一件事!

      普京訪華拿出“王炸”,全世界看清一件事!

      戎評
      2026-05-20 14:56:41
      北京這周還有雨!明晚開始,預計持續時間——

      北京這周還有雨!明晚開始,預計持續時間——

      BRTV新聞
      2026-05-20 16:27:19
      張柏芝給19歲Lucas提國產新車,拒買豪車當媽心思藏不住

      張柏芝給19歲Lucas提國產新車,拒買豪車當媽心思藏不住

      農村黃煮任
      2026-05-18 14:22:07
      亞洲杯太殘酷了:隨著日本4-3逆轉晉級決賽,6大勁旅已經被送回家

      亞洲杯太殘酷了:隨著日本4-3逆轉晉級決賽,6大勁旅已經被送回家

      側身凌空斬
      2026-05-20 01:37:59
      我嫁了A9家庭,為什么沒實現奢侈品自由?老公回復真實且扎心

      我嫁了A9家庭,為什么沒實現奢侈品自由?老公回復真實且扎心

      素十三兒
      2026-05-20 08:23:54
      91歲楊尚昆晚年感慨:黨內山頭眾多,唯有毛主席能徹底凝聚全黨

      91歲楊尚昆晚年感慨:黨內山頭眾多,唯有毛主席能徹底凝聚全黨

      喊山的姑娘
      2026-05-20 11:43:25
      58歲日本籍主帥神了:率中國男足完勝勁旅,時隔22年再進亞洲杯決賽

      58歲日本籍主帥神了:率中國男足完勝勁旅,時隔22年再進亞洲杯決賽

      側身凌空斬
      2026-05-20 04:38:32
      俄專家一針見血:中國若要對日本動手,中國只有兩個選擇!

      俄專家一針見血:中國若要對日本動手,中國只有兩個選擇!

      色彩斑斕的世界
      2026-05-02 05:46:28
      逼宮大戲!匈牙利新總理喊話“傀儡總統”:趕緊滾蛋

      逼宮大戲!匈牙利新總理喊話“傀儡總統”:趕緊滾蛋

      春曉暖語聲
      2026-05-19 13:47:18
      收評:滬指收跌0.18% 半導體板塊全天表現強勢

      收評:滬指收跌0.18% 半導體板塊全天表現強勢

      證券時報
      2026-05-20 15:24:17
      “見過最廉價的兜底”,一份趁熱吃的山姆烤雞,讓家長被全網群嘲

      “見過最廉價的兜底”,一份趁熱吃的山姆烤雞,讓家長被全網群嘲

      妍妍教育日記
      2026-05-20 16:49:27
      燃氣公司上門安檢,根本不是查漏氣!真正目的其實是這3個

      燃氣公司上門安檢,根本不是查漏氣!真正目的其實是這3個

      匹夫來搞笑
      2026-04-20 13:24:51
      魏建軍拒回應魏牌V9X領先ID. ERA 9X多少代 上汽大眾高管點贊

      魏建軍拒回應魏牌V9X領先ID. ERA 9X多少代 上汽大眾高管點贊

      快科技
      2026-05-20 11:24:10
      一手術人就廢了?醫生:這6疾病保守治療更好,動刀反而過度醫療

      一手術人就廢了?醫生:這6疾病保守治療更好,動刀反而過度醫療

      岐黃傳人孫大夫
      2026-05-13 10:00:10
      穆里尼奧指明卡瓦哈爾的替代者

      穆里尼奧指明卡瓦哈爾的替代者

      綠茵情報局
      2026-05-20 16:17:45
      國少挺進2026年U-17亞洲杯四強,韓媒感慨,“日韓對決”化為泡影

      國少挺進2026年U-17亞洲杯四強,韓媒感慨,“日韓對決”化為泡影

      蘭亭墨未干
      2026-05-19 16:18:54
      破防!米切爾在更衣室爆粗口,全隊輸球他卻開心,美媒怒批不認真

      破防!米切爾在更衣室爆粗口,全隊輸球他卻開心,美媒怒批不認真

      佳佳說奇事故事
      2026-05-20 13:14:28
      2026-05-20 17:23:00
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      15261文章數 66877關注度
      往期回顧 全部

      科技要聞

      一文看懂谷歌I/O2026:谷歌打響智能體大戰

      頭條要聞

      楊梅被"一刀切"禁入 福建楊梅協會會長懇求給果農生路

      頭條要聞

      楊梅被"一刀切"禁入 福建楊梅協會會長懇求給果農生路

      體育要聞

      不再美麗的阿森納,終于成為英超冠軍

      娛樂要聞

      王菲“沒事兒”,成年人學不來的松弛

      財經要聞

      白酒榜|汾酒營收凈利雙增 口子窖"造富"

      汽車要聞

      煥新極氪009上市41.38萬起 齊家版讓MPV回歸家庭

      態度原創

      旅游
      本地
      游戲
      時尚
      公開課

      旅游要聞

      合肥5·19中國旅游日啟幕:萬只龍蝦免費嘗,百日消費券線上搶

      本地新聞

      用云錦的方式,打開江蘇南京

      《樂高蝙蝠俠:黑暗騎士之遺》IGN8分好評!

      為了攻克漸凍癥,她把自己活成了“破冰”的人

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 吃奶呻吟打开双腿做受动态图| 免费观看的av在线播放| 91在线视频福利| 色婷婷一区二区三区四区| 国产一区二区亚洲一区二区三区 | 亚洲 都市 无码 校园 激情| 久久婷婷五月综合| 二区三区日本高清视频| 亚洲天堂三区| 福利视频一区二区在线| 成人毛片网| 亚洲成在人线在线播放无码 | 亚洲成人免费网站| 国产三级精品三级在线专区1| 国产精品免费看香蕉| 国产午夜精品一区理论片飘花| 久久天堂综合亚洲伊人HD妓女| 日韩丝袜美腿在线观看| 五月天激情婷婷婷久久| 玩肥熟老妇bbw视频| 无码中文幕| 午夜无码伦费影视在线观看果冻| 中文字幕天天躁日日躁狠狠躁| 国产午夜影视大全免费观看| 国产无遮挡猛进猛出免费软件 | 强插女教师av在线| 欧美日本道免费二区三区| 视频二区国产精品职场同事| 十八禁无码精品a∨在线观看| 伊人久久久大香线蕉综合直播| 亚洲日韩中文字幕在线播放| 91亚洲国产成人久久精品| www.99精品视频在线播放| 中文字幕无码日韩中文字幕| 青青青亚洲精品国产| 国产无毛视频| 国产福利影院在线观看| 亚洲精品视频熟妇人妻| 成人免费午夜无码视频| 亚洲精品二三区伊人久久| 中文字幕亚洲综久久2021|