<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      證據攤開看,場景圖畫清:讓流式視頻大模型拿捏「何時開口」

      0
      分享至



      隨著多模態技術和大語言模型的發展,人類與 AI 的交互關系正在從「命令 - 執行」走向真正的共生。AI 將不再只是等待人類指令再執行的工具,而是與人類共處同一時空的主動智能體。

      它們像人類一樣持續地感知動態環境,基于環境理解和內部目標,主動向他人發起交互(例如主動提醒「杯子要掉了」或在關鍵時刻主動詢問「需要幫助嗎」)。

      同時,視覺作為現實世界最豐富、最自然的感知媒介,是主動智能體理解外部環境的核心窗口。在這種持續的外部感知和響應判斷下,視頻的輸入特征從「離線轉為在線」。

      換言之,智能體所承載的視頻大模型(Video-LLM),不再是整段看完再作答的離線推理系統,而應像人類一樣邊看邊判斷:在響應條件不足時保持克制,在關鍵證據出現時果斷響應交互。

      因此,在這種流式主動交互場景下,視頻大模型真正棘手的,不只是「能不能看懂某一幀」,還有「該不該在這一秒開口」。然而,要把「證據是否足夠」做成穩定、可泛化的決策,現有方法往往仍把視覺證據與問題語義中的響應條件藏在隱式表征里,難以做到精細對齊和對「響應時機」的深刻理解。

      為了解決這一痛點,來自西北工業大學、香港科技大學、清華大學等的研究團隊在 ACL 2026 上提出了一種基于證據 - 條件結構化對齊的流式視頻理解主動交互框架。該方法以顯式場景圖(Scene Graph)為統一表示,把流式觀測到的「視覺證據」與用戶查詢所蘊含的「響應條件」進行顯式建模,并結合記憶檢索與觸發式提示,在無需微調的方式下完成流式「靜默 / 響應」決策。



      • 論文標題:Response-G1: Explicit Scene Graph Modeling for Proactive Streaming Video Understanding
      • 論文鏈接:https://arxiv.org/abs/2605.07575
      • 代碼倉庫:https://github.com/kadmkbl/Response-G1

      主動流式交互的裂縫:當證據與條件被「藏」在隱式表征里

      流式主動交互的關鍵難點并不只在于內容生成,還在于每一時間步都要思考一個底層的問題:當前累積的視覺證據,是否已經滿足用戶問題所隱含的響應條件?

      一旦這個判斷依賴隱式的證據 - 條件理解,模型就很容易在「相似幀」之間搖擺:視覺上幾乎一樣,但「該不該說」的標簽卻可能相反。這也是許多需要幀級標注的訓練路線的方法難以泛化的根源之一。

      而在無需微調的路線中,幀間差異閾值等基于規則的方法實現簡單,卻容易把「畫面變化」誤當成「語義條件滿足」,從而忽略用戶響應需求。另一方面,基于觸發提示的方法(直接詢問大模型是否在當前時刻響應)雖能更加理解響應需求,但現有工作仍未顯式地構建證據與條件,對響應時機的理解缺少可核對的中間結構。

      Response-G1 的切入點因此非常直接:用戶問題中的響應條件往往對應一個由物體、屬性與關系構成的結構化期望場景,場景圖為此提供了顯式的證據對齊方式,讓「證據是否足夠」不再依賴隱式表征,而轉由可解釋的中間結構進行逐項核對。



      圖 1. 流式視頻理解中的主動機制對比

      Response-G1 總覽:把「時機判斷」變成可解釋的圖對齊問題

      Response-G1 將流程組織為三個彼此銜接、且都可視為「推理增強」的模塊:在線查詢引導的場景圖生成(流式證據建模)、基于動態記憶庫的場景圖檢索(證據 - 條件對齊),以及檢索增強的流式觸發決策(主動交互決策)。

      框架不改變骨干視頻大模型的訓練目標與參數更新方式,主要通過結構化中間表示與檢索上下文,把模型的「響應判斷」從黑箱里往外拽半步。

      • 在線查詢引導的場景圖生成:對以當前時刻為中心的流式視頻片段,模型輸出場景圖節點(物體及其屬性)與邊(關系謂詞),并以三元組集合形式表示。為抑制與問題無關的細節,生成提示中注入用戶查詢,使視頻大模型優先抽取與問題相關的子結構,從而得到查詢敏感、證據聚焦的圖表示。



      • 基于記憶的場景圖檢索:為實現細粒度的「證據 - 條件」匹配對齊,框架維護隨時間增長的記憶庫,存儲歷史時刻生成的場景圖。檢索時,將各圖的三元組線性化為自然語言短語并拼接,同時對用戶查詢解析得到響應條件圖及其文本表示;二者經同一文本編碼器嵌入后做均值池化,以余弦相似度衡量語義相關性,并取 Top-K 子圖作為對齊證據上下文。



      • 檢索增強的流式觸發與回答:在每一需要決策的時間步,模型輸入由視頻幀嵌入、帶時間戳前綴的檢索場景圖編碼以及觸發指令(例如「現在是否應該回答?僅回答 Yes/No」)共同構成。若判定為靜默,則繼續累積觀測;若判定為響應,則在與交互決策一致的上下文中拼接原始問題,生成最終自然語言響應。





      圖 2. Response-G1 框架概覽

      實驗結果:主動式大幅領先,被動式同步受益

      研究團隊在主流流式視頻理解基準 OVO-Bench 與 StreamingBench 上開展評估,并區分主動式(模型自主決定響應時刻)與被動式(響應時刻與提問時刻一致)子任務。實現上采用 Qwen3-VL-8B 作為模型骨干,并遵循既有工作對輸入分辨率與幀采樣策略的設置。

      實驗結果顯示,在主動式子任務方面,Response-G1 在開源流式視頻大模型上提升顯著:在 OVO-Bench 上,Response-G1 提升了12.8%;在 StreamingBench 的 PO 子任務上,提升達15.1%。在被動式子任務方面,Response-G1 也形成穩定增益。

      這表明,顯式場景圖不僅改善「何時說」,而且在有時空推理需求的用戶問題上,也有助于「說得準」。



      表 1. OVO-Bench 上的性能對比(主動式子任務為 Forward Active Responding;其余子任務為被動式設定)



      表 2. StreamingBench 上的性能對比(主動式子任務為 PO;其余子任務為被動式設定)

      消融與流式主動交互案例

      消融實驗表明:(1)引入基于場景圖的檢索增強可同步提升主動式與被動式流式視頻理解的表現,而引入時間戳的場景圖編碼一定程度地提升了模型的證據理解。(2)在流式視頻的場景圖證據在線生成階段,「查詢引導」優于「目標引導」策略,后者可能誘發模型生成不存在的場景圖三元組證據并導致過早響應問題。



      表 3. 消融實驗(左:不同檢索增強策略的有效性;右:不同證據生成引導策略的有效性)

      可視化案例展示了一個需要等待證據線索逐步顯露的流式視頻主動交互場景(用戶提問:「一個穿著紅色 T 恤的男孩在離開后做了什么事情?」)。

      結果表明,在時間「18:51」處,Response-G1 準確檢索到與查詢相關的場景圖(即證據)并觸發響應,而基線方法在整個視頻流中均始終未能作出響應。



      圖 3. 流式視頻主動式交互可視化案例

      結語

      該研究的意義在于:它把主動交互流式視頻理解里難以捉摸的「時機」問題,通過顯式的統一的圖表示,轉寫為更可解釋、可調試的「證據 - 條件對齊」問題。

      在視頻大模型逐步走向真實在線、主動交互的當下,這種結構化中間表示或許能為后續的多模態全能助手、長流式記憶與更復雜的人機協同,提供一個更可組合的底座。

      作者介紹

      本文作者馬可(https://kadmkbl.github.io)、唐家祺(https://jqt.me),分別來自西北工業大學和香港科技大學的博士研究生,研究方向為多模態大模型與智能體。

      通訊作者是西北工業大學的郭斌教授(http://guob.org),長期從事普適計算、群智感知、具身智能及智能物聯網等領域的研究。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      女商人花570萬“競拍”后房錢兩空,糾紛還是詐騙?|紅星調查

      女商人花570萬“競拍”后房錢兩空,糾紛還是詐騙?|紅星調查

      紅星新聞
      2026-05-26 16:39:17
      凌晨2點打電話叫醒村民的“謝會計”遇難,妻子弟弟仍失聯

      凌晨2點打電話叫醒村民的“謝會計”遇難,妻子弟弟仍失聯

      紅星新聞
      2026-05-26 17:26:13
      突發!上海DPOY懷特塞德缺席總決賽G1 馬典成臨時頂替進名單

      突發!上海DPOY懷特塞德缺席總決賽G1 馬典成臨時頂替進名單

      醉臥浮生
      2026-05-26 18:43:49
      央視三胎宣傳片翻車惹爭議:看似溫情勸生,為何嚇退無數年輕人?

      央視三胎宣傳片翻車惹爭議:看似溫情勸生,為何嚇退無數年輕人?

      大稻網絡科技
      2026-05-25 15:23:25
      2026一季度財政自給率:浙江96%領跑,10多個省不足50%

      2026一季度財政自給率:浙江96%領跑,10多個省不足50%

      風向觀察
      2026-05-26 11:27:00
      武契奇前腳離開,后面塞爾維亞就亂了

      武契奇前腳離開,后面塞爾維亞就亂了

      鳳眼論
      2026-05-26 14:16:31
      “只要大陸敢打,我就敢送”,他公開宣稱

      “只要大陸敢打,我就敢送”,他公開宣稱

      安安說
      2026-05-24 15:20:17
      第三輪第六批中央生態環境保護督察公布廣東廣西兩省區典型案例

      第三輪第六批中央生態環境保護督察公布廣東廣西兩省區典型案例

      新京報
      2026-05-26 10:14:20
      15分鐘滅國警告!俄羅斯攤牌:若敢碰加里寧格勒,就讓立陶宛消失

      15分鐘滅國警告!俄羅斯攤牌:若敢碰加里寧格勒,就讓立陶宛消失

      觀史搜尋著
      2026-05-25 10:50:13
      紅軍村的鋼鐵洪流:西方裝甲撕開俄軍十年防線

      紅軍村的鋼鐵洪流:西方裝甲撕開俄軍十年防線

      律法刑道
      2026-05-25 17:49:18
      割四賠五上熱搜,當地書記都無可奈何,只能自掏腰包進行補償

      割四賠五上熱搜,當地書記都無可奈何,只能自掏腰包進行補償

      映射生活的身影
      2026-05-26 15:56:12
      泡藥楊梅后遺癥:你一樣一樣地爛了,我一樣一樣地戒了!

      泡藥楊梅后遺癥:你一樣一樣地爛了,我一樣一樣地戒了!

      行者殷濤
      2026-05-26 12:35:34
      教育是不是生大病了?網傳現在的中學生都過得很壓抑…

      教育是不是生大病了?網傳現在的中學生都過得很壓抑…

      慧翔百科
      2026-05-26 11:29:48
      曝央視分銷世界杯版權進賬30億元 博主:你還信FIFA只收央視4億?

      曝央視分銷世界杯版權進賬30億元 博主:你還信FIFA只收央視4億?

      風過鄉
      2026-05-26 13:01:16
      官方通報“維也納酒店牙刷刷馬桶”“全季酒店用客人牙刷洗杯子后放回”:約談涉事酒店負責人,責令立即整改,將根據調查核實情況嚴肅處理

      官方通報“維也納酒店牙刷刷馬桶”“全季酒店用客人牙刷洗杯子后放回”:約談涉事酒店負責人,責令立即整改,將根據調查核實情況嚴肅處理

      大風新聞
      2026-05-26 11:12:07
      曝蘇超球員與未成年發生關系!未滿14歲最高死刑 不滿18可算強奸

      曝蘇超球員與未成年發生關系!未滿14歲最高死刑 不滿18可算強奸

      念洲
      2026-05-26 16:59:59
      伊朗總統下令恢復國際互聯網接入

      伊朗總統下令恢復國際互聯網接入

      澎湃新聞
      2026-05-26 03:34:09
      國宴上桌,高層調研:一家民企密集被“看見”,什么信號?

      國宴上桌,高層調研:一家民企密集被“看見”,什么信號?

      智谷趨勢
      2026-05-20 17:04:05
      韜定律掀的是臺積電們的桌子

      韜定律掀的是臺積電們的桌子

      智遠同學
      2026-05-25 21:23:45
      尼克斯重返總決賽!布倫森1999年總決賽萌照曝光,冥冥自有天意

      尼克斯重返總決賽!布倫森1999年總決賽萌照曝光,冥冥自有天意

      仰臥撐FTUer
      2026-05-26 14:34:08
      2026-05-26 18:55:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      13087文章數 142653關注度
      往期回顧 全部

      科技要聞

      中國AI要向外卷,而不只是做第二個OpenAI

      頭條要聞

      25歲海歸男戀上32歲離異女 因88.8萬彩禮鬧掰追討12萬

      頭條要聞

      25歲海歸男戀上32歲離異女 因88.8萬彩禮鬧掰追討12萬

      體育要聞

      上賽季差點降入英甲,下賽季要踢英超了

      娛樂要聞

      臺媒貼臉!S媽被問大S嗑藥當場沉默

      財經要聞

      中國鋁行業爆單 下一個“煤炭”大周期?

      汽車要聞

      涉水加強 福特烈馬亞馬遜限量版上市 售價39.98萬

      態度原創

      健康
      藝術
      教育
      家居
      軍事航空

      外泌體抗衰,什么時候能用上?

      藝術要聞

      中國之美,美到極致!

      教育要聞

      工科三巨頭:電子信息、計算機、電氣,普通家庭到底怎么選才不虧

      家居要聞

      生與命相依 舊公寓改造

      軍事要聞

      美伊在阿巴斯港附近短暫交火 交戰過程披露

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 天天操综合| 国产一区二区三区九精品| 美女网站免费福利视频| 亚洲mv国产mv在线mv综合天堂| 国产视频资源| 色情视频网站| 亚洲色成人一区二区三区| 九九久久精品国产免费看小说| 国产亚洲精品午夜福利| 亚洲色道| 午夜免费啪视频在线无码| 娄烦县| 99国产精品白浆在线观看免费| 中文字幕乱码亚洲中文在线| 中文字幕日韩精品国产| 无码高潮又爽又黄a片软件| 人妻熟妇乱又伦精品无码专区| 亚洲色欲久久久综合网东京热| 内射人妻无套中出无码| 精品国产综合成人亚洲区| 天堂中文在线资源库用| 国产激情免费视频在线观看| 国产一级一级毛片永久| 91精品国产蜜臀在线观看| 99啪啪| 97久久久久久久久久久一区二区三区| 97人妻碰碰碰久久久久禁片| 377p日本欧洲亚洲大胆张筱雨| 久久精品无码专区免费东京热| 天天操夜夜撸| 国产AⅤ一区二区三区美女| 日本一区二区不卡| 欧美日韩在线不卡| 精品午夜av一区二区三| 国产微拍一区| 成人AV天堂| 欲色天天网综合久久| 色综合色狠狠天天综合网| 婷婷激情久久| 精品久久久久久中文字幕| 天天综合色中文字幕在线视频|