網易首頁 > 網易號 > 正文申請入駐

上海創智學院等提出：MedScope讓AI「看過視頻」走向「查證視頻」

2026-05-18 13:00:47　來源: ScienceAI

天津舉報

分享至

作者 | 論文團隊

編輯丨ScienceAI

醫學多模態大模型正在從靜態影像走向動態臨床場景。手術、內鏡、介入操作和臨床教學視頻不同于單張影像，它們記錄的是連續發生的診療過程：動作、器械、組織暴露、風險事件和關鍵步驟都沿時間軸展開。

這類長視頻的難點不在于視頻更長，而在于證據更稀疏。一個決定模型判斷的視覺線索，可能只在幾十分鐘視頻中的幾秒內出現；一旦固定抽幀沒有覆蓋到關鍵片段，模型即便生成了流暢解釋，也很難證明自己的答案來自真實證據。

這正是臨床 AI 走向真實應用時必須解決的問題：醫學視頻模型不能只是給出一個看似合理的答案，更需要回答「證據在哪里」。如果答案無法回到具體時間窗口、關鍵幀和視覺觀察本身，它就很難用于質控、教學復盤、術后評估或高風險場景中的人機協同。

為此，上海創智學院 LeapQuest 團隊聯合上海交通大學、上海交通大學醫學院附屬瑞金醫院、復旦大學、上海人工智能實驗室、清華大學和香港中文大學提出 MedScope。該工作把臨床長視頻推理從「看過視頻后回答」推進到「主動查證證據后回答」，核心目標是讓模型不僅答對，還要從正確證據中答對。

論文鏈接：https://arxiv.org/abs/2602.13332

代碼鏈接：https://github.com/SII-WenjieLisjtu/MedScope

Textual CoT 與 Visual CoT：前者主要生成文字推理，后者把推理過程接入視頻工具，使模型能夠反復定位、觀察和驗證關鍵證據。

范式突破：Think with Videos，讓模型帶著問題回看視頻

MedScope 的核心不是讓模型寫出更長的 Chain-of-Thought，而是讓模型真正具備與視頻交互的能力。其提出的 Think with Videos 范式，將一次性視頻問答拆解為多輪過程：模型先形成假設，判斷還缺少什么證據；隨后調用工具回看候選片段或關鍵幀；再根據新的視覺觀察修正判斷。

MedScope 總體框架：模型在思考、工具調用和視覺觀察之間循環，將長視頻理解重構為 coarse-to-fine 的證據查證過程。

一句話理解突破
MedScope 的核心不是讓模型「更會描述視頻」，而是讓模型學會在長視頻中主動查證：先提出證據需求，再調用工具定位片段，最后基于視覺觀察生成可復核答案。

這帶來一個關鍵變化：模型不再只是被動接受預采樣幀，而是學會在推理過程中主動決定「下一步該看哪里」。這種能力將大模型的語義推理、視頻時間軸上的證據檢索，以及最終答案生成連接為一個閉環，更接近臨床專家處理長流程視頻時「先掃全局、再看局部、最后確認細節」的工作方式。

方法一：Coarse-to-Fine Tool Calling，把長視頻拆成可驗證的證據路徑

在工具設計上，MedScope 沒有引入復雜的外部專家系統，而是選擇兩個最基礎也最關鍵的操作：沿時間軸截取局部視頻，以及在指定時間點查看關鍵幀。通過 Coarse-to-Fine Tool Calling，模型可以先粗定位候選區間，再進入局部片段進行細粒度查證。

這套工具機制的突破不在于「看更多幀」，而在于「帶著問題去看幀」。模型每一次工具調用都服務于當前推理的不確定性：是為了確認某個操作是否發生，還是為了判斷組織是否暴露，或者為了核實風險事件是否出現。最終，答案不再只是文本結果，而是一條可追蹤的證據鏈。

方法二：ClinVideoSuite，讓訓練數據從「問答對」升級為「證據對齊樣本」

要讓模型學會主動找證據，僅靠視頻 - 答案對是不夠的。模型必須知道：答案依賴哪段視頻、證據出現在什么時間窗口、需要經過怎樣的工具調用才能找到它。圍繞這一目標，研究團隊構建了 ClinVideoSuite，一個面向 evidence-centric training 和 grounded evaluation 的臨床視頻數據套件。

ClinVideoSuite 的核心價值不只是數據規模，而是重構了訓練信號。團隊通過多層過濾剔除憑常識即可回答、僅看全局摘要即可回答或內部不一致的問題，并進一步通過多模態確認確保保留的問題確實依賴視頻片段本身。

由此，問題、答案和證據窗口被綁定在一起。模型學習的不再只是「如何生成答案」，還包括「應該到哪里找證據」「怎樣通過觀察修正推理」「何時證據已經足以支撐結論」。這為醫學視頻智能體提供了比傳統視頻問答更高密度、更可審計的監督信號。

ClinVideoSuite 數據構建流程：從視頻采樣、密集描述、證據驅動 QA 到 Visual CoT 軌跡生成，為工具增強推理提供訓練底座。

方法三：GA-GRPO，把「找對證據」寫進強化學習目標

在醫學場景中，只獎勵最終答案正確遠遠不夠。一個模型可能因為語言先驗而猜中答案，也可能基于錯誤片段給出正確結論；如果訓練只看結果，模型就可能學到「猜中即可」，而不是「必須基于正確證據」。

MedScope 提出的 Grounding-Aware Group Relative Policy Optimization（GA-GRPO）正是為解決這一問題而設計。它將獎勵從答案層擴展到證據層，由答案正確性、格式規范性和 evidence reward 共同構成；對于 crop_video 工具，還進一步引入 IoU bonus，鼓勵模型預測的時間窗口與真實證據窗口更加重合。

為什么這一步關鍵
臨床場景不能只獎勵「答對」，還必須獎勵「證據對齊」。GA-GRPO 將工具調用、時間定位和最終答案納入同一學習閉環，使模型學會從正確證據中答對。

這使 MedScope 的訓練目標從單一準確率優化，轉向「答案 — 工具 — 證據」的聯合優化。模型不僅被鼓勵答對，也被鼓勵調用正確工具、定位正確時間段，并把最終判斷建立在可復核的視覺證據上。

實驗結果：不僅開放模型領先，更實現「答對并找對」

論文在 SVU-31K 與 ClinVideo-Eval 等基準上對 MedScope 進行系統評估，覆蓋完整視頻描述、細粒度視頻理解、時間推理、感知推理、Temporal Grounding 和 grounded VQA 等任務。結果顯示，MedScope-7B-RL 在開放模型中取得領先整體表現，并在跨域臨床視頻評估中保持良好泛化。

MedScope 在 full/fine-grained video understanding 與 grounded VQA 任務上的性能對比，體現其在長視頻理解與證據定位上的聯合優勢。

更重要的是，MedScope 的提升不只是「回答更準」。在 Temporal Grounding 和 grounded VQA 中，模型需要同時給出答案并定位證據；這比普通問答更接近臨床可審計需求。消融實驗也表明，Visual CoT 冷啟動、evidence reward 和 IoU bonus 缺一不可：去掉證據獎勵后，即便答案看似正確，時間定位能力也會下降。

獎勵設計消融：去除 evidence reward 或 IoU bonus 后，模型對關鍵時間窗口的定位能力下降，說明證據對齊獎勵是方法提升的重要來源。

影響力：醫學視頻智能體的下一步，是把推理交還給證據

MedScope 的意義不止是刷新若干基準指標，而在于提出了一種面向臨床視頻智能體的新能力定義：模型不應只會理解視頻內容，還應能主動提出證據需求、調用工具回看視頻、定位關鍵片段，并把推理依據呈現給人類專家復核。

這種能力對于未來醫學 AI 的落地尤為關鍵。無論是手術培訓、術后復盤、醫療質控、機器人輔助手術，還是實時決策支持，模型的可信度都不能只依賴「它答對了」。更重要的是，它必須知道自己在哪里看到了證據、為什么這些證據足以支撐結論。MedScope 將醫學視頻推理從結果生成推進到證據查證，也為可審計、可交互、可部署的臨床視頻智能體提供了方法基礎。

作者團隊簡介

第一作者李文杰為上海創智學院 LeapQuest 團隊負責人，上海創智學院、上海交通大學、上海交通大學醫學院附屬瑞金醫院聯合培養在讀博士生，主要研究方向為 Visual Reasoning、Multimodal Large Language Models 與 Medical AI Agents，共同第一作者張鈺杰為上海創智學院、復旦大學聯合培養博士生，主要研究方向為 Vision-Language Model Reasoning、Reinforcement Learning 與 Large Language Models。LeapQuest 團隊目前在讀博士 16 人，致力于以醫學智能體驅動醫療場景效率躍遷。

聲明：包含AI生成內容

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.