![]()
作者 | 論文團隊
編輯丨ScienceAI
醫學多模態大模型正在從靜態影像走向動態臨床場景。手術、內鏡、介入操作和臨床教學視頻不同于單張影像,它們記錄的是連續發生的診療過程:動作、器械、組織暴露、風險事件和關鍵步驟都沿時間軸展開。
這類長視頻的難點不在于視頻更長,而在于證據更稀疏。一個決定模型判斷的視覺線索,可能只在幾十分鐘視頻中的幾秒內出現;一旦固定抽幀沒有覆蓋到關鍵片段,模型即便生成了流暢解釋,也很難證明自己的答案來自真實證據。
這正是臨床 AI 走向真實應用時必須解決的問題:醫學視頻模型不能只是給出一個看似合理的答案,更需要回答「證據在哪里」。如果答案無法回到具體時間窗口、關鍵幀和視覺觀察本身,它就很難用于質控、教學復盤、術后評估或高風險場景中的人機協同。
為此,上海創智學院 LeapQuest 團隊聯合上海交通大學、上海交通大學醫學院附屬瑞金醫院、復旦大學、上海人工智能實驗室、清華大學和香港中文大學提出 MedScope。該工作把臨床長視頻推理從「看過視頻后回答」推進到「主動查證證據后回答」,核心目標是讓模型不僅答對,還要從正確證據中答對。
![]()
論文鏈接:https://arxiv.org/abs/2602.13332
代碼鏈接:https://github.com/SII-WenjieLisjtu/MedScope
![]()
Textual CoT 與 Visual CoT:前者主要生成文字推理,后者把推理過程接入視頻工具,使模型能夠反復定位、觀察和驗證關鍵證據。
范式突破:Think with Videos,讓模型帶著問題回看視頻
MedScope 的核心不是讓模型寫出更長的 Chain-of-Thought,而是讓模型真正具備與視頻交互的能力。其提出的 Think with Videos 范式,將一次性視頻問答拆解為多輪過程:模型先形成假設,判斷還缺少什么證據;隨后調用工具回看候選片段或關鍵幀;再根據新的視覺觀察修正判斷。
![]()
MedScope 總體框架:模型在思考、工具調用和視覺觀察之間循環,將長視頻理解重構為 coarse-to-fine 的證據查證過程。
一句話理解突破
MedScope 的核心不是讓模型「更會描述視頻」,而是讓模型學會在長視頻中主動查證:先提出證據需求,再調用工具定位片段,最后基于視覺觀察生成可復核答案。
這帶來一個關鍵變化:模型不再只是被動接受預采樣幀,而是學會在推理過程中主動決定「下一步該看哪里」。這種能力將大模型的語義推理、視頻時間軸上的證據檢索,以及最終答案生成連接為一個閉環,更接近臨床專家處理長流程視頻時「先掃全局、再看局部、最后確認細節」的工作方式。
方法一:Coarse-to-Fine Tool Calling,把長視頻拆成可驗證的證據路徑
在工具設計上,MedScope 沒有引入復雜的外部專家系統,而是選擇兩個最基礎也最關鍵的操作:沿時間軸截取局部視頻,以及在指定時間點查看關鍵幀。通過 Coarse-to-Fine Tool Calling,模型可以先粗定位候選區間,再進入局部片段進行細粒度查證。
![]()
這套工具機制的突破不在于「看更多幀」,而在于「帶著問題去看幀」。模型每一次工具調用都服務于當前推理的不確定性:是為了確認某個操作是否發生,還是為了判斷組織是否暴露,或者為了核實風險事件是否出現。最終,答案不再只是文本結果,而是一條可追蹤的證據鏈。
方法二:ClinVideoSuite,讓訓練數據從「問答對」升級為「證據對齊樣本」
要讓模型學會主動找證據,僅靠視頻 - 答案對是不夠的。模型必須知道:答案依賴哪段視頻、證據出現在什么時間窗口、需要經過怎樣的工具調用才能找到它。圍繞這一目標,研究團隊構建了 ClinVideoSuite,一個面向 evidence-centric training 和 grounded evaluation 的臨床視頻數據套件。
![]()
ClinVideoSuite 的核心價值不只是數據規模,而是重構了訓練信號。團隊通過多層過濾剔除憑常識即可回答、僅看全局摘要即可回答或內部不一致的問題,并進一步通過多模態確認確保保留的問題確實依賴視頻片段本身。
由此,問題、答案和證據窗口被綁定在一起。模型學習的不再只是「如何生成答案」,還包括「應該到哪里找證據」「怎樣通過觀察修正推理」「何時證據已經足以支撐結論」。這為醫學視頻智能體提供了比傳統視頻問答更高密度、更可審計的監督信號。
![]()
ClinVideoSuite 數據構建流程:從視頻采樣、密集描述、證據驅動 QA 到 Visual CoT 軌跡生成,為工具增強推理提供訓練底座。
方法三:GA-GRPO,把「找對證據」寫進強化學習目標
在醫學場景中,只獎勵最終答案正確遠遠不夠。一個模型可能因為語言先驗而猜中答案,也可能基于錯誤片段給出正確結論;如果訓練只看結果,模型就可能學到「猜中即可」,而不是「必須基于正確證據」。
MedScope 提出的 Grounding-Aware Group Relative Policy Optimization(GA-GRPO)正是為解決這一問題而設計。它將獎勵從答案層擴展到證據層,由答案正確性、格式規范性和 evidence reward 共同構成;對于 crop_video 工具,還進一步引入 IoU bonus,鼓勵模型預測的時間窗口與真實證據窗口更加重合。
為什么這一步關鍵
臨床場景不能只獎勵「答對」,還必須獎勵「證據對齊」。GA-GRPO 將工具調用、時間定位和最終答案納入同一學習閉環,使模型學會從正確證據中答對。
這使 MedScope 的訓練目標從單一準確率優化,轉向「答案 — 工具 — 證據」的聯合優化。模型不僅被鼓勵答對,也被鼓勵調用正確工具、定位正確時間段,并把最終判斷建立在可復核的視覺證據上。
實驗結果:不僅開放模型領先,更實現「答對并找對」
論文在 SVU-31K 與 ClinVideo-Eval 等基準上對 MedScope 進行系統評估,覆蓋完整視頻描述、細粒度視頻理解、時間推理、感知推理、Temporal Grounding 和 grounded VQA 等任務。結果顯示,MedScope-7B-RL 在開放模型中取得領先整體表現,并在跨域臨床視頻評估中保持良好泛化。
![]()
![]()
MedScope 在 full/fine-grained video understanding 與 grounded VQA 任務上的性能對比,體現其在長視頻理解與證據定位上的聯合優勢。
更重要的是,MedScope 的提升不只是「回答更準」。在 Temporal Grounding 和 grounded VQA 中,模型需要同時給出答案并定位證據;這比普通問答更接近臨床可審計需求。消融實驗也表明,Visual CoT 冷啟動、evidence reward 和 IoU bonus 缺一不可:去掉證據獎勵后,即便答案看似正確,時間定位能力也會下降。
![]()
獎勵設計消融:去除 evidence reward 或 IoU bonus 后,模型對關鍵時間窗口的定位能力下降,說明證據對齊獎勵是方法提升的重要來源。
影響力:醫學視頻智能體的下一步,是把推理交還給證據
MedScope 的意義不止是刷新若干基準指標,而在于提出了一種面向臨床視頻智能體的新能力定義:模型不應只會理解視頻內容,還應能主動提出證據需求、調用工具回看視頻、定位關鍵片段,并把推理依據呈現給人類專家復核。
這種能力對于未來醫學 AI 的落地尤為關鍵。無論是手術培訓、術后復盤、醫療質控、機器人輔助手術,還是實時決策支持,模型的可信度都不能只依賴「它答對了」。更重要的是,它必須知道自己在哪里看到了證據、為什么這些證據足以支撐結論。MedScope 將醫學視頻推理從結果生成推進到證據查證,也為可審計、可交互、可部署的臨床視頻智能體提供了方法基礎。
作者團隊簡介
第一作者李文杰為上海創智學院 LeapQuest 團隊負責人,上海創智學院、上海交通大學、上海交通大學醫學院附屬瑞金醫院聯合培養在讀博士生,主要研究方向為 Visual Reasoning、Multimodal Large Language Models 與 Medical AI Agents,共同第一作者張鈺杰為上海創智學院、復旦大學聯合培養博士生,主要研究方向為 Vision-Language Model Reasoning、Reinforcement Learning 與 Large Language Models。LeapQuest 團隊目前在讀博士 16 人,致力于以醫學智能體驅動醫療場景效率躍遷。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.