網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

全球首個醫(yī)療視頻理解大模型開源！6k+組精標(biāo)測試集/英雄榜上線

2026-04-26 13:27:25　來源: 量子位

北京舉報

分享至

田晏林發(fā)自凹非寺
量子位 | 公眾號 QbitAI

手術(shù)視頻的“黑盒”，被一腳踢爆了！

就在這兩天，GitHub和Hugging Face社區(qū)上線了一枚醫(yī)療大模型領(lǐng)域的“核彈”。

全球規(guī)模最大、性能最強的醫(yī)療視頻理解大模型——uAI Nexus MedVLM（中文名：元智醫(yī)療視頻理解大模型）開源！

最驚人的是，這玩意兒是真的能看懂手術(shù)。

論文已經(jīng)被CVPR 2026收錄，團(tuán)隊還同步甩出了一套由6245個視頻-指令對構(gòu)成的標(biāo)準(zhǔn)測試集。

啥概念？醫(yī)療視頻理解，終于有了一把“公共標(biāo)尺”。

而如此兼具規(guī)模與精度的醫(yī)療視頻數(shù)據(jù)開源，在業(yè)內(nèi)尚屬首次。

小編第一時間沖到Hugging Face，把模型拉下來實測了一波。

到底有多能打？

先交代一下uAI Nexus MedVLM的硬指標(biāo)：

匯聚超53萬條視頻-指令數(shù)據(jù)；
支持4B/7B參數(shù)規(guī)模，單卡就能部署（對，一張卡就能跑）；
整合8個專業(yè)醫(yī)學(xué)數(shù)據(jù)集，覆蓋內(nèi)鏡、腹腔鏡、開放手術(shù)、機器人手術(shù)、護(hù)理操作……幾乎你能想到的手術(shù)場景，它全包了。

實測效果咋樣？

Demo的體驗設(shè)計非常友好：界面核心模塊清晰；支持上傳手術(shù)視頻文件。

你可以上傳自己的醫(yī)療視頻，也可以用預(yù)置示例直接測試。

我嘗試用示例的腹腔鏡膽囊切除術(shù)視頻，測試了三個臨床核心維度，并對比了通用大模型（GPT-5.4、Gemini-3.1、某國產(chǎn)大模型）和uAI Nexus MedVLM的輸出差異。

定量實測的數(shù)據(jù)太殘暴了！手術(shù)安全評估：準(zhǔn)確率89.7%。

啥概念？GPT-5.4只有16.4%，Gemini-3.1是24.2%，某國產(chǎn)大模型是30.9%。

也就是說，uAI Nexus MedVLM的準(zhǔn)確率是GPT-5.4的近5.5倍，是Gemini-3.1的3.7倍，是國產(chǎn)大模型的近3倍。

時空動作定位：uAI Nexus MedVLM的mIoU是Gemini-3.1的3.2倍，是國產(chǎn)大模型的3.7倍，是GPT-5.4的47倍，

視頻報告生成（5分制）：uAI Nexus MedVLM 拿到4.24分，GPT-5.4只有3.98分，某國產(chǎn)大模型只有3.5分，Gemini-3.1只有3.7分。

而通過MedGRPO強化學(xué)習(xí)優(yōu)化后，相比基座模型，uAI Nexus MedVLM的器械定位能力提升14%；手術(shù)步驟識別能力暴漲52%；手術(shù)描述質(zhì)量提升16%～25%。

uAI Nexus MedVLM覆蓋內(nèi)鏡腔鏡手術(shù)、開放式手術(shù)、機器人手術(shù)、護(hù)理操作等多類臨床場景，涵蓋了8個手術(shù)數(shù)據(jù)集中的8個任務(wù)：

視頻摘要（VS）、關(guān)鍵安全視野評估（CVS）、下一步操作預(yù)測（NAP）、技能評估（SA）、時間動作定位（TAG）、密集視頻描述（DVC）、區(qū)域級描述（RC）和時空基礎(chǔ)化（STG）。

每項任務(wù)的表現(xiàn)都超越了GPT和Gemini。

再看定性實測的結(jié)果，把一段被標(biāo)記了綠色框的手術(shù)視頻發(fā)給大模型，讓它描述。

輸入問題：你是一名專攻微創(chuàng)手術(shù)的外科分析專家。這段視頻展示了腹腔鏡膽囊切除術(shù)的內(nèi)鏡畫面。請描述0.0秒時，邊界框內(nèi)物體的狀態(tài)，以及在0.0～29.0秒時間段內(nèi)的操作。

標(biāo)準(zhǔn)答案是：鉗持續(xù)夾持并將膽囊向手術(shù)視野的左上方牽拉，提供反向牽引和暴露。

GPT-5.4這邊呢，它只能給出籠統(tǒng)的描述，未能識別出具體器械。

Gemini-3.1則將工具錯誤識別為“電凝鉤”，描述成了不正確的操作。

某國產(chǎn)大模型：則無法識別出正確的手術(shù)操作步驟。

只有uAI Nexus MedVLM，給出了接近標(biāo)準(zhǔn)答案的描述：

位于左上方的抓鉗持續(xù)向上并朝中央牽引膽囊，保持張力并為鉤子暴露分離平面。

隨后，我看了下示例給出的8個任務(wù)表現(xiàn)，一個比一個令人震撼。

為避免真實手術(shù)場景帶來的觀感不適，我們選取了一段溫和的示例視頻，內(nèi)容是護(hù)士給患者監(jiān)測身體指標(biāo)。

視頻涵蓋了護(hù)士查看血壓計、查看體溫計、護(hù)理記錄、洗手、測量血壓、測量體溫、脈搏測量、呼吸測量等工作。

現(xiàn)在，我們隨機考察8個任務(wù)中的一個，比如「時間動作定位」。

輸入問題：脈搏測量動作發(fā)生在什么時間？

標(biāo)準(zhǔn)答案是：46.0-61.8seconds。

模型給出的預(yù)測是：43.0-65.0seconds。前后誤差不超過4秒，且正確答案就在預(yù)測范圍內(nèi)。

為什么手術(shù)視頻是AI最難啃的骨頭？

在AI醫(yī)療領(lǐng)域，將AI用于影像輔助診斷、病歷書寫、質(zhì)控管理等場景早已不是新鮮事，在不少醫(yī)院已經(jīng)落地。

但有一個方向，至今仍是公認(rèn)的“無人區(qū)”，那就是手術(shù)視頻理解。

之前沒人敢碰，為啥？三重地獄級難度，和靜態(tài)影像完全不是一個量級：

第一關(guān)：數(shù)據(jù)極難獲取。臨床手術(shù)視頻涉及患者隱私與醫(yī)學(xué)倫理，獲取本身就困難重重。

即便拿到了原始視頻，你讓專業(yè)醫(yī)生逐幀標(biāo)注？成本高到可以勸退99%的團(tuán)隊。

第二關(guān)：沒有統(tǒng)一評測標(biāo)準(zhǔn)。這是行業(yè)里一個很尷尬的現(xiàn)實：各家用自己的數(shù)據(jù)集、自己的指標(biāo)，模型效果根本沒法橫向比較。

你說你強，他說他強，誰說了都不算，嚴(yán)重阻礙整個賽道的發(fā)展。

第三關(guān)：任務(wù)本身極端復(fù)雜。手術(shù)視頻的難就難在對空間、時序、語義的理解要高度專業(yè)。

比如，它需要精準(zhǔn)識別毫米級的器械位置和解剖結(jié)構(gòu)。稍微偏一點，可能就認(rèn)錯了。

而且膽囊得先分離再切除，不能反過來。AI如果看不懂時序，就根本無法理解手術(shù)進(jìn)程。

各種約束疊加，再頂級的模型也只能歇菜。

但現(xiàn)在，這個無人區(qū)被uAI Nexus MedVLM一腳踩穿。

它不只是“炫技”，是真的能救命。

好了，說點實際的。這模型具體能干嘛？

術(shù)前：分析主刀老師上萬臺手術(shù)視頻，挖掘臨床規(guī)律、輔助優(yōu)化方案。

想象你是一位剛站上手術(shù)臺的臨床醫(yī)生，即將做一臺膽結(jié)石微創(chuàng)手術(shù)。

以前你只能靠記憶和經(jīng)驗；現(xiàn)在AI把成千上萬臺頂級專家的手術(shù)經(jīng)驗沉淀下來，相當(dāng)于有了最強的大腦，來輔助你完成這臺手術(shù)。

術(shù)中：在分離膽囊管、顯露安全視野等關(guān)鍵步驟，實時給出指引；對違規(guī)操作、動作偏差進(jìn)行毫秒級預(yù)警，成為你的“第三只眼”。

術(shù)后：自動完成總結(jié)與結(jié)構(gòu)化記錄，這通常會占用醫(yī)生大量時間，但現(xiàn)在，一鍵生成標(biāo)準(zhǔn)化報告。這臺手術(shù)的經(jīng)驗，也能成為下一位醫(yī)生的“決策依據(jù)”。

手術(shù)質(zhì)控、術(shù)中安全、報告自動化、醫(yī)學(xué)教學(xué)……uAI Nexus MedVLM的價值，遠(yuǎn)不止于技術(shù)突破。

在中國，優(yōu)質(zhì)醫(yī)療資源集中在三甲醫(yī)院，基層醫(yī)院醫(yī)生成長周期長、手術(shù)經(jīng)驗積累慢。

而uAI Nexus MedVLM可以把頂級專家的手術(shù)經(jīng)驗“沉淀”下來，基層醫(yī)院的醫(yī)生也能獲得“專家級”的術(shù)中輔助。

這或許才是AI真正理解手術(shù)視頻的意義所在。

全球開發(fā)者，新機遇來了

這次發(fā)布，最值得關(guān)注的不僅是uAI Nexus MedVLM本身。

開發(fā)這一模型的背后玩家聯(lián)影智能（聯(lián)影集團(tuán)旗下一家專注于AI醫(yī)療的創(chuàng)新公司），首次向全球開源大規(guī)模高質(zhì)量醫(yī)療視頻標(biāo)注數(shù)據(jù)和模型，并提供了一個更具可比性的評測基準(zhǔn)。

這意味著什么？終于有了一個手術(shù)視頻理解垂直領(lǐng)域的“全球公共測評體系”了。

以前，各家模型各說各話，效果沒法比。

現(xiàn)在，拉出來在同一個數(shù)據(jù)集上跑一跑，誰強誰弱，一目了然。

而這，還只是開始。

這支研發(fā)團(tuán)隊不想唱獨角戲，上線了醫(yī)療視頻理解大模型榜單，面向全世界開發(fā)者發(fā)出挑戰(zhàn)。

這是一個綜合基準(zhǔn)測試，用于評估視頻語言模型在醫(yī)療和外科視頻理解方面的表現(xiàn)。

開發(fā)者可提交自有模型結(jié)果，由系統(tǒng)基于標(biāo)準(zhǔn)自動評分，形成動態(tài)更新的統(tǒng)一排行榜。

當(dāng)全球開發(fā)者都能下載模型、使用數(shù)據(jù)集、上傳自己的成果時，看誰能把對醫(yī)療視頻理解的能力邊界，再往前推一步了。

這個過程中，醫(yī)生上傳的罕見病例、復(fù)雜手術(shù)視頻，尤其是現(xiàn)有模型表現(xiàn)不足的案例，都會成為極為珍貴的真實數(shù)據(jù)，持續(xù)驅(qū)動技術(shù)迭代。

醫(yī)療視頻AI正在迎來面向全球開發(fā)者的黃金時代。

未來，uAI Nexus MedVLM將與具身智能融合，完善感知-推理-執(zhí)行的能力閉環(huán)。從手術(shù)室拓展到更多臨床場景，推動醫(yī)療全流程智能化。

數(shù)據(jù)開放、模型共享、全球協(xié)同……這條路，才剛剛開始。

開發(fā)者們，是時候上車了～

彩蛋：鏈接在此，請自取

1.在線Demo:
https://huggingface.co/spaces/UII-AI/MedGRPO-Demo

2.推理代碼:
https://github.com/UII-AI/MedGRPO-Code

3.MedVidBench數(shù)據(jù)集：
https://huggingface.co/datasets/UII-AI/MedVidBench

4.公開榜單:
https://huggingface.co/spaces/UII-AI/MedVidBench-Leaderboard

5.論文:
https://arxiv.org/abs/2512.06581

6. 項目介紹：
https://uii-ai.github.io/MedGRPO/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.