網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

國(guó)產(chǎn)多模態(tài)Agent拿下醫(yī)學(xué)分割SOTA！不用改模型、不加token

2026-04-22 15:15:02　來(lái)源: 量子位

北京舉報(bào)

分享至

這個(gè)生物醫(yī)學(xué)視覺(jué)推理框架，被CVPR 2026接收了！

人類(lèi)專(zhuān)家在標(biāo)注醫(yī)學(xué)圖像時(shí)，從不是“看一眼就畫(huà)出來(lái)”。

他們會(huì)先掃視全圖、鎖定可疑區(qū)域，隨后在分割工具上反復(fù)點(diǎn)擊正負(fù)樣本，根據(jù)每一步生成的mask形態(tài)重新判斷，不斷調(diào)整策略——

這是一個(gè)多輪交互、邊看邊想、邊想邊做的迭代推理過(guò)程。

然而，現(xiàn)有的醫(yī)學(xué)多模態(tài)大模型普遍采用“單次前向推理”范式：

輸入圖像，輸出mask，一步到位。

這種方式面對(duì)生物醫(yī)學(xué)圖像中細(xì)微的病灶邊界、復(fù)雜的解剖結(jié)構(gòu)、模糊的視覺(jué)語(yǔ)義時(shí)往往力不從心。

更深層的問(wèn)題在于，為了賦予MLLM分割能力，現(xiàn)有方法普遍引入隱式分割token（如

）并與外部pixel decoder聯(lián)合微調(diào)——

這一設(shè)計(jì)破壞了大模型原有的文本輸出空間，導(dǎo)致語(yǔ)言推理能力退化，泛化能力大打折扣。

上述范式存在四個(gè)核心瓶頸：

單次推理無(wú)法自我糾錯(cuò)：一旦第一步定位出現(xiàn)偏差，錯(cuò)誤持續(xù)累積，最終影響分割質(zhì)量。
隱式token破壞推理能力
等token侵占文本空間，導(dǎo)致災(zāi)難性遺忘，細(xì)粒度視覺(jué)推理被嚴(yán)重壓制。
缺乏自主決策機(jī)制：模型只能被動(dòng)執(zhí)行單次指令，無(wú)法像人類(lèi)專(zhuān)家一樣主動(dòng)觀(guān)察、反思、調(diào)整。
訓(xùn)練數(shù)據(jù)瓶頸：現(xiàn)有數(shù)據(jù)集只有最終mask，缺乏逐步交互的推理軌跡，難以直接監(jiān)督多步行為。

鑒于上述問(wèn)題，浙江大學(xué)蔡鈺祥教授、上海人工智能實(shí)驗(yàn)室研究員江彥開(kāi)等人聯(lián)合提出了IBISAgent——

一個(gè)將分割重新定義為多步視覺(jué)決策過(guò)程的Agentic MLLM框架。

具體方法

概括而言，IBISAgent的主要?jiǎng)?chuàng)新點(diǎn)如下：

將分割任務(wù)建模為多步馬爾可夫決策過(guò)程（MDP），以交錯(cuò)的文本推理與點(diǎn)擊動(dòng)作替代隱式token，保留MLLM完整的語(yǔ)言推理能力，同時(shí)實(shí)現(xiàn)自主多輪迭代精化。
提出兩階段訓(xùn)練框架。首先通過(guò)冷啟動(dòng)SFT在自動(dòng)生成的推理軌跡上建立像素級(jí)推理先驗(yàn)；隨后引入Agentic強(qiáng)化學(xué)習(xí)，以細(xì)粒度獎(jiǎng)勵(lì)信號(hào)驅(qū)動(dòng)模型自主探索更優(yōu)決策策略，超越對(duì)軌跡的簡(jiǎn)單模仿。
構(gòu)建包含456K條高質(zhì)量推理軌跡的冷啟動(dòng)數(shù)據(jù)集，覆蓋正常標(biāo)注與自我反思糾錯(cuò)兩類(lèi)軌跡，為多步視覺(jué)推理提供系統(tǒng)化的訓(xùn)練基礎(chǔ)。

具體方法為，IBISAgent將整個(gè)分割過(guò)程建模為一條多步推理軌跡，每一步由三個(gè)核心元素構(gòu)成閉環(huán)：

推理（Textual Thinking）：模型對(duì)當(dāng)前分割圖像的狀態(tài)進(jìn)行推理分析，如“當(dāng)前mask偏左，需要在右側(cè)腫瘤邊緣補(bǔ)充正向點(diǎn)擊”。
行動(dòng)（Action）：模型輸出結(jié)構(gòu)化的空間點(diǎn)擊指令，包含三個(gè)要素：分割目標(biāo)類(lèi)別（Target）、點(diǎn)擊屬性（正/負(fù)，Attribute）、歸一化圖像坐標(biāo)（Coordinate_2d）。模型可在一步中同時(shí)輸出多個(gè)點(diǎn)擊。
觀(guān)測(cè)（Observation）：點(diǎn)擊被傳入交互式分割工具M(jìn)edSAM2，生成更新后的mask，并疊加到原圖上作為下一步的視覺(jué)輸入反饋給模型。

這一設(shè)計(jì)的關(guān)鍵在于：

模型每一步都能“看到”自己上一步分割的結(jié)果，形成視覺(jué)感知與語(yǔ)言推理的閉環(huán)。

整個(gè)過(guò)程不引入任何新的模型組件或隱式token，分割能力完全從MLLM內(nèi)在的視覺(jué)推理中涌現(xiàn)，并天然支持從頭分割與mask精化兩類(lèi)任務(wù)。

與此同時(shí)，IBISAgemt采用兩階段訓(xùn)練方案：

第一階段：冷啟動(dòng)SFT。

現(xiàn)有生物醫(yī)學(xué)分割數(shù)據(jù)集只有最終mask，沒(méi)有逐步點(diǎn)擊軌跡。

研究團(tuán)隊(duì)利用BiomedParseData（340萬(wàn)圖像-mask對(duì)， 9種成像模態(tài)）開(kāi)發(fā)了自動(dòng)軌跡生成算法：

通過(guò)規(guī)則化的點(diǎn)擊模擬策略自動(dòng)推導(dǎo)點(diǎn)擊序列，再用Gemini- 2.5-Pro為每步生成對(duì)應(yīng)的自然語(yǔ)言推理。

為增強(qiáng)魯棒性，額外合成兩類(lèi)自我反思軌跡：

（1）錯(cuò)誤自糾正——檢測(cè)到錯(cuò)誤動(dòng)作后回溯并重新推理；

（2）指令不一致糾正——遇到與初始mask不符的指令時(shí)主動(dòng)丟棄并重新分割。最終構(gòu)建出包含456K樣本的高質(zhì)量冷啟動(dòng)數(shù)據(jù)集。

第二階段：Agentic強(qiáng)化學(xué)習(xí)。

SFT之后模型仍在模仿已有軌跡，研究團(tuán)隊(duì)進(jìn)一步引入RL，設(shè)計(jì)細(xì)粒度獎(jiǎng)勵(lì)框架在每個(gè)交互步驟提供密集反饋：

其中區(qū)域點(diǎn)擊獎(jiǎng)勵(lì)與漸進(jìn)式分割改進(jìn)獎(jiǎng)勵(lì)是核心創(chuàng)新——

前者引導(dǎo)模型將每次點(diǎn)擊落在語(yǔ)義有效的區(qū)域，后者強(qiáng)制每步行動(dòng)必須帶來(lái)實(shí)質(zhì)性的分割改善，從而徹底杜絕冗余操作與來(lái)回震蕩。

RL訓(xùn)練使用GRPO算法，在888KVQA樣本上進(jìn)行優(yōu)化。

實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)結(jié)果顯示，IBISAgemt在域內(nèi)測(cè)試集、域外泛化集（MeCOVQA-G+，涵蓋5種成像模態(tài)）和自建私有數(shù)據(jù)集（1K CT/MRI/病理， 7類(lèi)癌癥）三個(gè)benchmark上，均大幅領(lǐng)先所有對(duì)比方法。

相比醫(yī)學(xué)專(zhuān)用MLLM基線(xiàn)，平均IoU提升35.13%， DSC提升37.58%， F1提升29.79%。

值得注意的是， Citrus-V和UniBiomed均在比本方法更大規(guī)模的數(shù)據(jù)集上訓(xùn)練， IBISAgent仍能一致超越，說(shuō)明性能提升來(lái)自方法設(shè)計(jì)本身，而非數(shù)據(jù)優(yōu)勢(shì)。

與工具增強(qiáng)Agent的對(duì)比實(shí)驗(yàn)

相比同樣調(diào)用MedSAM2的工具增強(qiáng)型Agent（GPT-4o 、LLaVA-Med 、HuatuoGPT-Vision等）， IBISAgent在域外集和私有數(shù)據(jù)集上仍保持顯著領(lǐng)先，充分說(shuō)明多輪交互式推理帶來(lái)的增益遠(yuǎn)超簡(jiǎn)單的工具調(diào)用。

兩階段訓(xùn)練消融實(shí)驗(yàn)

消融實(shí)驗(yàn)證明，冷啟動(dòng)SFT、自我反思軌跡和RL三個(gè)方案缺一不可，逐級(jí)疊加均帶來(lái)明顯收益。

RL階段提供最大的性能躍升，說(shuō)明強(qiáng)化學(xué)習(xí)的探索-利用機(jī)制對(duì)激發(fā)真正自主的像素級(jí)推理至關(guān)重要。

細(xì)粒度獎(jiǎng)勵(lì)設(shè)計(jì)消融實(shí)驗(yàn)

對(duì)于RL階段的獎(jiǎng)勵(lì)設(shè)計(jì)，研究團(tuán)隊(duì)同樣進(jìn)行了逐項(xiàng)驗(yàn)證。

以?xún)H使用格式獎(jiǎng)勵(lì)與答案獎(jiǎng)勵(lì)為基線(xiàn)，在域外集MeCOVQA-G+上的IoU僅為73.77；

逐步引入?yún)^(qū)域點(diǎn)擊獎(jiǎng)勵(lì)后， IoU提升至76.60， mask定位準(zhǔn)確性顯著改善；

加入漸進(jìn)式分割改進(jìn)獎(jiǎng)勵(lì)后進(jìn)一步躍升至80.61，同時(shí)平均交互步數(shù)從11.29步壓縮至8.12步，模型學(xué)會(huì)了更高效的分割路徑；

最終疊加軌跡長(zhǎng)度獎(jiǎng)勵(lì)后，交互效率繼續(xù)提升，步數(shù)降至4.26步，同時(shí)分割質(zhì)量維持在最高水平。

這一結(jié)果表明，細(xì)粒度的逐步反饋信號(hào)是驅(qū)動(dòng)模型在質(zhì)量與效率之間取得最優(yōu)平衡的關(guān)鍵，單純依賴(lài)最終結(jié)果獎(jiǎng)勵(lì)無(wú)法達(dá)到同等效果。

小結(jié)一下

這項(xiàng)研究將生物醫(yī)學(xué)圖像分割從“單次推理輸出”推進(jìn)到“自主多輪交互決策”。

針對(duì)現(xiàn)有方法依賴(lài)隱式token導(dǎo)致的推理能力退化問(wèn)題， IBISAgent以交錯(cuò)的文本推理與點(diǎn)擊動(dòng)作完全替代

token，保留了MLLM完整的語(yǔ)言能力，并通過(guò)多步MDP建模實(shí)現(xiàn)真正的自主迭代精化。

進(jìn)一步地，冷啟動(dòng)SFT結(jié)合自動(dòng)軌跡生成建立穩(wěn)健的推理先驗(yàn)，Agentic強(qiáng)化學(xué)習(xí)與細(xì)粒度獎(jiǎng)勵(lì)驅(qū)動(dòng)模型超越模仿、探索最優(yōu)決策策略，最終實(shí)現(xiàn)了細(xì)粒度的視覺(jué)推理。

廣泛的實(shí)驗(yàn)驗(yàn)證了IBISAgent在多模態(tài)、多疾病場(chǎng)景下的一致性?xún)?yōu)勢(shì)，為未來(lái)面向真實(shí)臨床的智能醫(yī)學(xué)圖像分析系統(tǒng)奠定了重要基礎(chǔ)。

論文鏈接：
https://arxiv.org/abs/2601.03054
代碼鏈接：
https://github.com/Yankai96/IBISAgent

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.