這個(gè)生物醫(yī)學(xué)視覺(jué)推理框架,被CVPR 2026接收了!
![]()
人類(lèi)專(zhuān)家在標(biāo)注醫(yī)學(xué)圖像時(shí),從不是“看一眼就畫(huà)出來(lái)”。
他們會(huì)先掃視全圖、鎖定可疑區(qū)域,隨后在分割工具上反復(fù)點(diǎn)擊正負(fù)樣本,根據(jù)每一步生成的mask形態(tài)重新判斷,不斷調(diào)整策略——
這是一個(gè)多輪交互、邊看邊想、邊想邊做的迭代推理過(guò)程。
然而,現(xiàn)有的醫(yī)學(xué)多模態(tài)大模型普遍采用“單次前向推理”范式:
輸入圖像,輸出mask,一步到位。
這種方式面對(duì)生物醫(yī)學(xué)圖像中細(xì)微的病灶邊界、復(fù)雜的解剖結(jié)構(gòu)、模糊的視覺(jué)語(yǔ)義時(shí)往往力不從心。
更深層的問(wèn)題在于,為了賦予MLLM分割能力,現(xiàn)有方法普遍引入隱式分割token(如
)并與外部pixel decoder聯(lián)合微調(diào)——
這一設(shè)計(jì)破壞了大模型原有的文本輸出空間,導(dǎo)致語(yǔ)言推理能力退化,泛化能力大打折扣。
上述范式存在四個(gè)核心瓶頸:
- 單次推理無(wú)法自我糾錯(cuò):一旦第一步定位出現(xiàn)偏差,錯(cuò)誤持續(xù)累積,最終影響分割質(zhì)量。
- 隱式token破壞推理能力
- 等token侵占文本空間,導(dǎo)致災(zāi)難性遺忘,細(xì)粒度視覺(jué)推理被嚴(yán)重壓制。
- 缺乏自主決策機(jī)制:模型只能被動(dòng)執(zhí)行單次指令,無(wú)法像人類(lèi)專(zhuān)家一樣主動(dòng)觀(guān)察、反思、調(diào)整。
- 訓(xùn)練數(shù)據(jù)瓶頸:現(xiàn)有數(shù)據(jù)集只有最終mask,缺乏逐步交互的推理軌跡,難以直接監(jiān)督多步行為。
鑒于上述問(wèn)題,浙江大學(xué)蔡鈺祥教授、上海人工智能實(shí)驗(yàn)室研究員江彥開(kāi)等人聯(lián)合提出了IBISAgent——
一個(gè)將分割重新定義為多步視覺(jué)決策過(guò)程的Agentic MLLM框架。
具體方法
概括而言,IBISAgent的主要?jiǎng)?chuàng)新點(diǎn)如下:
- 將分割任務(wù)建模為多步馬爾可夫決策過(guò)程(MDP) ,以交錯(cuò)的文本推理與點(diǎn)擊動(dòng)作替代隱式token,保留MLLM完整的語(yǔ)言推理能力,同時(shí)實(shí)現(xiàn)自主多輪迭代精化。
- 提出兩階段訓(xùn)練框架。首先通過(guò)冷啟動(dòng)SFT在自動(dòng)生成的推理軌跡上建立像素級(jí)推理先驗(yàn);隨后引入Agentic強(qiáng)化學(xué)習(xí),以細(xì)粒度獎(jiǎng)勵(lì)信號(hào)驅(qū)動(dòng)模型自主探索更優(yōu)決策策略,超越對(duì)軌跡的簡(jiǎn)單模仿。
- 構(gòu)建包含456K條高質(zhì)量推理軌跡的冷啟動(dòng)數(shù)據(jù)集,覆蓋正常標(biāo)注與自我反思糾錯(cuò)兩類(lèi)軌跡,為多步視覺(jué)推理提供系統(tǒng)化的訓(xùn)練基礎(chǔ)。
具體方法為,IBISAgent將整個(gè)分割過(guò)程建模為一條多步推理軌跡,每一步由三個(gè)核心元素構(gòu)成閉環(huán):
- 推理(Textual Thinking) :模型對(duì)當(dāng)前分割圖像的狀態(tài)進(jìn)行推理分析,如“當(dāng)前mask偏左,需要在右側(cè)腫瘤邊緣補(bǔ)充正向點(diǎn)擊”。
- 行動(dòng)(Action) :模型輸出結(jié)構(gòu)化的空間點(diǎn)擊指令,包含三個(gè)要素:分割目標(biāo)類(lèi)別(Target)、點(diǎn)擊屬性(正/負(fù),Attribute)、歸一化圖像坐標(biāo)(Coordinate_2d)。模型可在一步中同時(shí)輸出多個(gè)點(diǎn)擊。
- 觀(guān)測(cè)(Observation) :點(diǎn)擊被傳入交互式分割工具M(jìn)edSAM2,生成更新后的mask,并疊加到原圖上作為下一步的視覺(jué)輸入反饋給模型。
這一設(shè)計(jì)的關(guān)鍵在于:
模型每一步都能“看到”自己上一步分割的結(jié)果,形成視覺(jué)感知與語(yǔ)言推理的閉環(huán)。
整個(gè)過(guò)程不引入任何新的模型組件或隱式token,分割能力完全從MLLM內(nèi)在的視覺(jué)推理中涌現(xiàn),并天然支持從頭分割與mask精化兩類(lèi)任務(wù)。
![]()
與此同時(shí),IBISAgemt采用兩階段訓(xùn)練方案:
第一階段:冷啟動(dòng)SFT。
現(xiàn)有生物醫(yī)學(xué)分割數(shù)據(jù)集只有最終mask,沒(méi)有逐步點(diǎn)擊軌跡。
研究團(tuán)隊(duì)利用BiomedParseData(340萬(wàn)圖像-mask對(duì), 9種成像模態(tài))開(kāi)發(fā)了自動(dòng)軌跡生成算法:
通過(guò)規(guī)則化的點(diǎn)擊模擬策略自動(dòng)推導(dǎo)點(diǎn)擊序列,再用Gemini- 2.5-Pro為每步生成對(duì)應(yīng)的自然語(yǔ)言推理。
為增強(qiáng)魯棒性,額外合成兩類(lèi)自我反思軌跡:
(1)錯(cuò)誤自糾正——檢測(cè)到錯(cuò)誤動(dòng)作后回溯并重新推理;
(2)指令不一致糾正——遇到與初始mask不符的指令時(shí)主動(dòng)丟棄并重新分割。最終構(gòu)建出包含456K樣本的高質(zhì)量冷啟動(dòng)數(shù)據(jù)集。
第二階段:Agentic強(qiáng)化學(xué)習(xí)。
SFT之后模型仍在模仿已有軌跡,研究團(tuán)隊(duì)進(jìn)一步引入RL,設(shè)計(jì)細(xì)粒度獎(jiǎng)勵(lì)框架在每個(gè)交互步驟提供密集反饋:
![]()
其中區(qū)域點(diǎn)擊獎(jiǎng)勵(lì)與漸進(jìn)式分割改進(jìn)獎(jiǎng)勵(lì)是核心創(chuàng)新——
前者引導(dǎo)模型將每次點(diǎn)擊落在語(yǔ)義有效的區(qū)域,后者強(qiáng)制每步行動(dòng)必須帶來(lái)實(shí)質(zhì)性的分割改善,從而徹底杜絕冗余操作與來(lái)回震蕩。
RL訓(xùn)練使用GRPO算法,在888KVQA樣本上進(jìn)行優(yōu)化。
![]()
實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)結(jié)果顯示,IBISAgemt在域內(nèi)測(cè)試集、域外泛化集(MeCOVQA-G+,涵蓋5種成像模態(tài))和自建私有數(shù)據(jù)集(1K CT/MRI/病理, 7類(lèi)癌癥)三個(gè)benchmark上, 均大幅領(lǐng)先所有對(duì)比方法。
相比醫(yī)學(xué)專(zhuān)用MLLM基線(xiàn),平均IoU提升35.13%, DSC提升37.58%, F1提升29.79%。
值得注意的是, Citrus-V和UniBiomed均在比本方法更大規(guī)模的數(shù)據(jù)集上訓(xùn)練, IBISAgent仍能一致超越,說(shuō)明性能提升來(lái)自方法設(shè)計(jì)本身,而非數(shù)據(jù)優(yōu)勢(shì)。
![]()
與工具增強(qiáng)Agent的對(duì)比實(shí)驗(yàn)
相比同樣調(diào)用MedSAM2的工具增強(qiáng)型Agent(GPT-4o 、LLaVA-Med 、HuatuoGPT-Vision等), IBISAgent在域外集和私有數(shù)據(jù)集上仍保持顯著領(lǐng)先,充分說(shuō)明多輪交互式推理帶來(lái)的增益遠(yuǎn)超簡(jiǎn)單的工具調(diào)用。
![]()
兩階段訓(xùn)練消融實(shí)驗(yàn)
消融實(shí)驗(yàn)證明,冷啟動(dòng)SFT、自我反思軌跡和RL三個(gè)方案缺一不可,逐級(jí)疊加均帶來(lái)明顯收益。
RL階段提供最大的性能躍升,說(shuō)明強(qiáng)化學(xué)習(xí)的探索-利用機(jī)制對(duì)激發(fā)真正自主的像素級(jí)推理至關(guān)重要。
![]()
細(xì)粒度獎(jiǎng)勵(lì)設(shè)計(jì)消融實(shí)驗(yàn)
對(duì)于RL階段的獎(jiǎng)勵(lì)設(shè)計(jì),研究團(tuán)隊(duì)同樣進(jìn)行了逐項(xiàng)驗(yàn)證。
以?xún)H使用格式獎(jiǎng)勵(lì)與答案獎(jiǎng)勵(lì)為基線(xiàn),在域外集MeCOVQA-G+上的IoU僅為73.77;
逐步引入?yún)^(qū)域點(diǎn)擊獎(jiǎng)勵(lì)后, IoU提升至76.60, mask定位準(zhǔn)確性顯著改善;
加入漸進(jìn)式分割改進(jìn)獎(jiǎng)勵(lì)后進(jìn)一步躍升至80.61,同時(shí)平均交互步數(shù)從11.29步壓縮至8.12步,模型學(xué)會(huì)了更高效的分割路徑;
最終疊加軌跡長(zhǎng)度獎(jiǎng)勵(lì)后,交互效率繼續(xù)提升,步數(shù)降至4.26步,同時(shí)分割質(zhì)量維持在最高水平。
這一結(jié)果表明,細(xì)粒度的逐步反饋信號(hào)是驅(qū)動(dòng)模型在質(zhì)量與效率之間取得最優(yōu)平衡的關(guān)鍵,單純依賴(lài)最終結(jié)果獎(jiǎng)勵(lì)無(wú)法達(dá)到同等效果。
![]()
小結(jié)一下
這項(xiàng)研究將生物醫(yī)學(xué)圖像分割從“單次推理輸出”推進(jìn)到“自主多輪交互決策”。
針對(duì)現(xiàn)有方法依賴(lài)隱式token導(dǎo)致的推理能力退化問(wèn)題, IBISAgent以交錯(cuò)的文本推理與點(diǎn)擊動(dòng)作完全替代
token,保留了MLLM完整的語(yǔ)言能力,并通過(guò)多步MDP建模實(shí)現(xiàn)真正的自主迭代精化。
進(jìn)一步地,冷啟動(dòng)SFT結(jié)合自動(dòng)軌跡生成建立穩(wěn)健的推理先驗(yàn),Agentic強(qiáng)化學(xué)習(xí)與細(xì)粒度獎(jiǎng)勵(lì)驅(qū)動(dòng)模型超越模仿、探索最優(yōu)決策策略,最終實(shí)現(xiàn)了細(xì)粒度的視覺(jué)推理。
廣泛的實(shí)驗(yàn)驗(yàn)證了IBISAgent在多模態(tài)、多疾病場(chǎng)景下的一致性?xún)?yōu)勢(shì),為未來(lái)面向真實(shí)臨床的智能醫(yī)學(xué)圖像分析系統(tǒng)奠定了重要基礎(chǔ)。
論文鏈接:
https://arxiv.org/abs/2601.03054
代碼鏈接:
https://github.com/Yankai96/IBISAgent
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.