網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

急診室AI診斷首勝醫(yī)生，但作者說別急著換人

2026-05-01 04:46:26　來源: 賽博蘭博

北京舉報(bào)

分享至

周四凌晨，馬薩諸塞州一家醫(yī)療中心的急診室里，一臺(tái)機(jī)器正在和值班醫(yī)生做同一份考卷。答案揭曉時(shí)，研究者們自己先愣了一下——OpenAI的o1系列大語言模型在診斷選擇、急診分診、后續(xù)處置決策上，匹配甚至超過了人類醫(yī)生的表現(xiàn)。

這場(chǎng)測(cè)試怎么設(shè)計(jì)的

《科學(xué)》期刊周四發(fā)表的這項(xiàng)研究，核心設(shè)計(jì)很直接：讓AI和人類醫(yī)生在完全相同的臨床場(chǎng)景下做判斷，然后比結(jié)果。

研究團(tuán)隊(duì)選了OpenAI 2024年發(fā)布的o1系列模型，設(shè)計(jì)了六個(gè)實(shí)驗(yàn)。前幾個(gè)用標(biāo)準(zhǔn)化臨床病例，后幾個(gè)直接接入真實(shí)急診數(shù)據(jù)——從馬薩諸塞州一家醫(yī)療中心隨機(jī)抽取的急診患者記錄。

每個(gè)病例，AI和多名醫(yī)生獨(dú)立給出診斷、分診級(jí)別、下一步處置方案。最后盲評(píng)，看誰更準(zhǔn)確。

結(jié)果讓研究者自己也保持警惕。論文作者反復(fù)強(qiáng)調(diào)：這些發(fā)現(xiàn)不意味著AI能取代醫(yī)生，而是意味著行業(yè)需要更快的評(píng)估標(biāo)準(zhǔn)和更嚴(yán)格的使用規(guī)則。

一個(gè)關(guān)鍵細(xì)節(jié)被反復(fù)提及：真實(shí)臨床工作依賴視覺和聽覺線索——患者臉色、呼吸聲、疼痛時(shí)的微表情——這些都沒進(jìn)數(shù)據(jù)集。

AI在哪類任務(wù)上拉開差距

分診階段，信息最少的時(shí)候，AI的優(yōu)勢(shì)最明顯。

急診分診是門殘酷的手藝。患者剛進(jìn)門，護(hù)士或醫(yī)生要在幾分鐘內(nèi)判斷：這人能等，還是立刻進(jìn)搶救室？決策依據(jù)往往只有主訴、生命體征、快速觀察。信息碎片化，時(shí)間壓力大，誤判代價(jià)極高。

研究發(fā)現(xiàn)，人類醫(yī)生和AI都隨信息增加而提升準(zhǔn)確率，但AI處理不確定性的方式不同。面對(duì)零散、非結(jié)構(gòu)化的健康記錄和病歷筆記，大語言模型提取有效信息的能力更強(qiáng)。

這不是說AI"更聰明"。論文作者指出，人類醫(yī)生在信息不完整時(shí)的表現(xiàn)波動(dòng)，部分源于認(rèn)知負(fù)荷和疲勞——急診輪班的現(xiàn)實(shí)。AI沒有這個(gè)問題，但它也沒有走過急診室走廊的經(jīng)驗(yàn)。

一個(gè)有趣的對(duì)比：早期的大語言模型已經(jīng)打敗了傳統(tǒng)算法診斷系統(tǒng)，但這項(xiàng)研究的特殊之處在于規(guī)模和場(chǎng)景真實(shí)性。不是實(shí)驗(yàn)室里的干凈數(shù)據(jù)集，是真實(shí)的急診患者、真實(shí)的病歷、真實(shí)的醫(yī)生判斷。

為什么作者反對(duì)"AI取代醫(yī)生"的敘事

研究結(jié)論和媒體報(bào)道的常見框架直接沖突。作者團(tuán)隊(duì)主動(dòng)踩了剎車。

他們的論點(diǎn)分三層。第一，測(cè)試環(huán)境有邊界。所有病例都經(jīng)過了"可文本化"的處理——影像報(bào)告有文字描述，但AI沒看片子；體征有數(shù)據(jù)記錄，但AI沒站在床邊。

第二，臨床決策的社會(huì)維度被剝離。論文提到，真實(shí)診療涉及患者溝通、家屬協(xié)商、倫理權(quán)衡，這些無法被六維實(shí)驗(yàn)捕捉。

第三，也是作者最想強(qiáng)調(diào)的：現(xiàn)有AI醫(yī)療評(píng)估標(biāo)準(zhǔn)太慢、太松。這項(xiàng)研究的價(jià)值不在于證明AI多強(qiáng)，而在于暴露評(píng)估體系的滯后。當(dāng)技術(shù)已經(jīng)能在特定任務(wù)上匹配專家，監(jiān)管框架還在用十年前的算法標(biāo)準(zhǔn)。

「這些發(fā)現(xiàn)建立在數(shù)十年用疑難病例評(píng)估醫(yī)療計(jì)算系統(tǒng)的基礎(chǔ)上」，論文寫道。但這一次，被評(píng)估的好像是評(píng)估系統(tǒng)本身。

從算法競(jìng)賽到協(xié)作框架

研究釋放的信號(hào)比表面結(jié)論更復(fù)雜。它同時(shí)指向兩個(gè)方向：AI在結(jié)構(gòu)化認(rèn)知任務(wù)上的潛力，以及人類醫(yī)生在整合多模態(tài)信息上的不可替代性。

一個(gè)可能的演進(jìn)路徑是分層協(xié)作。分診、初篩、病歷預(yù)處理——這些信息密集但模式相對(duì)標(biāo)準(zhǔn)化的環(huán)節(jié)，AI承擔(dān)更多；復(fù)雜診斷、患者溝通、動(dòng)態(tài)調(diào)整——這些需要情境判斷的環(huán)節(jié)，醫(yī)生主導(dǎo)。

但這種協(xié)作需要重新設(shè)計(jì)工作流程，而不是簡單地把AI塞進(jìn)現(xiàn)有系統(tǒng)。論文作者呼吁的"更快、更嚴(yán)格的評(píng)估標(biāo)準(zhǔn)"，實(shí)質(zhì)是在要求行業(yè)回答：什么任務(wù)可以交給AI，什么必須保留人類決策權(quán)，邊界怎么劃。

這個(gè)問題沒有技術(shù)答案。它涉及責(zé)任歸屬、患者信任、醫(yī)療事故法律框架——整套社會(huì)契約的重議。

對(duì)科技從業(yè)者的啟示

如果你是AI產(chǎn)品經(jīng)理或醫(yī)療科技創(chuàng)業(yè)者，這項(xiàng)研究提供了幾個(gè)可操作的觀察。

第一，垂直場(chǎng)景的"足夠好"標(biāo)準(zhǔn)正在抬高。通用大模型的基準(zhǔn)測(cè)試成績，和真實(shí)臨床任務(wù)的表現(xiàn)，中間隔著大量工程化工作。o1系列能在急診場(chǎng)景勝出，不是因?yàn)槟Ｐ蛥?shù)更大，而是因?yàn)獒槍?duì)臨床推理做了優(yōu)化。

第二，"替代"敘事是陷阱，也是機(jī)會(huì)。研究作者主動(dòng)拒絕這種框架，反而讓成果更容易被醫(yī)療系統(tǒng)接納。技術(shù)落地的阻力往往不在技術(shù)本身，而在利益相關(guān)者的恐懼。承認(rèn)邊界，比夸大能力更能加速滲透。

第三，評(píng)估基礎(chǔ)設(shè)施是瓶頸。論文反復(fù)強(qiáng)調(diào)現(xiàn)有標(biāo)準(zhǔn)滯后，這意味著醫(yī)療AI的下一個(gè)戰(zhàn)場(chǎng)可能是合規(guī)和認(rèn)證——誰能建立被監(jiān)管機(jī)構(gòu)認(rèn)可的評(píng)估體系，誰就能定義市場(chǎng)準(zhǔn)入規(guī)則。

第四，人機(jī)協(xié)作的產(chǎn)品設(shè)計(jì)空間巨大。研究揭示了一個(gè)反直覺現(xiàn)象：信息越少，AI相對(duì)優(yōu)勢(shì)越大。這暗示產(chǎn)品設(shè)計(jì)的切入點(diǎn)可能不是"讓AI做醫(yī)生做的事"，而是"讓AI做醫(yī)生做不到的事"——比如在信息稀缺時(shí)提供結(jié)構(gòu)化建議，供醫(yī)生快速驗(yàn)證或排除。

時(shí)間線復(fù)盤：從算法到急診室

這項(xiàng)研究不是孤立突破，而是醫(yī)療AI演進(jìn)的一個(gè)節(jié)點(diǎn)。

decades ago，醫(yī)學(xué)界開始用疑難病例測(cè)試計(jì)算機(jī)診斷系統(tǒng)。早期算法基于規(guī)則，后來是機(jī)器學(xué)習(xí)模型，再往后是深度學(xué)習(xí)。每一代技術(shù)都在特定數(shù)據(jù)集上刷新準(zhǔn)確率，但臨床采納始終緩慢。

大語言模型的出現(xiàn)改變了游戲規(guī)則。不同于前代系統(tǒng)需要大量人工特征工程，LLM可以直接處理自然語言病歷，適應(yīng)不同醫(yī)院的記錄格式。這種靈活性讓"從論文到病房"的路徑變短了。

2024年OpenAI發(fā)布o(jì)1系列，強(qiáng)調(diào)"推理能力"——不是更快生成答案，而是在復(fù)雜問題上花更多時(shí)間思考。這項(xiàng)研究選擇o1，正是測(cè)試這種能力在醫(yī)療場(chǎng)景的價(jià)值。

2026年4月，論文發(fā)表。同期，全球多家醫(yī)院正在試點(diǎn)AI輔助分診系統(tǒng)，監(jiān)管討論從"是否允許"轉(zhuǎn)向"如何規(guī)范"。

關(guān)鍵轉(zhuǎn)折在于證據(jù)質(zhì)量。此前多數(shù)研究用回顧性數(shù)據(jù)，這項(xiàng)研究設(shè)計(jì)了前瞻性對(duì)比，讓AI和醫(yī)生同時(shí)面對(duì)相同的新病例。方法論的嚴(yán)謹(jǐn)性，讓結(jié)論更難被 dismiss。

未回答的問題

研究留下幾個(gè)開放的工程挑戰(zhàn)。

多模態(tài)整合：當(dāng)AI能同時(shí)讀病歷、看影像、聽心音，表現(xiàn)會(huì)如何變化？論文明確排除了這部分，但產(chǎn)品演進(jìn)的方向清晰可見。

動(dòng)態(tài)交互：測(cè)試中的AI一次性接收所有信息，真實(shí)診療是往復(fù)對(duì)話。患者補(bǔ)充癥狀、醫(yī)生追問細(xì)節(jié)，這種迭代過程如何設(shè)計(jì)AI參與方式？

錯(cuò)誤模式：AI和人類醫(yī)生的錯(cuò)誤類型是否不同？如果AI在特定人群、特定疾病上系統(tǒng)性偏差，如何檢測(cè)和修正？

長期影響：如果分診環(huán)節(jié)大規(guī)模引入AI，醫(yī)生的臨床能力培養(yǎng)會(huì)受什么影響？經(jīng)驗(yàn)積累的路徑被改變，十年后的急診醫(yī)生還會(huì)是今天的樣子嗎？

這些問題沒有現(xiàn)成答案，但定義了下一個(gè)階段的產(chǎn)品競(jìng)爭維度。

行動(dòng)號(hào)召

這項(xiàng)研究的價(jià)值，不在于它證明了AI比醫(yī)生強(qiáng)，而在于它證明了"比醫(yī)生強(qiáng)"這個(gè)標(biāo)準(zhǔn)本身已經(jīng)不夠用了。

真正的問題變成：在什么條件下，AI的參與能讓醫(yī)療系統(tǒng)整體更可靠、更公平、更高效？這需要技術(shù)、臨床、監(jiān)管、倫理的多方協(xié)作，也需要愿意在這個(gè)模糊地帶探索的產(chǎn)品人。

如果你是科技從業(yè)者，現(xiàn)在可以做的三件事：第一，關(guān)注FDA、NMPA等監(jiān)管機(jī)構(gòu)對(duì)醫(yī)療AI評(píng)估框架的更新，這比模型參數(shù)更重要；第二，在垂直場(chǎng)景中尋找"信息稀缺決策"的機(jī)會(huì)點(diǎn)，這是當(dāng)前AI的相對(duì)優(yōu)勢(shì)區(qū)；第三，和臨床一線建立真實(shí)反饋循環(huán)，不是做demo展示，而是觀察AI建議如何被采納、被修改、被忽略。

急診室的燈光不會(huì)熄滅，但照亮的協(xié)作方式正在重寫。早點(diǎn)進(jìn)場(chǎng)，參與規(guī)則制定，比后期適應(yīng)規(guī)則更有價(jià)值。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.