周四凌晨,馬薩諸塞州一家醫(yī)療中心的急診室里,一臺(tái)機(jī)器正在和值班醫(yī)生做同一份考卷。答案揭曉時(shí),研究者們自己先愣了一下——OpenAI的o1系列大語言模型在診斷選擇、急診分診、后續(xù)處置決策上,匹配甚至超過了人類醫(yī)生的表現(xiàn)。
這場(chǎng)測(cè)試怎么設(shè)計(jì)的
![]()
《科學(xué)》期刊周四發(fā)表的這項(xiàng)研究,核心設(shè)計(jì)很直接:讓AI和人類醫(yī)生在完全相同的臨床場(chǎng)景下做判斷,然后比結(jié)果。
研究團(tuán)隊(duì)選了OpenAI 2024年發(fā)布的o1系列模型,設(shè)計(jì)了六個(gè)實(shí)驗(yàn)。前幾個(gè)用標(biāo)準(zhǔn)化臨床病例,后幾個(gè)直接接入真實(shí)急診數(shù)據(jù)——從馬薩諸塞州一家醫(yī)療中心隨機(jī)抽取的急診患者記錄。
每個(gè)病例,AI和多名醫(yī)生獨(dú)立給出診斷、分診級(jí)別、下一步處置方案。最后盲評(píng),看誰更準(zhǔn)確。
結(jié)果讓研究者自己也保持警惕。論文作者反復(fù)強(qiáng)調(diào):這些發(fā)現(xiàn)不意味著AI能取代醫(yī)生,而是意味著行業(yè)需要更快的評(píng)估標(biāo)準(zhǔn)和更嚴(yán)格的使用規(guī)則。
一個(gè)關(guān)鍵細(xì)節(jié)被反復(fù)提及:真實(shí)臨床工作依賴視覺和聽覺線索——患者臉色、呼吸聲、疼痛時(shí)的微表情——這些都沒進(jìn)數(shù)據(jù)集。
AI在哪類任務(wù)上拉開差距
分診階段,信息最少的時(shí)候,AI的優(yōu)勢(shì)最明顯。
急診分診是門殘酷的手藝。患者剛進(jìn)門,護(hù)士或醫(yī)生要在幾分鐘內(nèi)判斷:這人能等,還是立刻進(jìn)搶救室?決策依據(jù)往往只有主訴、生命體征、快速觀察。信息碎片化,時(shí)間壓力大,誤判代價(jià)極高。
研究發(fā)現(xiàn),人類醫(yī)生和AI都隨信息增加而提升準(zhǔn)確率,但AI處理不確定性的方式不同。面對(duì)零散、非結(jié)構(gòu)化的健康記錄和病歷筆記,大語言模型提取有效信息的能力更強(qiáng)。
這不是說AI"更聰明"。論文作者指出,人類醫(yī)生在信息不完整時(shí)的表現(xiàn)波動(dòng),部分源于認(rèn)知負(fù)荷和疲勞——急診輪班的現(xiàn)實(shí)。AI沒有這個(gè)問題,但它也沒有走過急診室走廊的經(jīng)驗(yàn)。
一個(gè)有趣的對(duì)比:早期的大語言模型已經(jīng)打敗了傳統(tǒng)算法診斷系統(tǒng),但這項(xiàng)研究的特殊之處在于規(guī)模和場(chǎng)景真實(shí)性。不是實(shí)驗(yàn)室里的干凈數(shù)據(jù)集,是真實(shí)的急診患者、真實(shí)的病歷、真實(shí)的醫(yī)生判斷。
為什么作者反對(duì)"AI取代醫(yī)生"的敘事
研究結(jié)論和媒體報(bào)道的常見框架直接沖突。作者團(tuán)隊(duì)主動(dòng)踩了剎車。
他們的論點(diǎn)分三層。第一,測(cè)試環(huán)境有邊界。所有病例都經(jīng)過了"可文本化"的處理——影像報(bào)告有文字描述,但AI沒看片子;體征有數(shù)據(jù)記錄,但AI沒站在床邊。
第二,臨床決策的社會(huì)維度被剝離。論文提到,真實(shí)診療涉及患者溝通、家屬協(xié)商、倫理權(quán)衡,這些無法被六維實(shí)驗(yàn)捕捉。
第三,也是作者最想強(qiáng)調(diào)的:現(xiàn)有AI醫(yī)療評(píng)估標(biāo)準(zhǔn)太慢、太松。這項(xiàng)研究的價(jià)值不在于證明AI多強(qiáng),而在于暴露評(píng)估體系的滯后。當(dāng)技術(shù)已經(jīng)能在特定任務(wù)上匹配專家,監(jiān)管框架還在用十年前的算法標(biāo)準(zhǔn)。
「這些發(fā)現(xiàn)建立在數(shù)十年用疑難病例評(píng)估醫(yī)療計(jì)算系統(tǒng)的基礎(chǔ)上」,論文寫道。但這一次,被評(píng)估的好像是評(píng)估系統(tǒng)本身。
從算法競(jìng)賽到協(xié)作框架
研究釋放的信號(hào)比表面結(jié)論更復(fù)雜。它同時(shí)指向兩個(gè)方向:AI在結(jié)構(gòu)化認(rèn)知任務(wù)上的潛力,以及人類醫(yī)生在整合多模態(tài)信息上的不可替代性。
一個(gè)可能的演進(jìn)路徑是分層協(xié)作。分診、初篩、病歷預(yù)處理——這些信息密集但模式相對(duì)標(biāo)準(zhǔn)化的環(huán)節(jié),AI承擔(dān)更多;復(fù)雜診斷、患者溝通、動(dòng)態(tài)調(diào)整——這些需要情境判斷的環(huán)節(jié),醫(yī)生主導(dǎo)。
但這種協(xié)作需要重新設(shè)計(jì)工作流程,而不是簡單地把AI塞進(jìn)現(xiàn)有系統(tǒng)。論文作者呼吁的"更快、更嚴(yán)格的評(píng)估標(biāo)準(zhǔn)",實(shí)質(zhì)是在要求行業(yè)回答:什么任務(wù)可以交給AI,什么必須保留人類決策權(quán),邊界怎么劃。
這個(gè)問題沒有技術(shù)答案。它涉及責(zé)任歸屬、患者信任、醫(yī)療事故法律框架——整套社會(huì)契約的重議。
對(duì)科技從業(yè)者的啟示
![]()
如果你是AI產(chǎn)品經(jīng)理或醫(yī)療科技創(chuàng)業(yè)者,這項(xiàng)研究提供了幾個(gè)可操作的觀察。
第一,垂直場(chǎng)景的"足夠好"標(biāo)準(zhǔn)正在抬高。通用大模型的基準(zhǔn)測(cè)試成績,和真實(shí)臨床任務(wù)的表現(xiàn),中間隔著大量工程化工作。o1系列能在急診場(chǎng)景勝出,不是因?yàn)槟P蛥?shù)更大,而是因?yàn)獒槍?duì)臨床推理做了優(yōu)化。
第二,"替代"敘事是陷阱,也是機(jī)會(huì)。研究作者主動(dòng)拒絕這種框架,反而讓成果更容易被醫(yī)療系統(tǒng)接納。技術(shù)落地的阻力往往不在技術(shù)本身,而在利益相關(guān)者的恐懼。承認(rèn)邊界,比夸大能力更能加速滲透。
第三,評(píng)估基礎(chǔ)設(shè)施是瓶頸。論文反復(fù)強(qiáng)調(diào)現(xiàn)有標(biāo)準(zhǔn)滯后,這意味著醫(yī)療AI的下一個(gè)戰(zhàn)場(chǎng)可能是合規(guī)和認(rèn)證——誰能建立被監(jiān)管機(jī)構(gòu)認(rèn)可的評(píng)估體系,誰就能定義市場(chǎng)準(zhǔn)入規(guī)則。
第四,人機(jī)協(xié)作的產(chǎn)品設(shè)計(jì)空間巨大。研究揭示了一個(gè)反直覺現(xiàn)象:信息越少,AI相對(duì)優(yōu)勢(shì)越大。這暗示產(chǎn)品設(shè)計(jì)的切入點(diǎn)可能不是"讓AI做醫(yī)生做的事",而是"讓AI做醫(yī)生做不到的事"——比如在信息稀缺時(shí)提供結(jié)構(gòu)化建議,供醫(yī)生快速驗(yàn)證或排除。
時(shí)間線復(fù)盤:從算法到急診室
這項(xiàng)研究不是孤立突破,而是醫(yī)療AI演進(jìn)的一個(gè)節(jié)點(diǎn)。
decades ago,醫(yī)學(xué)界開始用疑難病例測(cè)試計(jì)算機(jī)診斷系統(tǒng)。早期算法基于規(guī)則,后來是機(jī)器學(xué)習(xí)模型,再往后是深度學(xué)習(xí)。每一代技術(shù)都在特定數(shù)據(jù)集上刷新準(zhǔn)確率,但臨床采納始終緩慢。
大語言模型的出現(xiàn)改變了游戲規(guī)則。不同于前代系統(tǒng)需要大量人工特征工程,LLM可以直接處理自然語言病歷,適應(yīng)不同醫(yī)院的記錄格式。這種靈活性讓"從論文到病房"的路徑變短了。
2024年OpenAI發(fā)布o(jì)1系列,強(qiáng)調(diào)"推理能力"——不是更快生成答案,而是在復(fù)雜問題上花更多時(shí)間思考。這項(xiàng)研究選擇o1,正是測(cè)試這種能力在醫(yī)療場(chǎng)景的價(jià)值。
2026年4月,論文發(fā)表。同期,全球多家醫(yī)院正在試點(diǎn)AI輔助分診系統(tǒng),監(jiān)管討論從"是否允許"轉(zhuǎn)向"如何規(guī)范"。
關(guān)鍵轉(zhuǎn)折在于證據(jù)質(zhì)量。此前多數(shù)研究用回顧性數(shù)據(jù),這項(xiàng)研究設(shè)計(jì)了前瞻性對(duì)比,讓AI和醫(yī)生同時(shí)面對(duì)相同的新病例。方法論的嚴(yán)謹(jǐn)性,讓結(jié)論更難被 dismiss。
未回答的問題
研究留下幾個(gè)開放的工程挑戰(zhàn)。
多模態(tài)整合:當(dāng)AI能同時(shí)讀病歷、看影像、聽心音,表現(xiàn)會(huì)如何變化?論文明確排除了這部分,但產(chǎn)品演進(jìn)的方向清晰可見。
動(dòng)態(tài)交互:測(cè)試中的AI一次性接收所有信息,真實(shí)診療是往復(fù)對(duì)話。患者補(bǔ)充癥狀、醫(yī)生追問細(xì)節(jié),這種迭代過程如何設(shè)計(jì)AI參與方式?
錯(cuò)誤模式:AI和人類醫(yī)生的錯(cuò)誤類型是否不同?如果AI在特定人群、特定疾病上系統(tǒng)性偏差,如何檢測(cè)和修正?
長期影響:如果分診環(huán)節(jié)大規(guī)模引入AI,醫(yī)生的臨床能力培養(yǎng)會(huì)受什么影響?經(jīng)驗(yàn)積累的路徑被改變,十年后的急診醫(yī)生還會(huì)是今天的樣子嗎?
這些問題沒有現(xiàn)成答案,但定義了下一個(gè)階段的產(chǎn)品競(jìng)爭維度。
行動(dòng)號(hào)召
這項(xiàng)研究的價(jià)值,不在于它證明了AI比醫(yī)生強(qiáng),而在于它證明了"比醫(yī)生強(qiáng)"這個(gè)標(biāo)準(zhǔn)本身已經(jīng)不夠用了。
真正的問題變成:在什么條件下,AI的參與能讓醫(yī)療系統(tǒng)整體更可靠、更公平、更高效?這需要技術(shù)、臨床、監(jiān)管、倫理的多方協(xié)作,也需要愿意在這個(gè)模糊地帶探索的產(chǎn)品人。
如果你是科技從業(yè)者,現(xiàn)在可以做的三件事:第一,關(guān)注FDA、NMPA等監(jiān)管機(jī)構(gòu)對(duì)醫(yī)療AI評(píng)估框架的更新,這比模型參數(shù)更重要;第二,在垂直場(chǎng)景中尋找"信息稀缺決策"的機(jī)會(huì)點(diǎn),這是當(dāng)前AI的相對(duì)優(yōu)勢(shì)區(qū);第三,和臨床一線建立真實(shí)反饋循環(huán),不是做demo展示,而是觀察AI建議如何被采納、被修改、被忽略。
急診室的燈光不會(huì)熄滅,但照亮的協(xié)作方式正在重寫。早點(diǎn)進(jìn)場(chǎng),參與規(guī)則制定,比后期適應(yīng)規(guī)則更有價(jià)值。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.