網易首頁 > 網易號 > 正文申請入駐

急診室里的AI：它比醫生更會猜病因

2026-05-01 02:40:20　來源: 硅嶼手記

北京舉報

分享至

波士頓一家急診室的76份病歷被輸入一臺AI系統。結果讓研究團隊愣住——在最難確診的病例里，這臺機器列出正確診斷的概率，超過了資深醫生。

這不是科幻場景。2025年4月30日，哈佛大學團隊把實驗結果發在了《科學》期刊上。他們測試的是OpenAI的o-1預覽版，一種能逐步拆解復雜問題的推理模型。論文顯示，AI在80%的情況下會把正確答案放進備選清單，而醫生的表現明顯落后。

但爭議立刻炸開。同一所大學的醫學研究者Arya Rao公開質疑：機器做的"推理"，和醫學生學的"推理"，根本是兩回事。

一場關于AI能否參與臨床決策的爭論，正在醫學界的最高殿堂激烈交鋒。

實驗設計：三組數據，一個殘酷對比

研究團隊設計了三層測試，層層加碼。

第一層是教科書級難度。他們用了醫學教育中的經典癥狀組合——那些讓住院醫師夜不能寐的疑難案例。第二層更狠：直接調取真實病歷。76名波士頓急診患者的完整診療記錄，被脫敏后喂給AI。第三層則橫跨歷史數據，對比了此前發表在新英格蘭醫學雜志上的長期疑難病例系列。

三組對手同臺競技：純AI模型、傳統診斷輔助軟件、人類臨床醫生。

圖表數據（腳本自動插入圖片：https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2026%2F0501%2F4339a867j00tebl4s0010d000m800cip.jpg&thumbnail=660x2147483647&quality=80&type=jpg）顯示了殘酷差距。深色柱代表的AI推理模型o1-preview，正確診斷納入率逼近80%。淺色柱的傳統診斷軟件、棕色柱的人類醫生，都被甩在身后。

研究作者之一、哈佛大學生物醫學數據科學家Arjun Manrai在4月28日的發布會上說：「我們正在見證一項真正深刻的技術變革，它將重塑醫學。」

這句話的分量，需要放在具體場景里理解。

核心發現：AI的"靈光一閃"時刻

醫學診斷最難的環節，常被外行忽略。

不是從A、B、C選項里挑正確答案。而是在一片空白中，想到"還有D這個可能性"。論文開篇就點破這個痛點：在醫學最棘手的病例中，最難的部分不是選對診斷，而是想到它。

這正是AI展現優勢的地帶。

大語言模型（大型語言模型，LLM）的進化版本——推理模型——被設計成分步思考。它們不像早期AI那樣直接蹦答案，而是展示一條思考鏈：先列出癥狀群，再排除常見病因，最后指向那些容易被忽視的罕見病。

在急診場景下，這種能力直接對應臨床痛點。一個發熱伴皮疹的患者，可能是病毒感染，也可能是藥物過敏，還可能是川崎病早期。人類醫生受限于認知負荷和記憶檢索速度，常在高壓下漏掉后兩種。AI的"廣撒網"策略，反而降低了漏診概率。

但論文也留了關鍵伏筆：數據來自多項既往研究，各系統并非審視完全相同的病例集。所有系統只檢查了同一長期病例系列的某個子集。這意味著橫向對比存在方法論瑕疵，結論需要謹慎解讀。

行業背景：五分之一醫護已在偷偷用AI

這項研究發布的時間點，恰逢醫療AI的滲透拐點。

2025年的一項全球調查顯示，超過2000名受訪醫生和護士中，五分之一已在復雜病例中把AI當"第二意見"使用。超過半數明確表示想這么干。

需求已經存在。供給正在成熟。唯一卡住的是信任。

臨床決策的特殊性在于：錯誤代價極高，責任歸屬模糊。AI推薦了一個診斷，醫生采納后出錯，算誰的責任？醫院信息系統接入第三方模型，患者數據如何脫敏？監管機構對"輔助診斷"和"替代診斷"的邊界怎么劃？

這些都不是技術問題，卻是技術落地的真門檻。

Manrai團隊的實驗設計，某種程度上是在回應這種焦慮。他們刻意選擇了"列出備選診斷"這個低侵入性場景，而非讓AI直接拍板。論文結論也刻意收斂：這種AI"適用于輔助診斷"，而非取代醫生。

反對聲音：兩種"推理"的根本分歧

質疑來自哈佛醫學院內部。

未參與研究的Arya Rao拋出尖銳批評：「當我們說臨床推理時，它和道德推理不是一回事。這些模型被優化來做我們稱之為推理的序列思考，但這和醫學生學的推理完全不同。」

這句話擊中了當前AI醫療的核心爭議。

醫學訓練中的臨床推理，是因果鏈條的逐層搭建。為什么先考慮感染而非腫瘤？因為流行病學概率、因為患者年齡、因為癥狀時序。每一步都有可解釋的醫學依據，每一步都經得起同行質疑。這種推理的終點不僅是正確診斷，更是診療方案的可辯護性。

AI的"推理"是另一套邏輯。它基于海量文本中的模式匹配，生成統計上最可能的答案序列。步驟看起來相似——癥狀A關聯疾病B的概率是C%——但底層沒有醫學因果模型。它不知道"為什么"，只知道"曾經這樣"。

Rao的警告指向一個深層風險：如果醫生過度依賴AI的"靈光一閃"，可能逐漸喪失獨立構建診斷假設的能力。醫學教育的核心目標，恰恰是培養這種能力。一個只會點擊"AI建議"按鈕的醫生，和會獨立思辨的醫生，長期看誰能更好地應對未知疾病？

Manrai對批評并不抵觸。他明確表態：AI應該輔助而非替代醫療角色。「最終，我認為人類希望由人類來引導他們……度過艱難的治療決策。」

這個表態的微妙之處在于"引導"二字的權重。AI是工具，醫生是決策者——這種分工在紙面上清晰，在急診室的凌晨三點卻可能模糊。當AI連續三次給出被證實正確的建議，醫生的心理防線會不會松動？

技術演進：從聊天機器人到推理引擎

理解這場爭論，需要追溯技術脈絡。

OpenAI的ChatGPT基于大語言模型，2022年底引爆公眾對生成式AI的認知。但早期版本有個致命弱點：面對需要多步推導的復雜問題，容易在中間步驟出錯，導致最終答案離譜。

o-1系列是2024年推出的"推理模型"迭代。關鍵改進在于"思維鏈"（思維鏈，Chain-of-Thought）技術的工程化。模型被訓練成顯式展示中間步驟，而非直接輸出結論。在數學競賽、編程挑戰等基準測試中，這種架構展現出接近人類專家的水平。

Manrai團隊選擇o-1預覽版，正是看中這種逐步拆解能力在醫學場景中的適配性。診斷本身就是典型的多步推理：從主訴出發，擴展鑒別診斷清單，根據檢驗結果逐一排除，最終鎖定最可能病因。

但技術能力的躍升，不等于應用場景的自動解鎖。醫學有獨特的驗證體系：隨機對照試驗、真實世界證據、長期隨訪數據。AI在靜態測試集上的高分，能否轉化為患者結局的改善？這是下一批研究必須回答的。

商業邏輯：誰為"第二意見"買單

把實驗放回商業視角，線索更清晰。

五分之一醫護的自發使用，說明需求端已經成熟。超過半數想正式使用，說明付費意愿存在。剩下的問題是：產品形態和商業模式如何設計？

當前最可能的演進路徑，是嵌入電子病歷系統的"智能插件"。醫生輸入主訴和初步檢查結果，AI實時生成鑒別診斷建議，標注置信度和關鍵鑒別點。這種設計最小化工作流程 disruption，也便于責任界定——AI輸出明確標注為"建議"，最終決策權保留給醫生。

收費模式可能走兩條路。一是醫院或醫療系統集中采購，作為基礎設施投入。二是按調用次數計費，類似云計算的API模式。后者的風險在于，可能誘發過度使用：醫生為求心安，對每個病例都點一遍AI建議，反而降低診療效率。

監管框架是更大的變量。美國FDA對"臨床決策支持系統"有分級管理，低風險工具可走510(k)快速通道，高風險則需上市前審批。AI診斷輔助落在哪個區間，將直接影響產品上市節奏。

中國市場的變量同樣復雜。三甲醫院的信息化預算、基層醫療的人才缺口、醫保支付的創新包容度，三者共同決定AI診斷工具的滲透速度。一個可能的差異化場景是：在醫療資源匱乏地區，AI"第二意見"的價值不是超越頂尖專家，而是讓基層醫生獲得接近三甲水平的鑒別診斷能力。

關鍵節點復盤：從實驗室到急診室的三道坎

梳理時間線，能看清技術落地的真實節奏。

2022年底，ChatGPT發布，大語言模型進入公眾視野。醫學界的初步反應是警惕：生成式AI的"幻覺"問題——自信地編造不存在的信息——讓它直接參與診斷顯得危險。

2024年，推理模型o-1系列推出，"思維鏈"技術緩解了對中間步驟不可控的擔憂。這是第一道坎的跨越：從"黑箱輸出"到"可追蹤推理"。

2025年4月，哈佛團隊論文發表，用真實急診病歷驗證效果。這是第二道坎：從"基準測試高分"到"臨床場景有效"。但論文同時暴露了新問題——不同系統對比的病例集不一致，結論的穩健性存疑。

同期發布的全球醫護調查，揭示了第三道坎的緊迫性：用戶已經準備好，但產品形態、責任歸屬、監管框架全部滯后。五分之一的人"偷偷用"，說明現有工具要么未獲正式批準，要么未接入工作流，處于灰色地帶。

下一步的關鍵節點，可能是監管機構的分類指導文件發布，以及首個獲得正式批準的AI診斷輔助產品上市。這兩個事件將定義行業的合規基線。

啟示：工具理性與醫學人文的張力

這場爭論的深層結構，是兩種價值觀的碰撞。

技術樂觀派看到效率提升和漏診減少。在醫療資源緊張、醫生 burnout 普遍的當下，AI輔助診斷是緩解系統壓力的可行路徑。尤其對于那些罕見病、疑難病，AI的"知識廣度"可能彌補個體醫生的經驗局限。

醫學人文派擔憂能力退化和關系異化。診斷不僅是信息處理，更是醫患互動的核心環節。醫生詢問病史時的微表情觀察、觸診時的手感反饋、解釋病情時的共情表達，都無法被AI替代。如果技術介入過深，可能侵蝕醫學作為"人學"的本質。

Manrai的表態試圖調和這種張力：AI輔助，人類主導。但"輔助"的邊界在哪里？是僅在醫生卡殼時提供建議，還是全程參與生成備選清單？是被動響應查詢，還是主動推送預警？

這些設計選擇沒有標準答案，將塑造未來十年的醫療實踐形態。

一個值得追蹤的信號是：當AI建議與醫生直覺沖突時，決策權如何分配？論文數據顯示AI整體表現更優，但具體到單個病例，醫生的情境知識可能更準確。系統需要內置的"異議處理"機制，而非簡單服從多數。

另一個信號是長期學習效應。如果住院醫師從職業生涯早期就依賴AI建議，他們的獨立診斷能力會如何演化？這需要縱向隊列研究來驗證，周期可能長達十年。

回到波士頓急診室的那76份病歷。它們被脫敏、輸入、分析，成為論文里的一個數字。但每個數字背后，是一個真實患者在某個深夜的焦慮，是一位醫生在時限壓力下的判斷，是一次可能改變治療方向的診斷選擇。

AI正在學會參與這個過程。它學得有多快、介入有多深、最終被接納到什么程度，將取決于技術迭代的速度，更取決于醫學界對"好的醫療"的定義本身。

當80%的正確率成為新常態，我們是否還愿意容忍那20%的失誤？當機器比人更會"想到"病因，診斷的權威該由誰持有？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.