波士頓一家急診室的76份病歷被輸入一臺AI系統。結果讓研究團隊愣住——在最難確診的病例里,這臺機器列出正確診斷的概率,超過了資深醫生。
這不是科幻場景。2025年4月30日,哈佛大學團隊把實驗結果發在了《科學》期刊上。他們測試的是OpenAI的o-1預覽版,一種能逐步拆解復雜問題的推理模型。論文顯示,AI在80%的情況下會把正確答案放進備選清單,而醫生的表現明顯落后。
![]()
但爭議立刻炸開。同一所大學的醫學研究者Arya Rao公開質疑:機器做的"推理",和醫學生學的"推理",根本是兩回事。
一場關于AI能否參與臨床決策的爭論,正在醫學界的最高殿堂激烈交鋒。
實驗設計:三組數據,一個殘酷對比
研究團隊設計了三層測試,層層加碼。
第一層是教科書級難度。他們用了醫學教育中的經典癥狀組合——那些讓住院醫師夜不能寐的疑難案例。第二層更狠:直接調取真實病歷。76名波士頓急診患者的完整診療記錄,被脫敏后喂給AI。第三層則橫跨歷史數據,對比了此前發表在新英格蘭醫學雜志上的長期疑難病例系列。
三組對手同臺競技:純AI模型、傳統診斷輔助軟件、人類臨床醫生。
圖表數據(腳本自動插入圖片:https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2026%2F0501%2F4339a867j00tebl4s0010d000m800cip.jpg&thumbnail=660x2147483647&quality=80&type=jpg)顯示了殘酷差距。深色柱代表的AI推理模型o1-preview,正確診斷納入率逼近80%。淺色柱的傳統診斷軟件、棕色柱的人類醫生,都被甩在身后。
研究作者之一、哈佛大學生物醫學數據科學家Arjun Manrai在4月28日的發布會上說:「我們正在見證一項真正深刻的技術變革,它將重塑醫學。」
這句話的分量,需要放在具體場景里理解。
核心發現:AI的"靈光一閃"時刻
醫學診斷最難的環節,常被外行忽略。
不是從A、B、C選項里挑正確答案。而是在一片空白中,想到"還有D這個可能性"。論文開篇就點破這個痛點:在醫學最棘手的病例中,最難的部分不是選對診斷,而是想到它。
這正是AI展現優勢的地帶。
大語言模型(大型語言模型,LLM)的進化版本——推理模型——被設計成分步思考。它們不像早期AI那樣直接蹦答案,而是展示一條思考鏈:先列出癥狀群,再排除常見病因,最后指向那些容易被忽視的罕見病。
在急診場景下,這種能力直接對應臨床痛點。一個發熱伴皮疹的患者,可能是病毒感染,也可能是藥物過敏,還可能是川崎病早期。人類醫生受限于認知負荷和記憶檢索速度,常在高壓下漏掉后兩種。AI的"廣撒網"策略,反而降低了漏診概率。
但論文也留了關鍵伏筆:數據來自多項既往研究,各系統并非審視完全相同的病例集。所有系統只檢查了同一長期病例系列的某個子集。這意味著橫向對比存在方法論瑕疵,結論需要謹慎解讀。
行業背景:五分之一醫護已在偷偷用AI
這項研究發布的時間點,恰逢醫療AI的滲透拐點。
2025年的一項全球調查顯示,超過2000名受訪醫生和護士中,五分之一已在復雜病例中把AI當"第二意見"使用。超過半數明確表示想這么干。
需求已經存在。供給正在成熟。唯一卡住的是信任。
臨床決策的特殊性在于:錯誤代價極高,責任歸屬模糊。AI推薦了一個診斷,醫生采納后出錯,算誰的責任?醫院信息系統接入第三方模型,患者數據如何脫敏?監管機構對"輔助診斷"和"替代診斷"的邊界怎么劃?
這些都不是技術問題,卻是技術落地的真門檻。
Manrai團隊的實驗設計,某種程度上是在回應這種焦慮。他們刻意選擇了"列出備選診斷"這個低侵入性場景,而非讓AI直接拍板。論文結論也刻意收斂:這種AI"適用于輔助診斷",而非取代醫生。
反對聲音:兩種"推理"的根本分歧
質疑來自哈佛醫學院內部。
未參與研究的Arya Rao拋出尖銳批評:「當我們說臨床推理時,它和道德推理不是一回事。這些模型被優化來做我們稱之為推理的序列思考,但這和醫學生學的推理完全不同。」
這句話擊中了當前AI醫療的核心爭議。
醫學訓練中的臨床推理,是因果鏈條的逐層搭建。為什么先考慮感染而非腫瘤?因為流行病學概率、因為患者年齡、因為癥狀時序。每一步都有可解釋的醫學依據,每一步都經得起同行質疑。這種推理的終點不僅是正確診斷,更是診療方案的可辯護性。
AI的"推理"是另一套邏輯。它基于海量文本中的模式匹配,生成統計上最可能的答案序列。步驟看起來相似——癥狀A關聯疾病B的概率是C%——但底層沒有醫學因果模型。它不知道"為什么",只知道"曾經這樣"。
Rao的警告指向一個深層風險:如果醫生過度依賴AI的"靈光一閃",可能逐漸喪失獨立構建診斷假設的能力。醫學教育的核心目標,恰恰是培養這種能力。一個只會點擊"AI建議"按鈕的醫生,和會獨立思辨的醫生,長期看誰能更好地應對未知疾病?
Manrai對批評并不抵觸。他明確表態:AI應該輔助而非替代醫療角色。「最終,我認為人類希望由人類來引導他們……度過艱難的治療決策。」
這個表態的微妙之處在于"引導"二字的權重。AI是工具,醫生是決策者——這種分工在紙面上清晰,在急診室的凌晨三點卻可能模糊。當AI連續三次給出被證實正確的建議,醫生的心理防線會不會松動?
技術演進:從聊天機器人到推理引擎
理解這場爭論,需要追溯技術脈絡。
OpenAI的ChatGPT基于大語言模型,2022年底引爆公眾對生成式AI的認知。但早期版本有個致命弱點:面對需要多步推導的復雜問題,容易在中間步驟出錯,導致最終答案離譜。
o-1系列是2024年推出的"推理模型"迭代。關鍵改進在于"思維鏈"(思維鏈,Chain-of-Thought)技術的工程化。模型被訓練成顯式展示中間步驟,而非直接輸出結論。在數學競賽、編程挑戰等基準測試中,這種架構展現出接近人類專家的水平。
Manrai團隊選擇o-1預覽版,正是看中這種逐步拆解能力在醫學場景中的適配性。診斷本身就是典型的多步推理:從主訴出發,擴展鑒別診斷清單,根據檢驗結果逐一排除,最終鎖定最可能病因。
但技術能力的躍升,不等于應用場景的自動解鎖。醫學有獨特的驗證體系:隨機對照試驗、真實世界證據、長期隨訪數據。AI在靜態測試集上的高分,能否轉化為患者結局的改善?這是下一批研究必須回答的。
商業邏輯:誰為"第二意見"買單
把實驗放回商業視角,線索更清晰。
五分之一醫護的自發使用,說明需求端已經成熟。超過半數想正式使用,說明付費意愿存在。剩下的問題是:產品形態和商業模式如何設計?
當前最可能的演進路徑,是嵌入電子病歷系統的"智能插件"。醫生輸入主訴和初步檢查結果,AI實時生成鑒別診斷建議,標注置信度和關鍵鑒別點。這種設計最小化工作流程 disruption,也便于責任界定——AI輸出明確標注為"建議",最終決策權保留給醫生。
收費模式可能走兩條路。一是醫院或醫療系統集中采購,作為基礎設施投入。二是按調用次數計費,類似云計算的API模式。后者的風險在于,可能誘發過度使用:醫生為求心安,對每個病例都點一遍AI建議,反而降低診療效率。
監管框架是更大的變量。美國FDA對"臨床決策支持系統"有分級管理,低風險工具可走510(k)快速通道,高風險則需上市前審批。AI診斷輔助落在哪個區間,將直接影響產品上市節奏。
中國市場的變量同樣復雜。三甲醫院的信息化預算、基層醫療的人才缺口、醫保支付的創新包容度,三者共同決定AI診斷工具的滲透速度。一個可能的差異化場景是:在醫療資源匱乏地區,AI"第二意見"的價值不是超越頂尖專家,而是讓基層醫生獲得接近三甲水平的鑒別診斷能力。
關鍵節點復盤:從實驗室到急診室的三道坎
梳理時間線,能看清技術落地的真實節奏。
2022年底,ChatGPT發布,大語言模型進入公眾視野。醫學界的初步反應是警惕:生成式AI的"幻覺"問題——自信地編造不存在的信息——讓它直接參與診斷顯得危險。
2024年,推理模型o-1系列推出,"思維鏈"技術緩解了對中間步驟不可控的擔憂。這是第一道坎的跨越:從"黑箱輸出"到"可追蹤推理"。
2025年4月,哈佛團隊論文發表,用真實急診病歷驗證效果。這是第二道坎:從"基準測試高分"到"臨床場景有效"。但論文同時暴露了新問題——不同系統對比的病例集不一致,結論的穩健性存疑。
同期發布的全球醫護調查,揭示了第三道坎的緊迫性:用戶已經準備好,但產品形態、責任歸屬、監管框架全部滯后。五分之一的人"偷偷用",說明現有工具要么未獲正式批準,要么未接入工作流,處于灰色地帶。
下一步的關鍵節點,可能是監管機構的分類指導文件發布,以及首個獲得正式批準的AI診斷輔助產品上市。這兩個事件將定義行業的合規基線。
啟示:工具理性與醫學人文的張力
這場爭論的深層結構,是兩種價值觀的碰撞。
技術樂觀派看到效率提升和漏診減少。在醫療資源緊張、醫生 burnout 普遍的當下,AI輔助診斷是緩解系統壓力的可行路徑。尤其對于那些罕見病、疑難病,AI的"知識廣度"可能彌補個體醫生的經驗局限。
醫學人文派擔憂能力退化和關系異化。診斷不僅是信息處理,更是醫患互動的核心環節。醫生詢問病史時的微表情觀察、觸診時的手感反饋、解釋病情時的共情表達,都無法被AI替代。如果技術介入過深,可能侵蝕醫學作為"人學"的本質。
Manrai的表態試圖調和這種張力:AI輔助,人類主導。但"輔助"的邊界在哪里?是僅在醫生卡殼時提供建議,還是全程參與生成備選清單?是被動響應查詢,還是主動推送預警?
這些設計選擇沒有標準答案,將塑造未來十年的醫療實踐形態。
一個值得追蹤的信號是:當AI建議與醫生直覺沖突時,決策權如何分配?論文數據顯示AI整體表現更優,但具體到單個病例,醫生的情境知識可能更準確。系統需要內置的"異議處理"機制,而非簡單服從多數。
另一個信號是長期學習效應。如果住院醫師從職業生涯早期就依賴AI建議,他們的獨立診斷能力會如何演化?這需要縱向隊列研究來驗證,周期可能長達十年。
回到波士頓急診室的那76份病歷。它們被脫敏、輸入、分析,成為論文里的一個數字。但每個數字背后,是一個真實患者在某個深夜的焦慮,是一位醫生在時限壓力下的判斷,是一次可能改變治療方向的診斷選擇。
AI正在學會參與這個過程。它學得有多快、介入有多深、最終被接納到什么程度,將取決于技術迭代的速度,更取決于醫學界對"好的醫療"的定義本身。
當80%的正確率成為新常態,我們是否還愿意容忍那20%的失誤?當機器比人更會"想到"病因,診斷的權威該由誰持有?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.