![]()
編輯|吳昕
凌晨 1 點,某三甲醫院急診科,一位 62 歲的男性被緊急送入,他正經歷急性 STEMI 并發急性心衰。血壓飆至 185/105 mmHg,血氧僅 91%。護士已推來除顫儀,催促醫生「心電捕手」確認替格瑞洛劑量。
患者腎功能受損,標準劑量極易引發致命腦出血,而減量又擔心支架再被血栓堵塞。在浩瀚的指南與文獻中尋找劑量調整條款,醫生只有短短 3 分鐘——對他而言,這三分鐘漫長得仿佛一個世紀。
深夜,珠江醫院胸外科主任喬貴賓仍伏案辦公,為一位罕見肺病患者設計后續方案。對身兼胸外科主任、主任醫師和博導的他來說,每天平均工作超過 10 小時,加班處理疑難病例幾乎成為常態。
「沒有哪個國家的醫生承受這樣的超級壓力。」紀錄片《中國醫生》總導演在專訪中說過的一句話,高度概括了醫生們的日常工作現實。
公開數據顯示,2024 年,全國醫療衛生機構總診療人次達到101.5 億,其中三級醫院診療量為 28.7 億,病床使用率接近九成。而全國 508.2 萬執業(助理)醫師,卻要支撐這百億級的診療需求。每一次開處方、下醫囑、做檢查、規劃手術方案,幾乎都需醫生決策。
更復雜的是,醫學知識更新速度很快。以 PubMed 為例,已收錄超過 4000 萬條生物醫學文獻,每年仍新增百萬級條目。對醫生而言,壓力不僅來自患者與診療數量,更來自高負荷工作中不斷追趕最新證據與指南的挑戰。
在這種結構性困境下,醫療的核心問題并非「撮合就診」,而是醫生的決策供給——互聯網醫療可以提升就診效率,卻觸及不到這一結構性痛點。而這,正是醫學 AI 能夠真正放大的空間。
DeepSeek們,
為什么一進醫療科研就翻車?
過去一年,大模型幾乎席卷了各行各業,醫療領域也不例外。行業對醫學 AI 的期待迅速升溫,中國醫生成為擁抱大模型最為積極的群體之一。但與此同時,一個越來越明顯的困境也擺在了大家面前:一旦通用大模型進入嚴肅醫學場景,它的能力往往迅速塌陷。
最讓醫生頭疼的是「幻覺」問題。比如,它會虛構文獻。當你想查看原文、復核數據時,即使明確要求提供準確的 DOI 號(類似文本的身份證號),也經常發現鏈接是錯的,點開完全是另一篇文章。
![]()
通用大模型的高幻覺率,始終是個棘手的困擾。
喬貴賓和同事都在工作和私底下用過通用大模型,高幻覺率始終是個棘手的困擾。像胸外科這樣極度硬核的診室,一個杜撰的結論,危害不亞于誤診。
最近,一項發表在英國皇家外科醫學院官方期刊上的研究【1】,也進一步印證了醫生們的擔憂:某些主流人工智能平臺生成的醫學參考文獻中,超過三分之一可能是偽造的。例如,Grok 3 的引用幻覺率高達 33.6%,DeepSeek DeepThink 為 25%。
這些「幻覺引用」看起來非常真實,甚至帶有虛構的 Mayo Clinic (梅約診所)鏈接或極具誤導性的學術標題。
研究還發現,近半數頂尖模型在回答醫學問題時,默認并不會清晰披露信息來源。
而這些,恰恰與醫生日常工作的核心相悖:循證(基于證據做決策)——我如何知道我的推理和決策是有理可據的,是權威的,是準確的?尤其是那些涉及到我知識盲區的證據。
這時候,能快速、準確地找到權威依據來支撐判斷,最剛需、也最頭疼的事。而本質上基于概率文本生成的通用大模型,并不天然具備這種場景下的「循證」能力。
![]()
從多個維度測試國內某頭部通用大模型在回答醫學科研問題時是否可靠,結果讓人擔憂。
為了解決這一難題,業界普遍將檢索增強生成(RAG)奉為圭臬,認為它能通過檢索外部患者病歷來糾正大模型的信口雌黃。最常采用的方案就是將病歷、指南、論文切片后灌進向量數據庫,再通過檢索增強生成,讓模型「帶著資料回答」。
至于效果?最新研究給出了一個相當反直覺的結論。
這份發表于權威醫學預印本平臺 medRxiv 的論文顯示,在醫學臨床文本生成中,加入 RAG 技術后,大模型的無依據聲明率(Unsupported claim rate,即幻覺率)從基線狀態下的 5.0% 劇烈飆升至 43.6%。這意味著 RAG 讓醫學 AI 犯下事實性錯誤的概率增加了整整 8.7 倍。【2】
為什么會這樣?因為臨床文本并不是普通知識庫。
它高度非結構化,充滿上下文依賴、時間敏感信息和相互沖突的證據。不同患者、不同時間點的醫學術語重疊度極高。RAG 很容易檢索出「語義上高度相似,但實際上屬于其他患者,或對應錯誤時間點」的病歷片段。
也就是說,它找到了「看起來相關」的資料,卻未必找到了「真正適用」的證據,而大模型會以此為據、憑空捏造當前病人的虛假醫學敘事。
如何確保模型找到的是對的證據、用的是對的上下文、給出的是能被醫生復核的判斷?如何讓每一次回答都綁定在可信證據鏈上?
這正是深耕醫學健康十多年的阿里健康,想要破局的地方。
一切為了可靠,「氫離子」破局關鍵一環
5 月 13 日,阿里健康把「氫離子」正式推到了臺前。這是一款面向臨床和科研醫生的醫學 AI 產品。發布會上,阿里健康同時宣布,氫離子與國家級醫學頂刊達成獨家內容合作。
![]()
產品設計上,AI被放在了最后,而定語首先是證據、循證。
![]()
氫離子與國家級醫學頂刊達成獨家內容合作。
按照官方定位,「氫離子」想解決的是「中國 500 萬醫生的一切醫學問題」。 「低幻覺、高循證」是它最核心的能力標簽:所有回答均提供權威出處,支持一鍵溯源、直達信源。
![]()
「在嚴重幻覺率上,我可以給大家一個定性的結論,我們比國內的競品領先2-3倍。」阿里健康 CTO 祥志說。
![]()
這很容易讓人聯想到醫學界的「神器」UpToDate,也就是 UTD。很多醫生在查房、開藥、處理疑難病例或準備科研資料時,都會依賴 UTD 這類循證醫學決策支持系統,快速找到權威、可靠的決策依據。
但與傳統工具相比,「氫離子」使用門檻要低得多。醫生可以通過自然語言、多輪對話,甚至語音和圖片等多模態方式提問,就像和同事討論病例一樣,把問題直接拋給 AI,它會結合上下文持續理解和回應。
在正式發布前,氫離子已完成內測并開放下載。醫生的反饋最集中的關鍵詞是「可信」和「可靠」,尤其是對「循證問答」評價極高。一位三甲急診科主任醫師試用后,在 88 天內登錄已高達 193 次。
為了確認替格瑞洛劑量,急診室醫生「心電捕手」打開「氫離子」,飛快輸入「急性 ST 段抬高型心梗合并急性心衰,PCI 術后替格瑞洛劑量調整(eGFR65)」。
![]()
「心電捕手」在某醫療社區的發言。
AI 不僅明確推薦負荷劑量 180mg,維持劑量 90mg bid,還加粗標注了依據來源——中華醫學會 2025 年最新治療指南。點擊后,可以直接查看電子化指南原文,不再需要翻找笨重的 PDF 文件。
更關鍵的是,「氫離子」不是簡單高亮一整段文本,而是定位到真正決定結論的「關鍵三行」。醫生看到的不只是「這篇文章可能相關」,而是「依據具體在哪里」。
與此同時,回答還引入了兩個更重要的維度:時效性(「2025年」)和權威性(「中華醫學會的指南」),強調對全球權威指南和文獻進行日更級追蹤與篩選,并基于這些動態證據生成回答。
這背后,考慮到是一個基本現實:醫學證據每天都在變化。
新指南、新藥物、新療法、新臨床試驗層出不窮,尤其是在腫瘤、感染、心血管等領域,頂刊上的一個新結果,可能直接改變第二天的治療策略。一旦證據沒跟上影響判斷,代價可能是患者動了沒必要的刀子,或錯過最佳手術時機。
為了杜絕低質信源的「污染」,模型在生成答案時會優先「定位」權威等級更高來源,自動降權低質量個案報道。
某種程度上,這些也構成了「氫離子」與傳統醫學搜索工具、乃至其他「AI 醫生」產品之間最大的區別醫生看到的每一個觀點,都經得起三個問題的追問:精準嗎?權威嗎?夠新嗎?
但在臨床現場,可信之外,醫生還需要它足夠快。
「心電捕手」提到,確認替格瑞洛劑量時,「沒想到 3 秒就出了結果」。過去遇到類似疑難問題,往往需要在 PubMed、指南、藥品說明書等多個平臺之間來回切換,整個過程可能耗費十幾甚至二十分鐘。
很多醫生手機里常年裝著 5~6 個醫學 App,因為它們大多只是單點工具。而「氫離子」試圖把這些「搬運成本」壓縮成一次提問:快速給出有依據的用藥方案和劑量建議,同時聯動藥品說明書,標注禁忌癥與注意事項。
![]()
醫生「心電捕手」在醫療社區中指出,AI返回的結果還聯動了相關藥品說明書,標注了用藥禁忌和注意事項,比急診室醫生之前同時翻指南和說明書高效太多。
對醫生而言,這不只是「少打開幾個頁面」,而是在爭分奪秒的臨床環境里,縮短關鍵決策時間。
把「醫學證據」寫進 AI:
四層循證架構首次揭曉
在發布會上,團隊首次披露了「低幻覺、高循證」背后的「四層循證架構」——從醫學證據結構化、循證檢索、模型對齊,到專家閉環反饋,試圖把「循證醫學」真正寫進 AI 的底層邏輯。
![]()
第一層:充分理解醫學證據。
不是直接「讀文字」,而是把醫學文本轉化為可結構化、可評估、可追溯的證據單元。
這里最核心的是 PICO 與 GRADE 兩套經典循證框架。
PICO 本質上是一套醫學問題結構,它要求 AI 像臨床醫生一樣,拆解文本的核心要素:針對什么人群(P)?采用何種干預(I)?與什么方案對照(C)?最終結果如何(O)?
例如,針對一項減肥藥研究,自動生成精確的證據鏈:
18~50 歲、體重超過 200 斤、無嚴重心臟病的成年人; 每天服用一種新型減肥藥 A; 另一組服用外觀相同的安慰劑; 三個月后,A 組平均減重 10 斤,對照組僅減重 2 斤。
這樣的解讀不僅解決語義匹配問題,更強調「證據適配」——只有 PICO條件完全匹配,后續建議才有臨床價值。
GRADE 則為這些證據貼上「可信度」的等級標簽。
在循證醫學中,文獻的含金量千差萬別。所謂值不值得信?不是「我覺得」,而是基于一套可量化的評價體系。 GRADE 是全球循證醫學最核心的證據評級體系之一,目前已被 World Health Organization 等全球 100 多家權威醫學機構廣泛采用。
根據這一標準,大型隨機對照試驗(RCT)通常屬于高等級證據;Meta-analysis 往往擁有更強的綜合可信度;個案觀察、經驗分享,則屬于較低等級證據。
![]()
針對「鉑耐藥復發卵巢癌」的最新文獻檢索結果。文獻按時效性(2025 年)、權威性(高影響因子 TOP 期刊)及證據等級(RCT、臨床研究)呈現, 甚至列出了JCR分區、中科院分區及IF分值,可以一眼看到文獻的質量和參考價值。來源:王偉強博士公眾號文章。
第二層:將 PICO 注入 RAG,從「關鍵詞檢索」走向「結構化降維」。
基于 PICO 框架,檢索邏輯從「搜詞」升級為「搜結構」,徹底解決了傳統 RAG 檢索容易失效的問題。
例如,「布洛芬能不能比對乙酰氨基酚更快讓兒童退燒?」通過 PICO 拆解后,系統不會簡單搜「布洛芬 退燒 兒童」,而是自動轉化為標準循證問題——「在發熱兒童(P)中,布洛芬()相較于對乙酰氨基酚(C),在退熱速度和副作用(O)上有何臨床證據?」
這樣檢索出來的文獻,更像是在回答一個臨床問題,而不是湊關鍵詞。反過來說,RAG 也只有在文檔結構化程度高、檢索邏輯符合循證范式時才更可靠。
有了證據理解和精準檢索,問題來了:AI 會正確使用證據嗎?
第三層:強化與對齊,規訓模型「像醫生一樣使用證據」。
氫離子在后訓練階段加入了 Reward 模型與 Rubrics 評分體系。Reward 模型負責讓 AI 學會「什么是好答案」,而 Rubrics 則把循證醫學中的質量要求,進一步工程化成可訓練、可評測的標準。
模型最終學習的,不再只是語言風格,而是如何生成低幻覺、可追溯、符合循證規范的回答。
然而, 在瞬息萬變的醫學領域,單純依賴靜態的模型訓練無法消除所有長尾邊緣案例,也無法實時同步最新的指南、藥物與療法。因此,架構的最后一環交給了Experts-in-the-Loop(專家閉環反饋)
真正有價值的數據,需要長期專家標注,需要持續更新,需要明確證據等級,還需要知道不同研究之間的關系與沖突。
![]()
目前氫離子構建了由超過 300 位資深醫生組成的醫學 AI 專家委員會。他們扮演著「主治醫生」與「首席出題官」的角色,持續對 AI 的輸出進行高強度的「找茬、打分與修正」。
專家的評測不是為了得出一個安全分數,而是為了反哺前三層。例如:發現某處回答不佳,立刻倒推是不是第一層的 PICO 拆解粒度不夠細?或是第三層的 Rubrics 評分標準過于寬松?
最終,通過這四層由淺入深的循證架構,理解、檢索、訓練與評測形成了一個完美的「可追溯、可驗證、可信賴」的閉環。AI 徹底擺脫了「靜態工具」的局限,演變為一個能夠隨著醫學證據實時更新、基于臨床反饋不斷自我糾錯的「進化型系統」。
從一款高效的生產力產品,真正成長為醫生在臨床與科研中不可或缺的可信賴伙伴。
本土權威+國際前沿:
數據壁壘,夯實循證底座
要把「高循證」做到極致,光靠算法和工程創新是不夠的,AI 最硬的門檻,其實在于數據源。高質量的醫學數據庫,不只是功能底座,更是臨床安全的護欄。
![]()
中國醫生普遍存在世界頂級研究獲取困難的問題。
此前,氫離子已經與中華醫學會、人民衛生出版社等國內醫學出版巨頭深度合作,奠定了本土權威基礎。而這次官宣的國際頂刊合作,意味著76% 的醫生不再受困于頂級前沿證據的難以觸達。
通過這種「強強聯合」,氫離子構建起多層級的專業醫學知識譜系,進一步夯實了在醫學 AI 領域的底層數據壁壘。
目前,氫離子匯聚了來自 PubMed、Google Scholar 等國際數據庫以及國內核心期刊的千萬級頂尖文獻,為科研和疑難病例提供穩固支撐。
![]()
同時,系統整合了三萬余部國內外權威臨床指南與專家共識,以中華醫學會等機構發布內容為主,使 AI 在復雜臨床環境中能夠迅速鎖定標準方案,大幅提升診療效率與安全性。
藥品說明書及活性成分信息超過六萬份,從適應癥、禁忌癥、用法用量,到不良反應及特殊人群用藥,實現臨床開方與用藥風險的全面掌控。
這些不僅保障了 AI 在臨床輔助中的極致安全,也讓「氫離子」在醫學 AI 賽道上形成短期難以逾越的核心競爭力。
![]()
過去兩年,行業習慣把醫學 AI 理解成參數規模競爭、問答能力競爭。但真正進入臨床與科研場景后,發現準確性、可追溯性、穩定性與決策一致性,遠比「會不會回答」更重要。
「氫離子」用實踐證明,嚴肅醫學 AI 的真正護城河不是參數規模,而是「從高等級證據到臨床答案」的全鏈路工程能力。 缺少了頂級信源與循證架構的嚴苛規訓,再龐大的參數,最終也會碎成「通用模型+醫學語料」的平庸組合。
正如喬貴賓所言:「這才是醫學 AI 該有的樣子。它不替你做判斷,而是幫你更快找到做判斷的依據,并且讓你看清它是從哪兒找來的。」醫生不需要一個擅長模糊應答的「聊天花瓶」,而需要一個能在臨床與科研中并肩作戰的「硬核戰友」。
當繁重的循證檢索被 AI 降維打擊,醫生們偶爾也會和學生們聊起,如果所有循證的工作都被 AI 代勞了,醫生還需要什么?
大家的答案很一致,向本源的回歸——練就臨床判斷力。因為敲定最終方案,還要取決于醫生的綜合評估。
這也應驗了那句在圈子里廣為流傳的話:能夠給出治療方案的,叫「智能( Intelligence )」,真正理解眼前的患者,才是「智慧( Wisdom )」。
1、Trust, truth and transparency: analysing the references underpinning AI-generated surgical information
https://publishing.rcseng.ac.uk/doi/10.1308/rcsann.2026.0021
2、Representation Before Retrieval: Structured Patient Artifacts Reduce Hallucination in Clinical AI Systems
https://www.medrxiv.org/content/10.64898/2026.02.13.26346256v1.full.pdf
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.