網易首頁 > 網易號 > 正文申請入駐

「生物信息學」評測，Claude 反超人類專家

2026-04-30 17:29:25　來源: 賽博禪心

北京舉報

分享至

RESEARCH

今天 Anthropic 放出了一項評估數據，對于新的生物信息學評測集 BioMysteryBench：

人類能搞定的，Claude 也能搞定；在人類搞不定的，Mythos 也能搞定

哎...人類一敗涂地

評估生物有三難

科學沒有標準化考試這一說，AI 在科研上的能力也很難像 SWE-bench 評估編程那樣有一套被業界公認的 benchmark。原文給出三個具體的難點

其一，是同一個生物問題往往有很多種合理解法

原文用二甲雙胍舉例：要研究為什么有的二型糖尿病人吃二甲雙胍有效、有的沒效，可以做全基因組關聯（GWAS）找遺傳變異，也可以做腸道菌群測序找代謝通路。兩條路都對，選哪條往往只取決于實驗室手頭的資源和研究者的口味

其二，單個研究決定本身就是主觀的

對于生物數據來說，它的噪聲又足夠大，決定上的微小差異會得出截然相反的結論。還是二甲雙胍，2011 年一篇論文報告了一個能預測藥效的遺傳變異，2012 年糖尿病預防項目重做了一遍，結論變成「沒有」，同年另一項 meta 分析把五個隊列匯總，結論又改成「有但比 2011 年那篇報得弱」

其三，...很多生物問題人類自己也回答不出

這又有什么辦法呢？攤手

二甲雙胍這個藥 1957 年就上市了，主要作用機制至今沒定論

而恰恰是這類「人類還沒解開」的問題，最值得測 AI 能不能解

測試題怎么出

為了保證測試的「非主觀」，測試數據本身是要有的客觀結論的

舉個例子，領域專家提交的一個評估題，其答案必須能從數據的可控屬性反推出來，而不是依賴經驗判斷。比如「這個晶體結構屬于哪個物種」就有客觀答案；「這個 RNA-seq 樣本的人類患者感染了什么病毒」也能用一套獨立的 PCR 實驗做交叉驗證

每道題在收錄前還要附一個 validation notebook，作者必須能從原始數據復現答案，證明信號在數據里確實存在。原文用了一個高中代數的類比：驗證一個答案比從零推導一個答案容易得多

測試時，Claude 被放在一個容器里，能用 pip 和 conda 裝額外工具，能訪問 NCBI、Ensembl 這類生信數據庫下載參考基因組，但解題路徑完全自由。評分只看最終答案對不對，不看走的是哪條路

題目主要來自 DNA/RNA 測序的原始數據，覆蓋 WGS（全基因組測序）、scRNA-seq（單細胞 RNA 測序）、甲基化、ChIP-seq、宏基因組、Hi-C，外加一部分蛋白組學和代謝組學

例題里藏什么

原文給出五道樣題，靠猜走不通（我甚至完全看不懂hhhh）

→ 這套單細胞 RNA-seq 數據采自人體的哪個器官

→ 實驗組相對對照組，敲掉的是哪個基因，從 RNA-seq 數據反推

→ 給一組全基因組測序樣本，找出樣本 X 的母親樣本和父親樣本

→ 幾個 bigWig 文件里，哪些是 ChIP 實驗、哪些是 input 對照

→ 給一組 H3K27ac ChIP-seq 峰，反推這是什么細胞類型

每道題人類專家組（最多 5 人）獨立答一遍。只要至少有一個專家答對，這道題就歸入「人類可解」類別。最后 99 道里有 76 道是人類可解，剩下 23 道全員翻車（另有 4 道因為題目本身有問題被剔除）

能解的題已經追平

人類可解的 76 道，每個 Claude 模型獨立做 5 次，取平均。結果是從 Haiku 4.5 的 36.8%，到 Sonnet 4.6 的 71.8%，再到 Opus 4.6 的 77.4%、Opus 4.7 的 78.9%，Mythos 拿到 82.6%

BioMysteryBench 人類可解題（76 道），五代 Claude 模型平均準確率，Mythos 82.6% 最高

在解題的過程中，還發現了一些有趣的策略，原文給了兩個對照組

第一組里，Claude 的解法和人類專家幾乎一模一樣

原文的解釋是，要么人類專家本身就找到了接近最優的方法，要么這種方法在預訓練數據里被反復見過

Claude 跟人類專家走同一條路徑的兩個案例之一

同一組的第二個案例

第二組里，Claude 走了完全不同的路

人類專家用算法或數據庫去注釋樣本屬性，Claude 直接看一眼數據，靠模式識別認出來這是什么序列

Claude 走完全不同路徑的兩個案例之一，靠模式識別直接讀出序列特征

同一組的第二個案例

原文用了一個歷史類比：第一個真核生物啟動子被發現，是因為某位科學家注意到「TATA」這個序列在基因上游反復出現。這種憑直覺抓特征的能力，在傳統機器學習模型上很難訓練出來。語言模型有可能在更大尺度上做這件事

解不出的題被破了

剩下 23 道題，是 5 位專家全部答錯或放棄的

人類難題（23 道）的模型準確率，Mythos 29.6%，Opus 4.7 27.0%，Sonnet 4.6 19.1%

Claude Sonnet 4.6 之后的模型，能解出這一組里相當一部分。Sonnet 4.6 拿 19.1%、Opus 4.6 拿 23.5%、Opus 4.7 拿 27.0%，Claude Mythos 解題率最高，達到 29.6%

Claude 靠什么破題

Brianna 團隊從 Opus 4.6 的 transcript 里識別出兩套主要解法

第一套是直接調內部知識庫。一道題如果讓人類專家做，可能要去做一次 meta 分析，把幾篇論文、幾個數據庫手動拼起來。Opus 直接從內部知識里調出機制和本體（ontology），再結合實時分析，一步到位。原文給了三個具體例子，都屬于這一類

Claude 直接調內部知識解人類專家解不出的題，第一例

第二例

第三例

但內部知識也有反噬的時候。原文專門給了一道反例：在「人類可解」組里有一道題，Opus 因為先驗知識太強，反而做錯了答案

唯一一道反例：Claude 因先驗知識過強反而做錯

第二套是不確定時多方法收斂。Opus 4.6 在不確定的題上會同時跑多種解法，最后選多種方法都指向同一個答案的那個。原文給了三個例子。這種打法不算 AI 獨有，人類科研里也用，但 Opus 在題目難度上去之后會更頻繁地切到這種模式

不確定時多方法收斂，第一例

第二例

第三例

準做對還是蒙對

Brianna 團隊讓 Mythos 自己分析了一遍數據。Mythos 提出的問題是：每道題做 5 次，5 次全對和 5 次只對 1 次，意義完全不同。前者是穩定能力，后者多半是僥幸路徑碰巧走通

Fig 3：每道題做 5 次，按解對次數分布。左：人類可解題；右：人類難題

Mythos 給出的具體分布是這樣：

→ 在人類可解題上，Opus 4.6 解出來的題，86% 是 5 次中至少 4 次都對（穩定）

→ 同樣是 Opus 4.6，在人類難題上這個比例掉到 44%；只 1 到 2 次對的脆弱路徑占比從 9% 漲到 44%

→ Sonnet 4.6 的退化更明顯：穩定 75% 掉到 22%，脆弱 9% 漲到 56%

→ Opus 4.7 和 Mythos 把前沿往前推了一點，Mythos 在人類可解題上 94% 的勝場是穩定的

原文坦承，所謂 23 道人類難題里 Mythos 拿下的近 30%，相當一部分屬于這種脆弱路徑。準確率數字往下走的那一截真實存在，但下面那一層「可靠性差距」是更值得看的故事

Brianna 評價 Mythos 這次自我分析「站得住腳，但稍顯平淡」，補了細節，沒提出真正新的科學問題。她認為模型已經在長出研究品味（research taste）的種子，但離自己提出深刻洞見還有距離

另一家測，結論一致

在 Report 定稿前幾天，Genentech 和 Roche 聯合發布了 CompBioBench，100 道計算生物學題，設計原則和 BioMysteryBench 高度類似：合成數據加元數據擾動構造客觀答案、需要多步推理、需要工具調用、需要寫代碼

CompBioBench 上 Claude Opus 4.6 的整體準確率 81%，最難子集 69%。兩個獨立 benchmark，結論指向同一件事：前沿模型在生信任務上已經從「能用」過渡到「真的有用」

BioMysteryBench 的預覽版數據集已經放在 Hugging Face 上，感興趣的可以自己看看

參考材料：

→ 原文：anthropic.com/research/Evaluating-Claude-For-Bioinformatics-With-BioMysteryBench

→ 數據集：huggingface.co/datasets/Anthropic/BioMysteryBench-preview

→ CompBioBench 論文：biorxiv.org/content/10.64898/2026.04.06.716850v1

→ 生命科學落地：claude.com/lifesciences

→ 投稿郵箱：scienceblog@anthropic.com

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

“漸凍癥”或迎來治療新希望！《科學》：“逆轉”毒性蛋白損傷，這種分子能做到

醫學新視點 2026-05-15 17:47:06
0 跟貼 0
致敬“DNA之母”，OpenAI推出首個生命科學AI模型GPT-Rosalind，加速藥物研發和基因組學研究

生物世界 2026-04-17 14:42:02
0 跟貼 0

光譜流式與空間成像技術有獎調研：京東卡、U 型枕、定制積木等 100 份好禮

生物學霸 2026-05-13 17:18:11
0 跟貼 0

解讀胚胎評分技術：革新技術進步和倫理爭議｜2026十大突破性技術

DeepTech深科技 2026-01-25 20:00:42
0 跟貼 0
Cell封面論文：常見維生素逆轉致命遺傳病，“營養基因組學”改寫絕癥結局

生物世界 2026-05-04 11:35:15
0 跟貼 0

中山大學一副院長，被舉報學術不端

新浪財經 2026-05-15 20:34:17
0 跟貼 0

如何把一塊普普通通的金屬變成漂亮的晶體？

哇喔科學 2026-05-12 17:19:20
8 跟貼 8
國外的實驗

拳擊格斗大放送 2026-05-15 10:19:03
1 跟貼 1

海域浮現了絕種生物

孖花聊電影 2026-05-11 18:23:04
24 跟貼 24
科學在功夫面前是弟弟

奻奻剪影 2026-05-12 17:06:34
1 跟貼 1
用一口氣控制一座城市50年時間，這到底是怎么做到的

制造原理 2026-05-15 18:04:00
11 跟貼 11
“碘”亮健康普惠民生|云南啟動第33個“防治碘缺乏病日”系列宣傳活動

云南網絡廣播電視臺 2026-05-15 22:42:46
0 跟貼 0
二甲雙胍搭三寶，血糖越來越穩，便宜又實用

中醫徐魯謙 2026-05-15 16:14:50
0 跟貼 0
AI第一次科研競賽中擊敗人類！Opus 4.7狂飆2930步創世界紀錄

新智元 2026-05-15 16:20:53
1 跟貼 1
兩女子坐電梯，按亮所有樓層后離開

南陽日報 2026-05-15 17:51:56
20 跟貼 20
九寨溝將實行“雙向檢票”？工作人員：出園檢票并非新政策，一直嚴禁溝內住宿

上游新聞 2026-05-11 15:40:24
2983 跟貼 2983
咱們漢族的身體基因，到底有多強大！

包子同學呀 2026-05-13 10:50:00
0 跟貼 0
成立揭牌！聯合建立“海底生態系統與可持續性聯合實驗室”！上海交通大學與廣州海洋地質調查局簽署戰略合作協議

海洋知圈 2026-05-15 21:47:34
0 跟貼 0
MIT計算學院迎11位新教授：從民主參與到衛星遙感的跨界拼圖

科學邊界哦 2026-05-14 10:10:11
0 跟貼 0
張雪機車53號車手德比斯在捷克站自由練習賽中以1分34秒389的成績獲得第1名

瀟湘晨報 2026-05-15 16:54:08
2644 跟貼 2644
科學都解釋不了

金小魚128 2026-05-15 12:30:27
0 跟貼 0
《全息原理在真實物理中的適用范圍問題》新宇宙觀 12.6

新物理科普能量絲宇宙 2026-05-14 18:30:00
0 跟貼 0
一群探險遇到了滅種生物

孖花聊電影 2026-05-12 17:21:53
6 跟貼 6
全球前1%、1‰，雙雙+1！華南理工學科攀峰攻堅行動成效初顯

華南理工大學 2026-05-15 21:36:07
0 跟貼 0
夏季如何科學養胃？南京天津新村社區把專家請到家門口

現代快報 2026-05-15 22:11:06
0 跟貼 0
實驗曝光：居然有無數孩子毀在了這句"你真聰明"

果姨媽育兒 2026-05-12 05:34:20
0 跟貼 0
世界上化學活性最強的金屬——銫Cs

內向湯姆 2026-05-11 10:41:54
17 跟貼 17
人死后會去往哪里？從科學的角度來解釋死亡，看完你敢相信嗎？

仙氣美少女 2026-05-14 00:11:57
0 跟貼 0
讀圖 | 河北深澤科學監測保障群眾飲水安全

新浪財經 2026-05-15 22:40:50
0 跟貼 0
平均降價超56%！945種國家集采藥品落地膠州

云上膠州 2026-05-15 00:01:26
0 跟貼 0
花王股份：傳感器類部分產品已完成DV驗證、EMC實驗和客戶側實測等，性能達標且具備市場化條件

每日經濟新聞 2026-05-15 16:14:15
0 跟貼 0
洞螈是最像龍的一種生物，它可以七年不吃不喝不動

崽崽聊世界 2026-05-15 00:00:00
0 跟貼 0
“強糧鑄魂”踐初心研學賦能育新苗—工貿糧食學院科普研學活動

航空之家Aviation 2026-05-15 23:35:34
0 跟貼 0
建設生育友好型社會，上海市“國際家庭日”主題宣傳活動在虹口舉辦

上觀新聞 2026-05-15 23:38:08
0 跟貼 0
36氪「屬于年輕浪潮的派對」WAVES2026丨今年盛夏

36氪 2026-05-15 18:07:07
0 跟貼 0
男子理發付款，魔鬼算法把老板娘繞進去，最后竟然還賺錢了

豆莢看生活 2026-05-12 10:20:09
0 跟貼 0
桌面上的粒子加速器，電磁加速鋼珠制造電弧熒光

裝甲鏟史官 2026-04-28 11:15:02
0 跟貼 0
中科院分子細胞科學卓越創新中心（原生化細胞所）王開樂研究組招聘計算生物學博士后和助理研究員各1名

BioArt 2026-05-14 08:52:33
0 跟貼 0
工作人員徒手擺弄核燃料，為啥完全不怕輻射？

海綿小土豆 2026-05-15 10:55:08
1 跟貼 1
AI助力多組學與機器學習聯合分析（機器學習分析代謝組、蛋白組、宏基因組、網絡藥理學、轉錄組）

醫咖會 2026-03-05 19:27:22
0 跟貼 0

賽博禪心

拜AI古佛，修賽博禪心

440文章數 53關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

藝術

教育

本地

旅游

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

「生物信息學」評測，Claude 反超人類專家

直降千元起步！蘋果華為率先開啟618讓利

特朗普稱中方同意購買200架波音飛機 外交部回應

特朗普稱中方同意購買200架波音飛機 外交部回應

德約科維奇買的球隊，從第6級聯賽升入法甲

方媛為何要來《桃花塢6》沒苦硬吃？

騰訊掉隊，馬化騰戳破真相

高爾夫GTI刷新紐北紀錄 ID. Polo GTI迎全球首秀

態度原創

中式美學火了！特朗普、魯比奧、馬斯克小兒子點贊

七中育才又新增3個校區，個個有來頭

用蘇繡的方式，打開江西婺源

別只冬天去哈爾濱，五月花海才是正確打開方式！

特朗普稱中方同意購買200架波音飛機外交部回應

特朗普稱中方同意購買200架波音飛機外交部回應