RESEARCH
今天 Anthropic 放出了一項評估數據,對于新的生物信息學評測集 BioMysteryBench:
![]()
人類能搞定的,Claude 也能搞定;在人類搞不定的,Mythos 也能搞定
哎...人類一敗涂地
![]()
評估生物有三難
科學沒有標準化考試這一說,AI 在科研上的能力也很難像 SWE-bench 評估編程那樣有一套被業界公認的 benchmark。原文給出三個具體的難點
其一,是同一個生物問題往往有很多種合理解法
原文用二甲雙胍舉例:要研究為什么有的二型糖尿病人吃二甲雙胍有效、有的沒效,可以做全基因組關聯(GWAS)找遺傳變異,也可以做腸道菌群測序找代謝通路。兩條路都對,選哪條往往只取決于實驗室手頭的資源和研究者的口味
其二,單個研究決定本身就是主觀的
對于生物數據來說,它的噪聲又足夠大,決定上的微小差異會得出截然相反的結論。還是二甲雙胍,2011 年一篇論文報告了一個能預測藥效的遺傳變異,2012 年糖尿病預防項目重做了一遍,結論變成「沒有」,同年另一項 meta 分析把五個隊列匯總,結論又改成「有但比 2011 年那篇報得弱」
其三,...很多生物問題人類自己也回答不出
這又有什么辦法呢?攤手
二甲雙胍這個藥 1957 年就上市了,主要作用機制至今沒定論
而恰恰是這類「人類還沒解開」的問題,最值得測 AI 能不能解
測試題怎么出
為了保證測試的「非主觀」,測試數據本身是要有的客觀結論的
舉個例子,領域專家提交的一個評估題,其答案必須能從數據的可控屬性反推出來,而不是依賴經驗判斷。比如「這個晶體結構屬于哪個物種」就有客觀答案;「這個 RNA-seq 樣本的人類患者感染了什么病毒」也能用一套獨立的 PCR 實驗做交叉驗證
每道題在收錄前還要附一個 validation notebook,作者必須能從原始數據復現答案,證明信號在數據里確實存在。原文用了一個高中代數的類比:驗證一個答案比從零推導一個答案容易得多
測試時,Claude 被放在一個容器里,能用 pip 和 conda 裝額外工具,能訪問 NCBI、Ensembl 這類生信數據庫下載參考基因組,但解題路徑完全自由。評分只看最終答案對不對,不看走的是哪條路
題目主要來自 DNA/RNA 測序的原始數據,覆蓋 WGS(全基因組測序)、scRNA-seq(單細胞 RNA 測序)、甲基化、ChIP-seq、宏基因組、Hi-C,外加一部分蛋白組學和代謝組學
例題里藏什么
原文給出五道樣題,靠猜走不通(我甚至完全看不懂hhhh)
→ 這套單細胞 RNA-seq 數據采自人體的哪個器官
→ 實驗組相對對照組,敲掉的是哪個基因,從 RNA-seq 數據反推
→ 給一組全基因組測序樣本,找出樣本 X 的母親樣本和父親樣本
→ 幾個 bigWig 文件里,哪些是 ChIP 實驗、哪些是 input 對照
→ 給一組 H3K27ac ChIP-seq 峰,反推這是什么細胞類型
每道題人類專家組(最多 5 人)獨立答一遍。只要至少有一個專家答對,這道題就歸入「人類可解」類別。最后 99 道里有 76 道是人類可解,剩下 23 道全員翻車(另有 4 道因為題目本身有問題被剔除)
能解的題已經追平
人類可解的 76 道,每個 Claude 模型獨立做 5 次,取平均。結果是從 Haiku 4.5 的 36.8%,到 Sonnet 4.6 的 71.8%,再到 Opus 4.6 的 77.4%、Opus 4.7 的 78.9%,Mythos 拿到 82.6%
![]()
BioMysteryBench 人類可解題(76 道),五代 Claude 模型平均準確率,Mythos 82.6% 最高
在解題的過程中,還發現了一些有趣的策略,原文給了兩個對照組
第一組里,Claude 的解法和人類專家幾乎一模一樣
原文的解釋是,要么人類專家本身就找到了接近最優的方法,要么這種方法在預訓練數據里被反復見過
![]()
Claude 跟人類專家走同一條路徑的兩個案例之一
![]()
同一組的第二個案例
第二組里,Claude 走了完全不同的路
人類專家用算法或數據庫去注釋樣本屬性,Claude 直接看一眼數據,靠模式識別認出來這是什么序列
![]()
Claude 走完全不同路徑的兩個案例之一,靠模式識別直接讀出序列特征
![]()
同一組的第二個案例
原文用了一個歷史類比:第一個真核生物啟動子被發現,是因為某位科學家注意到「TATA」這個序列在基因上游反復出現。這種憑直覺抓特征的能力,在傳統機器學習模型上很難訓練出來。語言模型有可能在更大尺度上做這件事
解不出的題被破了
剩下 23 道題,是 5 位專家全部答錯或放棄的
![]()
人類難題(23 道)的模型準確率,Mythos 29.6%,Opus 4.7 27.0%,Sonnet 4.6 19.1%
Claude Sonnet 4.6 之后的模型,能解出這一組里相當一部分。Sonnet 4.6 拿 19.1%、Opus 4.6 拿 23.5%、Opus 4.7 拿 27.0%,Claude Mythos 解題率最高,達到 29.6%
Claude 靠什么破題
Brianna 團隊從 Opus 4.6 的 transcript 里識別出兩套主要解法
第一套是直接調內部知識庫。一道題如果讓人類專家做,可能要去做一次 meta 分析,把幾篇論文、幾個數據庫手動拼起來。Opus 直接從內部知識里調出機制和本體(ontology),再結合實時分析,一步到位。原文給了三個具體例子,都屬于這一類
![]()
Claude 直接調內部知識解人類專家解不出的題,第一例
![]()
第二例
![]()
第三例
但內部知識也有反噬的時候。原文專門給了一道反例:在「人類可解」組里有一道題,Opus 因為先驗知識太強,反而做錯了答案
![]()
唯一一道反例:Claude 因先驗知識過強反而做錯
第二套是不確定時多方法收斂。Opus 4.6 在不確定的題上會同時跑多種解法,最后選多種方法都指向同一個答案的那個。原文給了三個例子。這種打法不算 AI 獨有,人類科研里也用,但 Opus 在題目難度上去之后會更頻繁地切到這種模式
![]()
不確定時多方法收斂,第一例
![]()
第二例
![]()
第三例
準做對還是蒙對
Brianna 團隊讓 Mythos 自己分析了一遍數據。Mythos 提出的問題是:每道題做 5 次,5 次全對和 5 次只對 1 次,意義完全不同。前者是穩定能力,后者多半是僥幸路徑碰巧走通
![]()
Fig 3:每道題做 5 次,按解對次數分布。左:人類可解題;右:人類難題
Mythos 給出的具體分布是這樣:
→ 在人類可解題上,Opus 4.6 解出來的題,86% 是 5 次中至少 4 次都對(穩定)
→ 同樣是 Opus 4.6,在人類難題上這個比例掉到 44%;只 1 到 2 次對的脆弱路徑占比從 9% 漲到 44%
→ Sonnet 4.6 的退化更明顯:穩定 75% 掉到 22%,脆弱 9% 漲到 56%
→ Opus 4.7 和 Mythos 把前沿往前推了一點,Mythos 在人類可解題上 94% 的勝場是穩定的
原文坦承,所謂 23 道人類難題里 Mythos 拿下的近 30%,相當一部分屬于這種脆弱路徑。準確率數字往下走的那一截真實存在,但下面那一層「可靠性差距」是更值得看的故事
Brianna 評價 Mythos 這次自我分析「站得住腳,但稍顯平淡」,補了細節,沒提出真正新的科學問題。她認為模型已經在長出研究品味(research taste)的種子,但離自己提出深刻洞見還有距離
另一家測,結論一致
在 Report 定稿前幾天,Genentech 和 Roche 聯合發布了 CompBioBench,100 道計算生物學題,設計原則和 BioMysteryBench 高度類似:合成數據加元數據擾動構造客觀答案、需要多步推理、需要工具調用、需要寫代碼
CompBioBench 上 Claude Opus 4.6 的整體準確率 81%,最難子集 69%。兩個獨立 benchmark,結論指向同一件事:前沿模型在生信任務上已經從「能用」過渡到「真的有用」
BioMysteryBench 的預覽版數據集已經放在 Hugging Face 上,感興趣的可以自己看看
參考材料:
→ 原文:anthropic.com/research/Evaluating-Claude-For-Bioinformatics-With-BioMysteryBench
→ 數據集:huggingface.co/datasets/Anthropic/BioMysteryBench-preview
→ CompBioBench 論文:biorxiv.org/content/10.64898/2026.04.06.716850v1
→ 生命科學落地:claude.com/lifesciences
→ 投稿郵箱:scienceblog@anthropic.com
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.