<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      「生物信息學」評測,Claude 反超人類專家

      0
      分享至

      RESEARCH

      今天 Anthropic 放出了一項評估數據,對于新的生物信息學評測集 BioMysteryBench


      人類能搞定的,Claude 也能搞定;在人類搞不定的,Mythos 也能搞定

      哎...人類一敗涂地


      評估生物有三難

      科學沒有標準化考試這一說,AI 在科研上的能力也很難像 SWE-bench 評估編程那樣有一套被業界公認的 benchmark。原文給出三個具體的難點

      其一,是同一個生物問題往往有很多種合理解法

      原文用二甲雙胍舉例:要研究為什么有的二型糖尿病人吃二甲雙胍有效、有的沒效,可以做全基因組關聯(GWAS)找遺傳變異,也可以做腸道菌群測序找代謝通路。兩條路都對,選哪條往往只取決于實驗室手頭的資源和研究者的口味

      其二,單個研究決定本身就是主觀的

      對于生物數據來說,它的噪聲又足夠大,決定上的微小差異會得出截然相反的結論。還是二甲雙胍,2011 年一篇論文報告了一個能預測藥效的遺傳變異,2012 年糖尿病預防項目重做了一遍,結論變成「沒有」,同年另一項 meta 分析把五個隊列匯總,結論又改成「有但比 2011 年那篇報得弱」

      其三,...很多生物問題人類自己也回答不出

      這又有什么辦法呢?攤手

      二甲雙胍這個藥 1957 年就上市了,主要作用機制至今沒定論

      而恰恰是這類「人類還沒解開」的問題,最值得測 AI 能不能解

      測試題怎么出

      為了保證測試的「非主觀」,測試數據本身是要有的客觀結論的

      舉個例子,領域專家提交的一個評估題,其答案必須能從數據的可控屬性反推出來,而不是依賴經驗判斷。比如「這個晶體結構屬于哪個物種」就有客觀答案;「這個 RNA-seq 樣本的人類患者感染了什么病毒」也能用一套獨立的 PCR 實驗做交叉驗證

      每道題在收錄前還要附一個 validation notebook,作者必須能從原始數據復現答案,證明信號在數據里確實存在。原文用了一個高中代數的類比:驗證一個答案比從零推導一個答案容易得多

      測試時,Claude 被放在一個容器里,能用 pip 和 conda 裝額外工具,能訪問 NCBI、Ensembl 這類生信數據庫下載參考基因組,但解題路徑完全自由。評分只看最終答案對不對,不看走的是哪條路

      題目主要來自 DNA/RNA 測序的原始數據,覆蓋 WGS(全基因組測序)、scRNA-seq(單細胞 RNA 測序)、甲基化、ChIP-seq、宏基因組、Hi-C,外加一部分蛋白組學和代謝組學

      例題里藏什么

      原文給出五道樣題,靠猜走不通(我甚至完全看不懂hhhh)

      → 這套單細胞 RNA-seq 數據采自人體的哪個器官

      → 實驗組相對對照組,敲掉的是哪個基因,從 RNA-seq 數據反推

      → 給一組全基因組測序樣本,找出樣本 X 的母親樣本和父親樣本

      → 幾個 bigWig 文件里,哪些是 ChIP 實驗、哪些是 input 對照

      → 給一組 H3K27ac ChIP-seq 峰,反推這是什么細胞類型

      每道題人類專家組(最多 5 人)獨立答一遍。只要至少有一個專家答對,這道題就歸入「人類可解」類別。最后 99 道里有 76 道是人類可解,剩下 23 道全員翻車(另有 4 道因為題目本身有問題被剔除)

      能解的題已經追平

      人類可解的 76 道,每個 Claude 模型獨立做 5 次,取平均。結果是從 Haiku 4.5 的 36.8%,到 Sonnet 4.6 的 71.8%,再到 Opus 4.6 的 77.4%、Opus 4.7 的 78.9%,Mythos 拿到 82.6%


      BioMysteryBench 人類可解題(76 道),五代 Claude 模型平均準確率,Mythos 82.6% 最高

      在解題的過程中,還發現了一些有趣的策略,原文給了兩個對照組

      第一組里,Claude 的解法和人類專家幾乎一模一樣

      原文的解釋是,要么人類專家本身就找到了接近最優的方法,要么這種方法在預訓練數據里被反復見過


      Claude 跟人類專家走同一條路徑的兩個案例之一


      同一組的第二個案例

      第二組里,Claude 走了完全不同的路

      人類專家用算法或數據庫去注釋樣本屬性,Claude 直接看一眼數據,靠模式識別認出來這是什么序列


      Claude 走完全不同路徑的兩個案例之一,靠模式識別直接讀出序列特征


      同一組的第二個案例

      原文用了一個歷史類比:第一個真核生物啟動子被發現,是因為某位科學家注意到「TATA」這個序列在基因上游反復出現。這種憑直覺抓特征的能力,在傳統機器學習模型上很難訓練出來。語言模型有可能在更大尺度上做這件事

      解不出的題被破了

      剩下 23 道題,是 5 位專家全部答錯或放棄的


      人類難題(23 道)的模型準確率,Mythos 29.6%,Opus 4.7 27.0%,Sonnet 4.6 19.1%

      Claude Sonnet 4.6 之后的模型,能解出這一組里相當一部分。Sonnet 4.6 拿 19.1%、Opus 4.6 拿 23.5%、Opus 4.7 拿 27.0%,Claude Mythos 解題率最高,達到 29.6%

      Claude 靠什么破題

      Brianna 團隊從 Opus 4.6 的 transcript 里識別出兩套主要解法

      第一套是直接調內部知識庫。一道題如果讓人類專家做,可能要去做一次 meta 分析,把幾篇論文、幾個數據庫手動拼起來。Opus 直接從內部知識里調出機制和本體(ontology),再結合實時分析,一步到位。原文給了三個具體例子,都屬于這一類


      Claude 直接調內部知識解人類專家解不出的題,第一例


      第二例


      第三例

      但內部知識也有反噬的時候。原文專門給了一道反例:在「人類可解」組里有一道題,Opus 因為先驗知識太強,反而做錯了答案


      唯一一道反例:Claude 因先驗知識過強反而做錯

      第二套是不確定時多方法收斂。Opus 4.6 在不確定的題上會同時跑多種解法,最后選多種方法都指向同一個答案的那個。原文給了三個例子。這種打法不算 AI 獨有,人類科研里也用,但 Opus 在題目難度上去之后會更頻繁地切到這種模式


      不確定時多方法收斂,第一例


      第二例


      第三例

      準做對還是蒙對

      Brianna 團隊讓 Mythos 自己分析了一遍數據。Mythos 提出的問題是:每道題做 5 次,5 次全對和 5 次只對 1 次,意義完全不同。前者是穩定能力,后者多半是僥幸路徑碰巧走通


      Fig 3:每道題做 5 次,按解對次數分布。左:人類可解題;右:人類難題

      Mythos 給出的具體分布是這樣:

      → 在人類可解題上,Opus 4.6 解出來的題,86% 是 5 次中至少 4 次都對(穩定)

      → 同樣是 Opus 4.6,在人類難題上這個比例掉到 44%;只 1 到 2 次對的脆弱路徑占比從 9% 漲到 44%

      → Sonnet 4.6 的退化更明顯:穩定 75% 掉到 22%,脆弱 9% 漲到 56%

      → Opus 4.7 和 Mythos 把前沿往前推了一點,Mythos 在人類可解題上 94% 的勝場是穩定的

      原文坦承,所謂 23 道人類難題里 Mythos 拿下的近 30%,相當一部分屬于這種脆弱路徑。準確率數字往下走的那一截真實存在,但下面那一層「可靠性差距」是更值得看的故事

      Brianna 評價 Mythos 這次自我分析「站得住腳,但稍顯平淡」,補了細節,沒提出真正新的科學問題。她認為模型已經在長出研究品味(research taste)的種子,但離自己提出深刻洞見還有距離

      另一家測,結論一致

      在 Report 定稿前幾天,Genentech 和 Roche 聯合發布了 CompBioBench,100 道計算生物學題,設計原則和 BioMysteryBench 高度類似:合成數據加元數據擾動構造客觀答案、需要多步推理、需要工具調用、需要寫代碼

      CompBioBench 上 Claude Opus 4.6 的整體準確率 81%,最難子集 69%。兩個獨立 benchmark,結論指向同一件事:前沿模型在生信任務上已經從「能用」過渡到「真的有用」

      BioMysteryBench 的預覽版數據集已經放在 Hugging Face 上,感興趣的可以自己看看

      參考材料:

      → 原文:anthropic.com/research/Evaluating-Claude-For-Bioinformatics-With-BioMysteryBench

      → 數據集:huggingface.co/datasets/Anthropic/BioMysteryBench-preview

      → CompBioBench 論文:biorxiv.org/content/10.64898/2026.04.06.716850v1

      → 生命科學落地:claude.com/lifesciences

      → 投稿郵箱:scienceblog@anthropic.com

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      最正確的選擇!曼聯48小時內官宣卡里克轉正!簽2+1合同

      最正確的選擇!曼聯48小時內官宣卡里克轉正!簽2+1合同

      仰臥撐FTUer
      2026-05-15 22:42:04
      今年秋季起,佛山實行均衡編班!小學、初中教師團隊隨機配置

      今年秋季起,佛山實行均衡編班!小學、初中教師團隊隨機配置

      南方都市報
      2026-05-15 17:54:36
      北京網友提出優化京港澳高速杜家坎擁堵路段車道建議,官方回復!

      北京網友提出優化京港澳高速杜家坎擁堵路段車道建議,官方回復!

      寶哥精彩賽事
      2026-05-15 17:26:09
      湛江市遂溪縣委書記駱華慶,被查

      湛江市遂溪縣委書記駱華慶,被查

      大風新聞
      2026-05-15 18:45:22
      沒給日本的,中方都給了特朗普,除了21響禮炮,還有一個重要承諾

      沒給日本的,中方都給了特朗普,除了21響禮炮,還有一個重要承諾

      肖茲探秘說
      2026-05-15 13:42:33
      蘋果盤中股價創歷史新高

      蘋果盤中股價創歷史新高

      界面新聞
      2026-05-15 23:11:57
      離開央視、婚姻破裂,至親相繼離世后,46歲的他也走到了盡頭

      離開央視、婚姻破裂,至親相繼離世后,46歲的他也走到了盡頭

      鹿楠
      2026-05-15 22:45:06
      孩子一生最大的福報,就是遇到一個覺醒后的母親

      孩子一生最大的福報,就是遇到一個覺醒后的母親

      戶外阿毽
      2026-05-14 09:59:29
      成都軍區副司令,在西藏視察時遇難,享年63歲,司令員因此被免職

      成都軍區副司令,在西藏視察時遇難,享年63歲,司令員因此被免職

      云霄紀史觀
      2026-05-15 00:36:38
      4月汽車銷量前十名僅剩一款燃油車!麥肯錫:燃油車中短期內在中國市場不會快速退出歷史舞臺

      4月汽車銷量前十名僅剩一款燃油車!麥肯錫:燃油車中短期內在中國市場不會快速退出歷史舞臺

      每日經濟新聞
      2026-05-13 16:52:04
      看是御姐,臉還能打,肉卻 “軟趴趴” 了

      看是御姐,臉還能打,肉卻 “軟趴趴” 了

      飛娛日記
      2026-03-13 11:31:29
      玲瓏輪胎:塞爾維亞工廠目前成本偏高,主要受產能未達滿產,固定成本分攤壓力較大等多方面影響

      玲瓏輪胎:塞爾維亞工廠目前成本偏高,主要受產能未達滿產,固定成本分攤壓力較大等多方面影響

      每日經濟新聞
      2026-05-15 15:52:07
      美國已拒絕伊朗就結束戰爭提出的書面方案,并“重申其強硬立場”尤其是在核問題上,黃金、白銀大跌,原油飆升

      美國已拒絕伊朗就結束戰爭提出的書面方案,并“重申其強硬立場”尤其是在核問題上,黃金、白銀大跌,原油飆升

      每日經濟新聞
      2026-05-15 18:51:36
      局勢180度大反轉,中日貨幣戰打響,高市堅持立場

      局勢180度大反轉,中日貨幣戰打響,高市堅持立場

      雅兒姐愛追劇
      2026-05-15 05:13:44
      槍聲響起!小馬科斯大勢已去,菲軍方緊急切割,中菲關系或迎轉機

      槍聲響起!小馬科斯大勢已去,菲軍方緊急切割,中菲關系或迎轉機

      影孖看世界
      2026-05-14 23:06:05
      網友炸了!花 6000 萬美元拿下世界杯轉播權?這是真的貴?

      網友炸了!花 6000 萬美元拿下世界杯轉播權?這是真的貴?

      科技狐
      2026-05-15 22:36:21
      關于臺灣問題,中方重磅表態后,魯比奧回應了,措辭一如既往強硬

      關于臺灣問題,中方重磅表態后,魯比奧回應了,措辭一如既往強硬

      秋巷雨瀟瀟
      2026-05-15 22:11:35
      深夜槍響!菲律賓出大事了,參議院再次封鎖,小馬科斯也下場

      深夜槍響!菲律賓出大事了,參議院再次封鎖,小馬科斯也下場

      聚焦瞬間
      2026-05-14 18:30:10
      中國球迷可以在家看世界杯了!中央廣播電視總臺已獲2026年美加墨世界杯版權

      中國球迷可以在家看世界杯了!中央廣播電視總臺已獲2026年美加墨世界杯版權

      揚子晚報
      2026-05-15 14:52:38
      諾蘭新作《奧德賽》最美女人海倫由黑人女星扮演

      諾蘭新作《奧德賽》最美女人海倫由黑人女星扮演

      3DM游戲
      2026-05-15 06:28:12
      2026-05-15 23:52:49
      賽博禪心
      賽博禪心
      拜AI古佛,修賽博禪心
      440文章數 53關注度
      往期回顧 全部

      科技要聞

      直降千元起步!蘋果華為率先開啟618讓利

      頭條要聞

      特朗普稱中方同意購買200架波音飛機 外交部回應

      頭條要聞

      特朗普稱中方同意購買200架波音飛機 外交部回應

      體育要聞

      德約科維奇買的球隊,從第6級聯賽升入法甲

      娛樂要聞

      方媛為何要來《桃花塢6》沒苦硬吃?

      財經要聞

      騰訊掉隊,馬化騰戳破真相

      汽車要聞

      高爾夫GTI刷新紐北紀錄 ID. Polo GTI迎全球首秀

      態度原創

      藝術
      教育
      本地
      旅游
      公開課

      藝術要聞

      中式美學火了!特朗普、魯比奧、馬斯克小兒子點贊

      教育要聞

      七中育才又新增3個校區,個個有來頭

      本地新聞

      用蘇繡的方式,打開江西婺源

      旅游要聞

      別只冬天去哈爾濱,五月花海才是正確打開方式!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 精品亚洲成在人线av无码| 国产成人精品日本亚洲直接| 成人字幕网视频在线观看| 国产精品嫩草影院av| 午夜色区| 激情宗合网| 美女一区二区三区| www中文字幕在线观看| 国产成人精品三上悠亚| 688欧美人禽杂交狂配| 国产精品极品在线拍| 亚洲国产精品线久久| 夜夜添狠狠添高潮出水| 麻豆精品三级国产国语| 日韩欧美在线观看| 国产作爱激烈叫床视频| 国产偷国产偷亚洲高清午夜| 好男人社区影视在线WWW| 色噜噜狠狠综曰曰曰| 国产小受被做到哭咬床单GV| 亚洲色涩| 亚洲无码丝袜加勒比东京热精品| 乱码av麻豆丝袜熟女系列| 久久99日韩国产精品久久99| 午夜一区二区三区av| 喀什市| 欧美不卡无线在线一二三区观| 亚州精品熟女在线| 2020无码专区人妻系列日韩| 免费精品国产自产拍在线观看图片 | 国产成人无码AⅤ片在线观看| 欧美一区二区三区国产精品| 性久久久久久久| 人妻伦理在线一二三区| 欧美日韩综合在线| 亚洲欧美日韩、中文字幕不卡| 国产VA网站| 亚洲精品成人a?v久久| 美腿制服丝袜国产亚洲| 欧美一区二区日韩国产| 天堂V亚洲国产V第一次|