<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      Anthropic用99道題測出Claude的生物信息學水平

      0
      分享至

      「Claude在可解問題上已與人類專家持平?!笰nthropic這份新基準測試的結論是,但數據背后藏著更復雜的真相——30%的超高難度成功率,與五輪測試中要么全對要么全錯的極端波動,指向同一個問題:AI的"專家級"表現,和人類理解的"專家級",可能根本不是一回事。

      為什么生物信息學成了AI評測的硬骨頭


      測AI懂不懂生物,比想象中難得多。

      Anthropic在論文里吐槽了一圈現有基準的盲區。知識類測試比如MMLU-Pro或GPQA,考的是死記硬背,不是實戰技能。用真實數據集跑的BixBench,讓模型跟個別科學家的結論比——但科學家的結論本身就帶主觀性,方法選得不一樣,答案可能完全不同。至于SciGym那種模擬實驗室環境,答案倒是明確,卻過濾掉了真實生物數據里那股"混亂勁兒"。

      真實研究是什么畫風?數據 noisy(嘈雜)、信號微弱、工具鏈復雜,還得在NCBI、Ensembl這些數據庫里翻來翻去?,F有基準要么太干凈,要么太主觀,要么太理論。

      這是Anthropic做BioMysteryBench的出發點。

      99道題的設計心機:讓答案" objectively verifiable "

      這套題庫的核心設計很巧妙——答案不來自科學解釋,而來自數據本身的可控屬性,或獨立驗證過的元數據。

      每道題的作者必須提交一個驗證筆記本,證明信號確實存在于數據中。這種做法繞開了"科學家怎么說"的主觀陷阱,也讓出題范圍擴展到人類可能解不了的領域。

      具體任務長什么樣?比如給你一份單細胞RNA測序數據,問這是哪個器官的組織;或者給你實驗樣本,讓你推斷哪個基因被敲除了。Claude拿到的是一個容器環境,內置生物信息學工具,能訪問NCBI、Ensembl等數據庫,分析方法完全自主。只判最終答案,不管過程。

      99道題橫跨多個生物信息學子領域,由領域專家撰寫,基于真實且嘈雜的數據集。

      時間線:從76道"人類可解"到23道"全員陣亡"

      Anthropic把題目分成兩批測試。

      第一批76道,定義為"人類可解"——至少有一位專家(最多五位參與)找到了正確答案。第二批23道,五位專家全軍覆沒。還有4道題因為表述缺陷被剔除。

      對于那23道難題,Anthropic自己也不確定:是本質上無解,還是只是極難?換一批專家,或者更多專家,能不能解出來?這仍是開放問題。

      結果層面,Claude在可解問題上與人類專家持平——這是Anthropic的 headline 結論。但在那23道難題上,Claude Mythos Preview 達到了30%的成功率。

      表面看,AI超越了人類專家。但一致性分析潑了冷水。

      五輪測試暴露的"運氣成分"

      Anthropic讓Claude Mythos Preview每道題跑五遍。結果呈現兩極分化:

      可解問題上,Claude幾乎要么五輪全對,要么五輪全錯。難題上,成功通常只出現在一兩輪里。

      這說明什么?模型不是靠可復現的策略解題,而是偶爾"撞"到一條幸運路徑。30%的成功率背后,不是穩定的專家級能力,是概率性的摸索。

      Anthropic分析了Claude區別于人類測試者的兩個策略:一是調用廣博的知識庫,二是將信息與正在進行的分析直接結合。但當環境復雜度超過某個閾值,這種"邊查邊做"的模式就變成了抽獎。

      這對AI產品化意味著什么

      從產品經理視角看,BioMysteryBench的設計本身比結果更值得琢磨。

      它解決了一個長期痛點:如何驗證AI在開放域、工具依賴型任務上的真實能力。不是考知識,不是比速度,是給你臟數據、真工具、模糊目標,看你能不能端到端地交付。

      這種評測思路對科研自動化、臨床決策支持、藥物研發等場景有直接參考價值。如果AI要在這些領域從"輔助工具"升級為"獨立代理",BioMysteryBench式的壓力測試是必經之路。

      但五輪測試的波動數據也敲了警鐘。產品化時,"30%成功率"和"五輪中偶爾成功一次"是截然不同的用戶體驗。前者可能支撐一個"專家級第二意見"產品,后者只能做"探索性靈感生成器"。

      Anthropic沒有回避這個 nuance,反而在論文里主動披露。這種透明對行業是好事——它劃清了"演示級能力"和"生產級可靠性"的邊界。

      下一步該關注什么

      23道難題的"本質無解還是極難解"之問,短期內不會有答案。但幾個方向已經清晰:

      第一,一致性。如果五輪測試的方差能壓下來,30%可以變成可預期的30%,產品形態會完全不同。

      第二,工具鏈。Claude目前被允許自由調用生物信息學工具和數據庫,但工具本身的可靠性、API穩定性、數據版本漂移,都是真實部署時的隱藏成本。

      第三,人機協作界面。既然AI和人類在難題上各有盲區,如何設計工作流讓兩者互補,比追求"全面超越人類"更務實。

      Anthropic把驗證筆記本作為題目準入門檻的做法,也值得其他垂直領域借鑒。它建立了一種可審計的、社區可復現的質量控制機制,比"我們相信專家"更經得起推敲。

      Claude在生物信息學上的這步棋,表面是秀肌肉,實際是投石問路。99道題測出的不只是模型能力,更是一套評測方法論的可行性。對于盯著科研自動化賽道的創業者和產品經理,這份基準的含金量在于:它證明了端到端、真實數據、客觀驗證的評測是可以落地的,也暴露了當前技術棧在可靠性上的真實水位。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      西方害怕中國治沙?《自然》新評揭開真相:他們怕的并非沙漠消失

      西方害怕中國治沙?《自然》新評揭開真相:他們怕的并非沙漠消失

      生活的哲學
      2026-04-29 06:41:35
      晚年顧秋妍打開組織寄來的舊檔案,看到周乙的真實身份后懵了

      晚年顧秋妍打開組織寄來的舊檔案,看到周乙的真實身份后懵了

      卡西莫多的故事
      2026-04-16 10:52:01
      北平解放時,末代攝政王載灃召集全府上下,當場廢除40年的舊規矩

      北平解放時,末代攝政王載灃召集全府上下,當場廢除40年的舊規矩

      鑒史錄
      2026-04-30 22:29:37
      特斯拉全新款超跑開放下訂?國內還是要 33.2 萬元!

      特斯拉全新款超跑開放下訂?國內還是要 33.2 萬元!

      新浪財經
      2026-04-30 16:06:40
      場均6次失誤,哈登季后賽什么水平?已經晉升球隊老大

      場均6次失誤,哈登季后賽什么水平?已經晉升球隊老大

      老梁體育漫談
      2026-05-01 00:03:06
      52歲楊千嬅在杭州咖啡館被偶遇,個子挺矮的,身材微胖

      52歲楊千嬅在杭州咖啡館被偶遇,個子挺矮的,身材微胖

      大中國
      2026-05-01 09:07:29
      強力投手用各種方式拿下高分,但掘金還是沒有辦法戰勝森林狼?

      強力投手用各種方式拿下高分,但掘金還是沒有辦法戰勝森林狼?

      稻谷與小麥
      2026-05-01 23:35:11
      要來了?鄭麗文啟程赴美前,大陸先聲奪人,全島2300萬人面臨抉擇

      要來了?鄭麗文啟程赴美前,大陸先聲奪人,全島2300萬人面臨抉擇

      老謝談史
      2026-05-01 04:54:36
      今年8月能吃到!塔克拉瑪干沙漠引入28萬只,養在昆侖山雪水中

      今年8月能吃到!塔克拉瑪干沙漠引入28萬只,養在昆侖山雪水中

      萬象硬核本尊
      2026-04-30 19:37:47
      5月2日倫敦世乒賽國乒比賽前瞻 CCTV直播 附賽程

      5月2日倫敦世乒賽國乒比賽前瞻 CCTV直播 附賽程

      梅亭談
      2026-05-01 17:20:35
      猛龍vs騎士前瞻:英格拉姆出戰成疑,騎士力爭客場終結懸念

      猛龍vs騎士前瞻:英格拉姆出戰成疑,騎士力爭客場終結懸念

      體壇野秀才
      2026-05-01 19:16:42
      英超專家小組認定加布頂牛哈蘭德屬于暴力行為,本應吃到紅牌

      英超專家小組認定加布頂牛哈蘭德屬于暴力行為,本應吃到紅牌

      懂球帝
      2026-05-01 21:10:11
      清華團隊預言:90%的人將脫離謀生勞動,「零人公司」時代來了!

      清華團隊預言:90%的人將脫離謀生勞動,「零人公司」時代來了!

      新智元
      2026-04-30 15:07:56
      黃巖島:結束15年菲律賓霸占后的新面貌

      黃巖島:結束15年菲律賓霸占后的新面貌

      趙枹是個熱血青年
      2026-04-13 17:04:11
      5月第一天,特朗普鬧出3個“笑話”,以軍機被擊落?伊朗深夜開火

      5月第一天,特朗普鬧出3個“笑話”,以軍機被擊落?伊朗深夜開火

      阿紿聊社會
      2026-05-01 21:07:05
      特勤局局長披露記者晚宴行兇槍手被捕真相:他撞上磁力計箱子摔倒

      特勤局局長披露記者晚宴行兇槍手被捕真相:他撞上磁力計箱子摔倒

      真正能保護你的
      2026-05-01 11:38:52
      勒得慌,下次出門再換個內搭

      勒得慌,下次出門再換個內搭

      飛娛日記
      2026-04-26 06:42:27
      日本全面叫停種植牙?種牙潛藏的風險與后遺癥,一次為你講明白

      日本全面叫停種植牙?種牙潛藏的風險與后遺癥,一次為你講明白

      垚垚分享健康
      2026-04-11 08:51:57
      美軍因法律紅線被迫停止對伊行動?伊朗戳破真相,特朗普露出真面

      美軍因法律紅線被迫停止對伊行動?伊朗戳破真相,特朗普露出真面

      讓我的世界更加精彩
      2026-05-01 21:49:37
      當年雷軍已經財務自由了,為什么還要去創業做小米呢?

      當年雷軍已經財務自由了,為什么還要去創業做小米呢?

      創業者李孟
      2026-04-30 21:55:37
      2026-05-01 23:48:49
      賽博蘭博
      賽博蘭博
      專注搗鼓AI效率工具,試圖在這個時代留下數字分身的探索者。
      2065文章數 26關注度
      往期回顧 全部

      科技要聞

      DeepSeek發布多模態論文又連夜刪除

      頭條要聞

      美國也搞起"人肉代購" "去墨西哥買中國車"教程瘋傳

      頭條要聞

      美國也搞起"人肉代購" "去墨西哥買中國車"教程瘋傳

      體育要聞

      無奈!約基奇:這要在塞爾維亞 全隊早被炒了

      娛樂要聞

      馬筱梅產后身材恢復超好 現身戶外直播

      財經要聞

      GPU神話松動,AI真正的戰場變了

      汽車要聞

      限時9.67萬起 吉利星越L/星瑞i-HEV智擎混動上市

      態度原創

      旅游
      教育
      手機
      時尚
      公開課

      旅游要聞

      玩法升級!鞏義雙槐樹遺址假期首日激發體驗熱潮

      教育要聞

      五一首日熱度爆棚!秦淮區中招會傳來最新消息!

      手機要聞

      華為Pura 90系列、Pura X Max手機備件價格公布

      這個夏天,彩色褲子又火了!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 欧美特黄一片aa大片免费看| 在线播放深夜精品三级| 亚洲在线观看| 伊人久久大香线蕉综合影院| 久久久午夜精品福利内容| 欧美XXXX黑人又粗又长精品| 永久久久免费人妻精品| 中文字幕无码免费久久99| 色yeye香蕉凹凸视频在线观看| 亚洲免费成人网站| 人人爽人人爽人人爽| 国产成人8x视频一区二区| 2019最新国产不卡a| 少妇愉情理伦片丰满丰满| 午夜福利在线观看6080| 偷拍福利视频一区二区三区| 久久亚洲色www成人欧美| 人人狠狠久久亚洲综合88| 亚洲欧美日韩中文二区| 国产一区在线播放无遮挡| 人妻斩0930无码视频| 国产97人人超碰caoprom| 久久久噜噜噜WWW成人网| 中日韩精品视频一区二区三区| 三级网站| 特级无码毛片免费视频尤物| 色丁香婷婷综合久久| 亚洲精品aⅴ| 久久精品网站免费观看| 亚洲黄色成人| 欧美性猛交久久久乱大交小说 | 午夜福利片国产精品| 美女成人网站| 真实国产精品视频400部| 金国产天天天天91| 国产精品成人啪精品视频| 女女互磨互喷水高潮les呻吟| 久久精品无码一区二区三区蜜费| 亚洲精品久久久久中文字幕二区 | 性与欲视频免费播放的| 成人网站免费观看永久视频下载|