<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      如何判斷 AI 是否具備開展科學研究的智能?|深度報道

      0
      分享至


      原文發表于 《科技導報》2026年第6期科技新聞-深度報道

      如何判斷 AI 是否具備開展科學研究的智能?——新型測試評估大語言模型能否運用海量知識實現真正科學發現


      圖片來源:攝圖網

      多年來,人工智能(AI)研究者夢想開發能通過提出新問題、設計實驗乃至執行實驗來加速科學進程的工具。近期,大語言模型(large language models,LLM)已取得若干發現,部分AI開發者宣稱這使我們更接近該未來。但尚不知道如何測試AI模型是否真能開展科學研究?

      為尋求答案,研究者轉向基準測試:用于評估AI能力并與其他模型比較的標準化問題或任務集。但科學的復雜性使評判其科研能力尤為困難。美國伊利諾伊大學厄巴納-香檳分校計算機科學家Hao Peng表示:“模型擁有海量知識,但它們懂得如何運用嗎?”

      過去1年涌現數10項面向科學的新基準測試以回答該問題,但科學家尚未就最佳方法達成共識。其中最受歡迎者之一是2026年1月28日發表于Nature的“人類終極考試”(Humanity's Last Exam,HLE)。該測試采用2500道源自“人類知識前沿”的問題考驗LLM。例如其中一題詢問蜂鳥籽骨支撐多少對肌腱。HLE開發者、非營利組織人工智能安全中心研究工程師Long Phan表示:“我們希望構建僅長期深耕該領域的專家才能回答的多樣化數據集。”

      HLE自2025年1月24日首次以預印本形式發布以來,已成為LLM的重要試金石——HLE得分現已成為AI公司彰顯產品能力的常見談資。HLE發布時,知名開發者OpenAI的o1模型以僅8.3%的得分位居榜首。2026年3月早些時候,Google宣稱其最新科學推理模型Gemini 3 Deep Think創下48.4%的HLE新紀錄。

      但部分科學家指出,HLE諸多問題測試的是晦澀乃至瑣碎的知識,而非開展有意義研究的能力。AI for Science公司Deep Principle創始人段辰儒質疑:“知曉世界上磷同素異形體有多少種顏色,如何助人實現科學發現?”

      OpenAI研究者表示,他們開發了朝此方向邁進的新基準測試。2025年12月16日發布的FrontierScience借助700道化學、生物學與物理學問題,旨在識別“專家級科學推理”能力。部分問題類似數學與科學奧林匹克競賽題目:通常基于簡短場景、答案明確,OpenAI研究科學家Miles Wang稱之為“純推理努力的合理代理”。例如識別系列化學反應的產物。其他問題則基于博士科學家在實際工作中處理的復雜開放式研究問題,如推理修飾特定分子可能影響其性質的多種途徑。

      Wang表示,該基準測試的關鍵優勢在于可驗證性——這是公平測試的最重要特征之一。奧林匹克題目易于評分,而對于開放式研究問題,LLM因識別中間推理步驟而獲分。截至目前,OpenAI自家產品GPT-5.2取得最佳FrontierScience成績:奧林匹克題目正確率77%,研究挑戰得分25%

      其他研究者認為這一巨大分差頗具啟示性。他們主張基準測試應聚焦直接衡量AI開展現實世界研究的能力。這正是段辰儒及其合作者與FrontierScience同期發布的“科學發現評估”(Scientific Discovery Evaluation,SDE)基準測試的指導原則。該測試不提困難但孤立的問題,而是向AI呈現源自8項進行中、數據尚未發表的真實研究項目的1125項任務,關聯43種研究場景。例如要求LLM推導如何將目標分子分解為更簡單、市售可得的組分。模型評估不僅基于單個答案,更基于其整合完整項目的能力——在多步驟中提出、檢驗并完善假設。段辰儒表示:“我們確保回答每個問題都關聯真實科學發現的微小片段。”

      SDE得分顯示,LLM正確回答單個問題的能力并不總能轉化為完整項目的穩健表現,反之亦然。段辰儒表示:“知曉宏觀前進方向往往比知曉特定分子的精確性質更重要。”該基準測試還發現,來自OpenAI、Anthropic、xAI和DeepSeek等不同供應商的頂尖模型常在同一最難問題上受阻。這一模式暗示它們可能遭遇相同局限,很可能因其在相似科學數據池上訓練所致。

      然而SDE方法仍僅捕捉科學工作流的片段。AI for Science初創公司FutureHouse推出的生物學導向新基準測試LABBench2,旨在測試面向科學的AI能否將項目從初始構想推進至完成論文。2月發布的該測試采用近1900項任務,評估所謂“代理型www.kjdb.orgAI模型”(能獨立完成多步驟任務的系統)執行文獻檢索、數據獲取與基因序列構建等工作的能力。

      目前結果喜憂參半。多數領先LLM在全文專利與實驗室試驗論文檢索方面表現良好,但在LABBench2更復雜的任務上常遇困難,例如交叉引用多個數據庫,或在密集論文中定位并解讀特定圖表或數據。FutureHouse商業衍生公司Edison Scientific 的Jon Laurent表示,這表明邁向真正AI科學家的進展,部分也取決于改進模型檢索與導航信息的方式。

      研究者強調,基準測試不僅用于記錄當前贏家。更嚴格的基準測試還可通過為LLM及其他AI工具提供新目標來驅動創新。Laurent表示:“基準測試的目的之一是領先時代,衡量潛在能力,并推動其發展。”

      在諸多領域,或不存在衡量AI是否“擅長”科學的單一標準。美國佐治亞理工學院認知神經科學與AI研究者Anna Ivanova表示:“這正是我們看到所用基準測試高度異質的原因。系統繪制數據的能力與其分析化學事實知識截然不同——盡管科學家可能兩者都需要。”

      鑒于科學所需技能的廣泛性,AI專家認為研究界或宜依賴測試組合,每項測試針對并催化科學工作流不同環節的改進。Wang表示:“我們正邁向需要更多元化評估體系的世界。”

      無論采用何種方法,被衡量的內容很可能引導改進方向。Peng表示:“要取得進展,你必須能夠衡量它。

      文 /Celina Zhao

      (譯自Science,2026,391(6790))

      《科技導報》創刊于1980年,中國科協學術會刊,主要刊登科學前沿和技術熱點領域突破性的研究成果、權威性的科學評論、引領性的高端綜述,發表促進經濟社會發展、完善科技管理、優化科研環境、培育科學文化、促進科技創新和科技成果轉化的決策咨詢建議。常設欄目有院士卷首語、科技新聞、科技評論、專稿專題、綜述、論文、政策建議、科技人文等。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      特朗普前腳剛走,三大噩耗突襲,2萬億大單懸了,石油儲備見底!

      特朗普前腳剛走,三大噩耗突襲,2萬億大單懸了,石油儲備見底!

      涼羽亭
      2026-05-16 13:35:53
      重磅宣布!你好,崔永熙!中國男籃等了整整2年

      重磅宣布!你好,崔永熙!中國男籃等了整整2年

      籃球實戰寶典
      2026-05-15 19:22:06
      44年,游擊隊借走地主家8根金條,67年后老人要求政府償還3萬億

      44年,游擊隊借走地主家8根金條,67年后老人要求政府償還3萬億

      翠羽
      2026-05-13 12:20:15
      “暴富夢”碎?深圳這個區已有7個舊改“宣告失效”!

      “暴富夢”碎?深圳這個區已有7個舊改“宣告失效”!

      新浪財經
      2026-05-16 00:01:48
      0球0助!國安舊將加盟新東家狀態低迷,被23歲小將搶走了位置

      0球0助!國安舊將加盟新東家狀態低迷,被23歲小將搶走了位置

      體壇鑒春秋
      2026-05-16 17:51:14
      福建艦推進實戰訓練,英媒潑冷水,中國會造不會用,英國航母第一

      福建艦推進實戰訓練,英媒潑冷水,中國會造不會用,英國航母第一

      愛吃醋的貓咪
      2026-05-16 19:02:27
      空軍一號剛進中國領空,美軍末日飛機突然掉頭,直奔日本降落

      空軍一號剛進中國領空,美軍末日飛機突然掉頭,直奔日本降落

      趣文說娛
      2026-05-15 21:26:12
      女記者自曝采訪布萊克·萊弗利時窒息:權力陰影下的沉默代價

      女記者自曝采訪布萊克·萊弗利時窒息:權力陰影下的沉默代價

      時光慢旅人
      2026-05-15 00:16:37
      黃仁勛趕飛機與中美“共建天壇”敘事:中美關系的張力與隱喻

      黃仁勛趕飛機與中美“共建天壇”敘事:中美關系的張力與隱喻

      澎湃新聞
      2026-05-16 07:20:27
      噩耗突宣! 澳政府禁止PR領17項福利, 華人影響巨大! 澳洲綠卡成“廢紙”?! 還要大砍40%的移民...

      噩耗突宣! 澳政府禁止PR領17項福利, 華人影響巨大! 澳洲綠卡成“廢紙”?! 還要大砍40%的移民...

      澳洲紅領巾
      2026-05-16 13:37:43
      戛納這一天,3位中國女星有排面,鞏俐臺上說中文,她獲1分半介紹

      戛納這一天,3位中國女星有排面,鞏俐臺上說中文,她獲1分半介紹

      冷紫葉
      2026-05-14 13:29:25
      孫儷在國外終于時髦一回!穿牛仔裙+報童帽+馬丁靴,洋氣又高級

      孫儷在國外終于時髦一回!穿牛仔裙+報童帽+馬丁靴,洋氣又高級

      蓓小西
      2026-05-16 09:07:41
      哈佛70萬人研究:堅持這8個習慣,壽命延長20年,60歲開始也不晚

      哈佛70萬人研究:堅持這8個習慣,壽命延長20年,60歲開始也不晚

      白宸侃片
      2026-05-13 12:26:02
      14.2萬!吉利新車官宣:5 月 22 日 ,即將正式上市

      14.2萬!吉利新車官宣:5 月 22 日 ,即將正式上市

      科技堡壘
      2026-05-15 11:46:08
      外交部回應特朗普最新發文:特朗普總統帶領美國人民取得了重要發展成就,中美雙方可以通過加強合作,促進各自的發展振興

      外交部回應特朗普最新發文:特朗普總統帶領美國人民取得了重要發展成就,中美雙方可以通過加強合作,促進各自的發展振興

      極目新聞
      2026-05-15 16:04:18
      公牛集團起訴小米

      公牛集團起訴小米

      王姐懶人家常菜
      2026-05-16 16:25:40
      備戰提速?最新版殲-20A已經交付,外媒:美日還怎么武力介入臺海

      備戰提速?最新版殲-20A已經交付,外媒:美日還怎么武力介入臺海

      李健政觀察
      2026-05-15 14:04:27
      西決晉級概率僅32%,5點證馬刺遭低估!文班領銜3大新星成殺手锏

      西決晉級概率僅32%,5點證馬刺遭低估!文班領銜3大新星成殺手锏

      鍋子籃球
      2026-05-16 16:24:58
      美聯儲任命鮑威爾擔任臨時主席

      美聯儲任命鮑威爾擔任臨時主席

      新華社
      2026-05-16 12:40:04
      張雪機車站上領獎臺,賬上只剩半個月工資,重慶劃地200畝保產能

      張雪機車站上領獎臺,賬上只剩半個月工資,重慶劃地200畝保產能

      科學發掘
      2026-05-16 07:40:00
      2026-05-16 19:47:00
      科技導報 incentive-icons
      科技導報
      中國科協學術會刊
      5327文章數 8364關注度
      往期回顧 全部

      科技要聞

      漲的是車價,要的是老命

      頭條要聞

      7人蒙面當街搶走幼童主謀竟是孩子生父 母親奔波尋子

      頭條要聞

      7人蒙面當街搶走幼童主謀竟是孩子生父 母親奔波尋子

      體育要聞

      馬刺2號,少年老成,這集看過?

      娛樂要聞

      謝霆鋒北京街頭騎行被偶遇,側顏帥炸

      財經要聞

      造詞狂魔賈躍亭

      汽車要聞

      高爾夫GTI刷新紐北紀錄 ID. Polo GTI迎全球首秀

      態度原創

      房產
      教育
      手機
      藝術
      軍事航空

      房產要聞

      老黃埔熱銷之下,珠江春,為何去化僅3成?

      教育要聞

      一圖講透提前批!

      手機要聞

      小米盧偉冰回應為什么沒有出iPhone Air形態的產品

      藝術要聞

      23幅 張祖英油畫作品集

      軍事要聞

      聯合國安理會審議敘利亞局勢

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 日韩成人一区二区二十六区| 国产精品成人自拍视频| 亚洲欧美综合一区二区三区| 狠狠躁狠狠躁东京热无码专区| 激情综合丁香五月| 日韩av偷拍| 精品久久人人做爽综合 | 人妻少妇视频| 日韩无码一区二| 色综合久久网女同蕾丝边| 国产亚洲精品中文字幕| 无码天堂| 国产91精品福利在线观看| 婷婷色婷婷| 欧洲亚洲1卡二卡三卡2021| 酒店大战丝袜高跟鞋人妻 | 中文字幕巨大的乳专区| 玖玖资源站无码专区| 亚洲免费一区二区| 无码人妻少妇久久中文字幕蜜桃| 鄢陵县| 中文字幕少妇人妻精品| 日韩AV一区二区三区四区| 九九热无码| 67194成是人免费无码| 69精品人人人人| 99久久久国产精品消防器材| 亚洲男人的天堂 aⅴ无码| 道孚县| 国产成人美女AV| 日本精品中文字幕| 一本色道加勒比久久综合| 美女插逼| 91国在线啪| 99久久婷婷国产综合精品青草五月| 成人无码精品1区2区3区免费看| 人妻丝袜| 天天爽夜夜欢2018| 国产精品99久久精品| 国产av一区二区亚洲精品| 男女xx00xx的视频免费观看|