<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      聚焦·人工智能 | 如何判定人工智能的科研能力

      0
      分享至


      人工智能技術(shù)飛速發(fā)展并持續(xù)向科研領(lǐng)域滲透,如何判斷AI是否真正具備開展科學(xué)研究的能力已成為學(xué)界關(guān)注的核心議題。當(dāng)前,各類新型基準(zhǔn)測試接連問世,試圖從不同維度衡量模型在科學(xué)任務(wù)中的表現(xiàn)。近日,研究者塞莉娜·趙(Celina Zhao)在《科學(xué)》雜志刊發(fā)《如何判定人工智能的科研能力?》(How will we know if AI is smart enough to do science?)一文,分析了目前不同評估體系對AI科研能力的考察維度,并提出應(yīng)構(gòu)建多元化、互補型評估體系,推動AI向更高階的科研能力邁進。

      原文 :《如何判定人工智能的科研能力》

      編譯 |張譯丹 楊勇

      圖片 |網(wǎng)絡(luò)

      長期以來,人工智能領(lǐng)域的研究者一直希望研發(fā)出能助力科學(xué)研究實現(xiàn)突破的智能工具,這類工具可自主提出創(chuàng)新性研究問題、設(shè)計實驗方案,甚至獨立完成實驗操作。最近,大語言模型接連取得多項研究發(fā)現(xiàn),不少人工智能開發(fā)者認為,這讓行業(yè)離上述愿景又近了一步。但問題在于,該如何檢驗一款A(yù)I模型是否真正具備開展科學(xué)研究的核心能力?為解答這一問題,研究人員將目光投向基準(zhǔn)測試,通過標(biāo)準(zhǔn)化問題與任務(wù)評估AI能力、實現(xiàn)模型橫向?qū)Ρ?,而這也成為當(dāng)前衡量AI科研能力的核心手段。

      多元測試工具各有側(cè)重

      過去一年,數(shù)十款面向科學(xué)研究的新型基準(zhǔn)測試應(yīng)運而生,試圖回答這一問題,不過科學(xué)界至今尚未就最優(yōu)評估方法達成共識。

      其中最受關(guān)注的,是今年1月發(fā)表于《自然》期刊的“人類最后考試”(HLE)。該測試選取2500道源自“人類知識前沿”的問題,以此檢驗大語言模型的能力。該測試由非營利組織人工智能安全中心研發(fā),其研究工程師朗·范(Long Phan)表示:“我們希望打造一套多元數(shù)據(jù)集,其中的問題只有長期深耕某一領(lǐng)域的專家才能解答。”“人類最后考試”自首次發(fā)布后,便成為檢驗大語言模型的重要試金石,該測試的得分也成為AI企業(yè)彰顯自身產(chǎn)品能力的重要依據(jù)。測試推出之初,行業(yè)頭部企業(yè)OpenAI的人工智能模型雖拔得頭籌,但其正確率僅有8.3%;近日,谷歌宣布其最新科學(xué)推理模型Gemini 3 Deep Think在該測試中取得48.4%正確率的高分,創(chuàng)下該測試的歷史紀錄。


      不過,有部分科學(xué)家質(zhì)疑,認為其中的諸多問題考察的只是晦澀難懂甚至細枝末節(jié)的知識,而非開展有價值科學(xué)研究的能力。與“人類最后考試”同期發(fā)表的《自然》期刊社論,也認同這一擔(dān)憂:“我們認為,更多科學(xué)家應(yīng)當(dāng)思考,想要研發(fā)出能真正衡量專家級思維能力的AI基準(zhǔn)測試,究竟需要具備哪些條件?”

      OpenAI研究團隊表示,其新推出的基準(zhǔn)測試正朝著這一方向穩(wěn)步推進。2025年12月發(fā)布的前沿科學(xué)基準(zhǔn)測試(Frontier Science)包含約700道化學(xué)、生物、物理領(lǐng)域的問題,旨在檢驗?zāi)P偷摹皩<壹壙茖W(xué)推理能力”。其中部分題目與數(shù)學(xué)、科學(xué)奧林匹克競賽題型異曲同工,這類題目以簡短場景為背景,答案明確。正如OpenAI研究科學(xué)家邁爾斯·王(Miles Wang)所言,這類題目是“衡量純推理能力的優(yōu)質(zhì)參考指標(biāo)”,比如判斷一系列化學(xué)反應(yīng)能生成的產(chǎn)物。另一類題目則圍繞復(fù)雜的開放性研究問題展開,這類問題正是科研工作者在博士階段及后續(xù)工作中需要攻克的難題,例如推導(dǎo)改變某一分子結(jié)構(gòu)會從哪些方面影響其性質(zhì)。

      邁爾斯·王表示,該基準(zhǔn)測試的核心優(yōu)勢在于可驗證性,這也是公平合理的測試最關(guān)鍵的特征之一。奧林匹克競賽類題目評分標(biāo)準(zhǔn)清晰,而針對開放性研究問題,大語言模型若能梳理出完整的中間推理步驟,便可按步計分。截至目前,OpenAI自研的GPT-5.2模型在前沿科學(xué)基準(zhǔn)測試中表現(xiàn)最佳,不僅答對77%的奧賽類題目,還在研究挑戰(zhàn)類題目中取得25%的正確率。

      有研究人員認為,兩類題目間懸殊的得分差距本身就很能說明問題。他們主張,基準(zhǔn)測試的研發(fā)應(yīng)聚焦于直接評估AI開展真實世界研究的能力,這正是段辰儒及其研究團隊與前沿科學(xué)基準(zhǔn)測試同期發(fā)布的科學(xué)發(fā)現(xiàn)評估(SDE)基準(zhǔn)測試的核心理念。科學(xué)發(fā)現(xiàn)評估并未設(shè)置難度頗高卻互不關(guān)聯(lián)的問題,而是為AI布置了1125項任務(wù),對應(yīng)43個研究場景,這些場景均來自8個正在開展且相關(guān)數(shù)據(jù)尚未發(fā)表的真實科研項目。例如,該測試要求大語言模型設(shè)計具體方案,將目標(biāo)分子拆解為結(jié)構(gòu)更簡單且可商業(yè)化采購的原料。該評估的評分依據(jù)不僅包括答案的準(zhǔn)確性,還包括模型整合整個項目的能力,即能否在多步驟研究中提出假設(shè)、驗證假設(shè)并優(yōu)化假設(shè)。段辰儒表示:“我們可以保證,每一道測試題都圍繞解決真實科學(xué)研究中的問題展開,即便是微小的問題也不例外?!?/p>

      AI科研能力尚存明顯瓶頸

      科學(xué)發(fā)現(xiàn)評估(SDE)的測試結(jié)果顯示,大語言模型正確回答單個問題的能力,并非總能轉(zhuǎn)化為其在完整科研項目中的優(yōu)異表現(xiàn),反之亦然。“把握研究的整體方向,往往比掌握某類分子的精準(zhǔn)屬性更為重要?!倍纬饺逭f。該測試還發(fā)現(xiàn),來自O(shè)penAI、Anthropic、xAI、深度求索等企業(yè)的頂尖模型,往往會在同一類高難度問題上陷入瓶頸。這一現(xiàn)象表明,這些模型或許面臨著相同的能力天花板,究其原因,大概率是它們的訓(xùn)練數(shù)據(jù)均來自相似的科學(xué)數(shù)據(jù)池。

      但即便如此,科學(xué)發(fā)現(xiàn)評估的方法也僅能覆蓋科學(xué)研究流程的部分環(huán)節(jié)。另一款新型基準(zhǔn)測試LABBench2則聚焦生物領(lǐng)域,由科學(xué)智能初創(chuàng)企業(yè)Future House研發(fā),其核心目標(biāo)是檢驗面向科研的人工智能,是否具備將一個研究項目從最初構(gòu)想推進至論文成稿的全流程能力。該測試于近日推出,通過近1900項任務(wù)評估“代理式AI模型”在文獻檢索、數(shù)據(jù)獲取、基因序列構(gòu)建等工作中的表現(xiàn),這類模型是能自主執(zhí)行操作、完成多步驟任務(wù)的智能系統(tǒng)。


      迄今為止,該測試的結(jié)果好壞參半。諸多領(lǐng)先的大語言模型在檢索專利全文、實驗室試驗相關(guān)論文方面表現(xiàn)良好,但在應(yīng)對LABBench2中更復(fù)雜的任務(wù)時卻常常力不從心,例如交叉引用多個數(shù)據(jù)庫,或是在內(nèi)容繁雜的論文中定位并解讀特定的圖表與數(shù)據(jù)。Future House 旗下商業(yè)公司Edison Scientific的喬恩·洛朗(Jon Laurent)表示,這一現(xiàn)象說明,想要打造真正的AI科學(xué)家,其發(fā)展進程在一定程度上取決于模型信息檢索與信息導(dǎo)航能力的優(yōu)化。

      以基準(zhǔn)測試引領(lǐng)未來發(fā)展

      研究人員表示,值得關(guān)注的是,基準(zhǔn)測試的價值并非僅在于記錄當(dāng)下各模型的優(yōu)劣排名。更為嚴苛的基準(zhǔn)測試還能為大語言模型及其他AI工具設(shè)定全新發(fā)展目標(biāo),進而推動行業(yè)創(chuàng)新。Future House旗下喬恩·洛朗表示,基準(zhǔn)測試的核心目的之一是做好前瞻性布局,衡量模型潛在能力并推動其持續(xù)發(fā)展,而OpenAI邁爾斯·王也對此深表認同,他以ImageNet大規(guī)模視覺識別挑戰(zhàn)賽為例,指出該賽事的冠軍模型AlexNet極大地推動了卷積神經(jīng)網(wǎng)絡(luò)發(fā)展,成為現(xiàn)代AI的技術(shù)基石,印證了優(yōu)質(zhì)基準(zhǔn)測試對科技突破的重要引領(lǐng)作用。

      事實上,在科研領(lǐng)域,或許并不存在衡量AI是否“擅長開展科學(xué)研究”的單一標(biāo)準(zhǔn)。佐治亞理工學(xué)院研究認知神經(jīng)科學(xué)與人工智能交叉領(lǐng)域的安娜·伊萬諾娃(Anna Ivanova)表示:“這正是當(dāng)前各類基準(zhǔn)測試呈現(xiàn)多樣化的根本原因。一個智能系統(tǒng)的繪圖可視化能力,與其掌握的分析化學(xué)領(lǐng)域事實性知識截然不同,盡管科研工作者需要同時具備這兩種能力。”

      鑒于科學(xué)研究所需的技能范圍廣泛,AI領(lǐng)域?qū)<艺J為,科研界最理想的方式是構(gòu)建一套多元化的測試體系,每項測試都旨在針對性地推動科學(xué)研究流程中不同環(huán)節(jié)的能力提升。正如業(yè)內(nèi)所言:“我們正邁向一個需要多元化評估體系的新時代?!?/p>

      無論采用何種評估方法,被納入衡量范疇的指標(biāo),往往會成為技術(shù)改進的方向。正如行業(yè)共識:“唯有可衡量,方能求進步。”

      文章為社會科學(xué)報“思想工坊”融媒體原創(chuàng)出品,原載于社會科學(xué)報第1997期第7版,未經(jīng)允許禁止轉(zhuǎn)載,文中內(nèi)容僅代表作者觀點,不代表本報立場。

      本期責(zé)編:程鑫云


      《社會科學(xué)報》2026年征訂

      點擊下方圖片網(wǎng)上訂報↓↓↓



      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      美方否認船只被伊朗導(dǎo)彈擊中;此前伊方稱發(fā)射兩枚導(dǎo)彈擊中一艘美軍艦船

      美方否認船只被伊朗導(dǎo)彈擊中;此前伊方稱發(fā)射兩枚導(dǎo)彈擊中一艘美軍艦船

      大象新聞
      2026-05-04 19:46:03
      大家覺得三姐妹誰最好看?做老婆你會選其中的誰?

      大家覺得三姐妹誰最好看?做老婆你會選其中的誰?

      娛樂洞察點點
      2026-05-04 19:02:59
      官方:遼寧鐵人宣布李金羽下課 且不再擔(dān)任總經(jīng)理

      官方:遼寧鐵人宣布李金羽下課 且不再擔(dān)任總經(jīng)理

      體壇周報
      2026-05-04 18:07:32
      王晨輝去世,救上岸的女兒成最大遺憾,與妻子很恩愛也是科研人員

      王晨輝去世,救上岸的女兒成最大遺憾,與妻子很恩愛也是科研人員

      Thurman在昆明
      2026-05-04 09:05:30
      別再被抗戰(zhàn)劇騙了!一名日軍攝影師,拍下真正的“鬼子進村”照片

      別再被抗戰(zhàn)劇騙了!一名日軍攝影師,拍下真正的“鬼子進村”照片

      歷史甄有趣
      2026-05-04 08:10:22
      西安這把火,為啥要發(fā)通報?

      西安這把火,為啥要發(fā)通報?

      靠山屯閑話
      2026-05-04 14:45:39
      拒絕黑八!活塞4-3逆轉(zhuǎn)魔術(shù)晉級 坎寧安32+12班凱羅38+9+6

      拒絕黑八!活塞4-3逆轉(zhuǎn)魔術(shù)晉級 坎寧安32+12班凱羅38+9+6

      醉臥浮生
      2026-05-04 06:12:37
      孫楊無證駕駛再上熱搜,全體拘留人員當(dāng)時被迫陪他吃素

      孫楊無證駕駛再上熱搜,全體拘留人員當(dāng)時被迫陪他吃素

      映射生活的身影
      2026-05-03 02:46:28
      烏克蘭無人機擊中莫斯科目標(biāo),距離克里姆林宮僅6公里

      烏克蘭無人機擊中莫斯科目標(biāo),距離克里姆林宮僅6公里

      山河路口
      2026-05-04 16:46:48
      季麟連去向已定,鄭麗文對趙少康出手有深意,開除或是最終選項

      季麟連去向已定,鄭麗文對趙少康出手有深意,開除或是最終選項

      墜入二次元的海洋
      2026-05-04 15:19:21
      兩性關(guān)系:55-65歲這十年,惜命最好的方式,不是鍛煉,而是這6點

      兩性關(guān)系:55-65歲這十年,惜命最好的方式,不是鍛煉,而是這6點

      周哥一影視
      2026-04-17 06:45:59
      世乒賽男團:日本2-3法國,F(xiàn)-勒布倫橫掃張本智和

      世乒賽男團:日本2-3法國,F(xiàn)-勒布倫橫掃張本智和

      懂球帝
      2026-05-04 09:44:16
      一喝水,尿就多,這是代表腎臟好,還是不好呢?答案出乎意料

      一喝水,尿就多,這是代表腎臟好,還是不好呢?答案出乎意料

      芹姐說生活
      2026-05-04 16:25:39
      53歲董卿消失后首度曝光!菜場買菜、接娃放學(xué),每月工資5600元

      53歲董卿消失后首度曝光!菜場買菜、接娃放學(xué),每月工資5600元

      陳意小可愛
      2026-05-04 14:31:15
      微軟力推32GB內(nèi)存才夠打游戲 被玩家罵到刪帖!

      微軟力推32GB內(nèi)存才夠打游戲 被玩家罵到刪帖!

      游民星空
      2026-05-03 12:14:25
      張素芬、呂強最新重倉科技龍頭,3家都在橫盤,最長已813天

      張素芬、呂強最新重倉科技龍頭,3家都在橫盤,最長已813天

      長風(fēng)價值掘金
      2026-05-04 15:59:57
      安洗瑩IG慶祝尤杯奪冠!比肩林丹造羽壇偉業(yè) 韓媒:無愧世界最強

      安洗瑩IG慶祝尤杯奪冠!比肩林丹造羽壇偉業(yè) 韓媒:無愧世界最強

      顏小白的籃球夢
      2026-05-04 15:33:48
      他曾立下赫赫戰(zhàn)功,卻在九一三事件中放走林彪,最后結(jié)局如何?

      他曾立下赫赫戰(zhàn)功,卻在九一三事件中放走林彪,最后結(jié)局如何?

      雍親王府
      2026-05-04 13:45:11
      張萌每一套都那么誘人

      張萌每一套都那么誘人

      鄉(xiāng)野小珥
      2026-04-30 15:18:35
      蔡少芬曬五一姐妹聚會吃腸粉,54歲洪欣染一頭黃發(fā)狀態(tài)最好!

      蔡少芬曬五一姐妹聚會吃腸粉,54歲洪欣染一頭黃發(fā)狀態(tài)最好!

      手工制作阿殲
      2026-05-04 05:30:27
      2026-05-04 20:15:01
      社會科學(xué)報 incentive-icons
      社會科學(xué)報
      社會科學(xué)院主辦社會科學(xué)報
      4144文章數(shù) 23454關(guān)注度
      往期回顧 全部

      科技要聞

      OpenAI“復(fù)活”了QQ寵物,網(wǎng)友直接玩瘋

      頭條要聞

      中國向聯(lián)合國發(fā)出警告:東京足可制造約5500枚核彈頭

      頭條要聞

      中國向聯(lián)合國發(fā)出警告:東京足可制造約5500枚核彈頭

      體育要聞

      騎士破猛龍:加雷特·阿倫的活力

      娛樂要聞

      張敬軒還是站上了英皇25周年舞臺

      財經(jīng)要聞

      魔幻的韓國股市,父母給嬰兒開戶買股票

      汽車要聞

      同比大漲190% 方程豹4月銷量29138臺

      態(tài)度原創(chuàng)

      房產(chǎn)
      親子
      旅游
      數(shù)碼
      公開課

      房產(chǎn)要聞

      五一樓市徹底明牌!塔尖人群都在重倉凱旋新世界

      親子要聞

      4歲女兒說她錢都花沒了,奶奶立馬拿出錢給她,隔輩就是親啊

      旅游要聞

      五一假期過半,高唐國際營地多元體驗“花樣”吸客人氣不減

      數(shù)碼要聞

      三星新一代AI家電獲得新技能:冰箱能幫你整理食材購物清單

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 免费无码又爽又刺激高潮的视频| 国产做a爰片久久毛片a片美国| 精品国产91久久久久久亚瑟| 国产成人精品无码一区二区| 中文字幕第1页在线播| 久久婷婷色综合一区二区| 人妻少妇456在线视频| 日韩a片无码一区二区五区电影| 婷婷综合在线| 人妻少妇一区二区三区| 国产99久久无码精品| 久久久久国色av免费观看| 国产人妻精品无码av在线 | 艳妇乳肉豪荡av无码免费反馈| 国产精品人| 88国产经典欧美一区二区三区| 伊人久久精品无码二区麻豆| 成人福利国产精品视频| 亚洲人成小说网站色在线| 国产富婆熟妇hd| 色色色资源| AV色色色| 一级欧美一级日韩片一级二级| www.91.com,永久看片| 无码人妻一区二区三区免费| 国产不卡精品视频男人的天堂| 亚洲欧美日韩中文无线码| 亚洲一区二区三区在线| 国产小视频一区二区三区| 亚洲av综合一区二区| 国产馆在线观看视频| 精品乱码一区二区三四五区| 四虎在线成人免费观看| ree性亚洲88av| 中文字幕三区| 中国漂亮护士一级毛片| 中文成人无码精品久久久| 一本久道综合在线无码88| 人人澡人人曰人人摸看| 亚洲第一二三区日韩国产| 制服.丝袜.亚洲.中文.综合懂|