聚焦·人工智能 | 如何判定人工智能的科研能力

2026-04-22 12:33:25　來源: 社會科學(xué)報

上海舉報

分享至

人工智能技術(shù)飛速發(fā)展并持續(xù)向科研領(lǐng)域滲透，如何判斷AI是否真正具備開展科學(xué)研究的能力已成為學(xué)界關(guān)注的核心議題。當(dāng)前，各類新型基準(zhǔn)測試接連問世，試圖從不同維度衡量模型在科學(xué)任務(wù)中的表現(xiàn)。近日，研究者塞莉娜·趙（Celina Zhao）在《科學(xué)》雜志刊發(fā)《如何判定人工智能的科研能力？》（How will we know if AI is smart enough to do science?）一文，分析了目前不同評估體系對AI科研能力的考察維度，并提出應(yīng)構(gòu)建多元化、互補型評估體系，推動AI向更高階的科研能力邁進。

原文：《如何判定人工智能的科研能力》

編譯 |張譯丹楊勇

圖片 |網(wǎng)絡(luò)

長期以來，人工智能領(lǐng)域的研究者一直希望研發(fā)出能助力科學(xué)研究實現(xiàn)突破的智能工具，這類工具可自主提出創(chuàng)新性研究問題、設(shè)計實驗方案，甚至獨立完成實驗操作。最近，大語言模型接連取得多項研究發(fā)現(xiàn)，不少人工智能開發(fā)者認為，這讓行業(yè)離上述愿景又近了一步。但問題在于，該如何檢驗一款A(yù)I模型是否真正具備開展科學(xué)研究的核心能力？為解答這一問題，研究人員將目光投向基準(zhǔn)測試，通過標(biāo)準(zhǔn)化問題與任務(wù)評估AI能力、實現(xiàn)模型橫向?qū)Ρ?，而這也成為當(dāng)前衡量AI科研能力的核心手段。

多元測試工具各有側(cè)重

過去一年，數(shù)十款面向科學(xué)研究的新型基準(zhǔn)測試應(yīng)運而生，試圖回答這一問題，不過科學(xué)界至今尚未就最優(yōu)評估方法達成共識。

其中最受關(guān)注的，是今年1月發(fā)表于《自然》期刊的“人類最后考試”（HLE）。該測試選取2500道源自“人類知識前沿”的問題，以此檢驗大語言模型的能力。該測試由非營利組織人工智能安全中心研發(fā)，其研究工程師朗·范（Long Phan）表示：“我們希望打造一套多元數(shù)據(jù)集，其中的問題只有長期深耕某一領(lǐng)域的專家才能解答。”“人類最后考試”自首次發(fā)布后，便成為檢驗大語言模型的重要試金石，該測試的得分也成為AI企業(yè)彰顯自身產(chǎn)品能力的重要依據(jù)。測試推出之初，行業(yè)頭部企業(yè)OpenAI的人工智能模型雖拔得頭籌，但其正確率僅有8.3%；近日，谷歌宣布其最新科學(xué)推理模型Gemini 3 Deep Think在該測試中取得48.4%正確率的高分，創(chuàng)下該測試的歷史紀錄。

不過，有部分科學(xué)家質(zhì)疑，認為其中的諸多問題考察的只是晦澀難懂甚至細枝末節(jié)的知識，而非開展有價值科學(xué)研究的能力。與“人類最后考試”同期發(fā)表的《自然》期刊社論，也認同這一擔(dān)憂：“我們認為，更多科學(xué)家應(yīng)當(dāng)思考，想要研發(fā)出能真正衡量專家級思維能力的AI基準(zhǔn)測試，究竟需要具備哪些條件？”

OpenAI研究團隊表示，其新推出的基準(zhǔn)測試正朝著這一方向穩(wěn)步推進。2025年12月發(fā)布的前沿科學(xué)基準(zhǔn)測試（Frontier Science）包含約700道化學(xué)、生物、物理領(lǐng)域的問題，旨在檢驗?zāi)Ｐ偷摹皩＜壹壙茖W(xué)推理能力”。其中部分題目與數(shù)學(xué)、科學(xué)奧林匹克競賽題型異曲同工，這類題目以簡短場景為背景，答案明確。正如OpenAI研究科學(xué)家邁爾斯·王（Miles Wang）所言，這類題目是“衡量純推理能力的優(yōu)質(zhì)參考指標(biāo)”，比如判斷一系列化學(xué)反應(yīng)能生成的產(chǎn)物。另一類題目則圍繞復(fù)雜的開放性研究問題展開，這類問題正是科研工作者在博士階段及后續(xù)工作中需要攻克的難題，例如推導(dǎo)改變某一分子結(jié)構(gòu)會從哪些方面影響其性質(zhì)。

邁爾斯·王表示，該基準(zhǔn)測試的核心優(yōu)勢在于可驗證性，這也是公平合理的測試最關(guān)鍵的特征之一。奧林匹克競賽類題目評分標(biāo)準(zhǔn)清晰，而針對開放性研究問題，大語言模型若能梳理出完整的中間推理步驟，便可按步計分。截至目前，OpenAI自研的GPT-5.2模型在前沿科學(xué)基準(zhǔn)測試中表現(xiàn)最佳，不僅答對77%的奧賽類題目，還在研究挑戰(zhàn)類題目中取得25%的正確率。

有研究人員認為，兩類題目間懸殊的得分差距本身就很能說明問題。他們主張，基準(zhǔn)測試的研發(fā)應(yīng)聚焦于直接評估AI開展真實世界研究的能力，這正是段辰儒及其研究團隊與前沿科學(xué)基準(zhǔn)測試同期發(fā)布的科學(xué)發(fā)現(xiàn)評估（SDE）基準(zhǔn)測試的核心理念。科學(xué)發(fā)現(xiàn)評估并未設(shè)置難度頗高卻互不關(guān)聯(lián)的問題，而是為AI布置了1125項任務(wù)，對應(yīng)43個研究場景，這些場景均來自8個正在開展且相關(guān)數(shù)據(jù)尚未發(fā)表的真實科研項目。例如，該測試要求大語言模型設(shè)計具體方案，將目標(biāo)分子拆解為結(jié)構(gòu)更簡單且可商業(yè)化采購的原料。該評估的評分依據(jù)不僅包括答案的準(zhǔn)確性，還包括模型整合整個項目的能力，即能否在多步驟研究中提出假設(shè)、驗證假設(shè)并優(yōu)化假設(shè)。段辰儒表示：“我們可以保證，每一道測試題都圍繞解決真實科學(xué)研究中的問題展開，即便是微小的問題也不例外?！?/p>

AI科研能力尚存明顯瓶頸

科學(xué)發(fā)現(xiàn)評估（SDE）的測試結(jié)果顯示，大語言模型正確回答單個問題的能力，并非總能轉(zhuǎn)化為其在完整科研項目中的優(yōu)異表現(xiàn)，反之亦然。“把握研究的整體方向，往往比掌握某類分子的精準(zhǔn)屬性更為重要?！倍纬饺逭f。該測試還發(fā)現(xiàn)，來自O(shè)penAI、Anthropic、xAI、深度求索等企業(yè)的頂尖模型，往往會在同一類高難度問題上陷入瓶頸。這一現(xiàn)象表明，這些模型或許面臨著相同的能力天花板，究其原因，大概率是它們的訓(xùn)練數(shù)據(jù)均來自相似的科學(xué)數(shù)據(jù)池。

但即便如此，科學(xué)發(fā)現(xiàn)評估的方法也僅能覆蓋科學(xué)研究流程的部分環(huán)節(jié)。另一款新型基準(zhǔn)測試LABBench2則聚焦生物領(lǐng)域，由科學(xué)智能初創(chuàng)企業(yè)Future House研發(fā)，其核心目標(biāo)是檢驗面向科研的人工智能，是否具備將一個研究項目從最初構(gòu)想推進至論文成稿的全流程能力。該測試于近日推出，通過近1900項任務(wù)評估“代理式AI模型”在文獻檢索、數(shù)據(jù)獲取、基因序列構(gòu)建等工作中的表現(xiàn)，這類模型是能自主執(zhí)行操作、完成多步驟任務(wù)的智能系統(tǒng)。

迄今為止，該測試的結(jié)果好壞參半。諸多領(lǐng)先的大語言模型在檢索專利全文、實驗室試驗相關(guān)論文方面表現(xiàn)良好，但在應(yīng)對LABBench2中更復(fù)雜的任務(wù)時卻常常力不從心，例如交叉引用多個數(shù)據(jù)庫，或是在內(nèi)容繁雜的論文中定位并解讀特定的圖表與數(shù)據(jù)。Future House 旗下商業(yè)公司Edison Scientific的喬恩·洛朗（Jon Laurent）表示，這一現(xiàn)象說明，想要打造真正的AI科學(xué)家，其發(fā)展進程在一定程度上取決于模型信息檢索與信息導(dǎo)航能力的優(yōu)化。

以基準(zhǔn)測試引領(lǐng)未來發(fā)展

研究人員表示，值得關(guān)注的是，基準(zhǔn)測試的價值并非僅在于記錄當(dāng)下各模型的優(yōu)劣排名。更為嚴苛的基準(zhǔn)測試還能為大語言模型及其他AI工具設(shè)定全新發(fā)展目標(biāo)，進而推動行業(yè)創(chuàng)新。Future House旗下喬恩·洛朗表示，基準(zhǔn)測試的核心目的之一是做好前瞻性布局，衡量模型潛在能力并推動其持續(xù)發(fā)展，而OpenAI邁爾斯·王也對此深表認同，他以ImageNet大規(guī)模視覺識別挑戰(zhàn)賽為例，指出該賽事的冠軍模型AlexNet極大地推動了卷積神經(jīng)網(wǎng)絡(luò)發(fā)展，成為現(xiàn)代AI的技術(shù)基石，印證了優(yōu)質(zhì)基準(zhǔn)測試對科技突破的重要引領(lǐng)作用。

事實上，在科研領(lǐng)域，或許并不存在衡量AI是否“擅長開展科學(xué)研究”的單一標(biāo)準(zhǔn)。佐治亞理工學(xué)院研究認知神經(jīng)科學(xué)與人工智能交叉領(lǐng)域的安娜·伊萬諾娃（Anna Ivanova）表示：“這正是當(dāng)前各類基準(zhǔn)測試呈現(xiàn)多樣化的根本原因。一個智能系統(tǒng)的繪圖可視化能力，與其掌握的分析化學(xué)領(lǐng)域事實性知識截然不同，盡管科研工作者需要同時具備這兩種能力。”

鑒于科學(xué)研究所需的技能范圍廣泛，AI領(lǐng)域?qū)＜艺J為，科研界最理想的方式是構(gòu)建一套多元化的測試體系，每項測試都旨在針對性地推動科學(xué)研究流程中不同環(huán)節(jié)的能力提升。正如業(yè)內(nèi)所言：“我們正邁向一個需要多元化評估體系的新時代?！?/p>

無論采用何種評估方法，被納入衡量范疇的指標(biāo)，往往會成為技術(shù)改進的方向。正如行業(yè)共識：“唯有可衡量，方能求進步。”

文章為社會科學(xué)報“思想工坊”融媒體原創(chuàng)出品，原載于社會科學(xué)報第1997期第7版，未經(jīng)允許禁止轉(zhuǎn)載，文中內(nèi)容僅代表作者觀點，不代表本報立場。

本期責(zé)編：程鑫云

《社會科學(xué)報》2026年征訂

點擊下方圖片網(wǎng)上訂報↓↓↓

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.