網易首頁 > 網易號 > 正文申請入駐

中科大、科大訊飛開發ChemEval：化學大模型多維度能力評估新基準

2026-02-09 12:59:13　來源: ScienceAI

河北舉報

分享至

作者丨論文團隊

編輯丨ScienceAI

近年來，大語言模型在文本理解、知識問答和通用推理任務中展現出驚人的能力，也逐漸被引入到化學文獻分析、反應預測和分子設計等科學場景中。然而，一個關鍵問題長期被忽視：

模型「看起來會化學」，是否真的具備化學研究所需的能力？

現有主流評測基準（如 MMLU、SciEval 等）大多以通用學科或淺層科學問答為主，難以刻畫化學研究中高度專業、層次分明且跨模態的能力需求。即便是已有的化學評測工作，也往往局限于少量任務或單一能力維度，難以反映模型在真實科研場景中的綜合表現。

針對這一核心缺口，認知智能全國重點實驗室聯合研究團隊 —— 中國科學技術大學陳恩紅教授團隊與科大訊飛研究院 AI for Science 團隊，在人工智能領域頂級國際會議 ICLR 2026 發表最新研究成果，論文提出了多層級、細粒度的化學能力評測框架 ChemEval，并系統性揭示了大語言模型在化學領域的真實能力邊界。

該工作為 AI for Science 方向中「如何科學地評估大模型是否真正理解化學」這一核心問題，提供了完整、可復現且具有學術深度的答案。

論文地址：https://openreview.net/forum?id=JrqjSkEPrX

論文的主要作者為中國科學技術大學博士生黃育慶、張榮楊，所屬認知智能全國重點實驗室陳恩紅教授團隊，其他作者包括科大訊飛 AI 研究院執行院長王士進、副院長李鑫、研究員徐飛揚、梁華東等人。團隊在 AI4Chemistry 領域開展深入研究，具體包括化學推理大模型 post-training、化工大模型 DeepReasearch、化學大模型智能體、化學領域大模型評測等。

ChemEval —— 從化學研究者視角出發的評測體系

ChemEval 并非簡單堆疊題目，而是圍繞化學研究的認知過程，構建了一套四層遞進式評測結構：

基礎與進階化學知識問答：考察模型對核心化學概念、定量計算與理論知識的掌握；
化學文獻理解與信息抽取：評估模型從論文、表格和圖像中提取關鍵信息并進行歸納生成的能力；
分子層級理解：覆蓋分子命名、結構轉換、性質預測與描述等核心分子認知任務；
科學推理與化學推斷：包括逆合成分析、反應條件推薦、產物預測與機理分析等高階任務。

整個評測體系共包含 13 個能力維度、62 項具體任務，既涵蓋文本任務，也系統引入分子結構圖、光譜圖等多模態輸入，貼近真實化學研究流程。

更重要的是，ChemEval 的數據并非簡單復用已有公開數據，而是結合開源數據集與化學領域專家人工構建的數據，通過嚴格的三階段標注與審校流程，確保科學性與評測可靠性。

ChemEval 概覽圖與測試數據示例

通用大模型 vs. 化學專用模型，誰更「懂化學」？

基于 ChemEval，研究團隊對主流通用大語言模型與化學專用模型進行了系統評測，得到了一系列具有啟發性的結論：

通用大模型在化學文獻理解、指令遵循和部分推理任務中表現突出，但在涉及分子結構、反應機理等深度化學知識時明顯乏力；
化學專用模型在術語理解、分子性質等專業任務上具備優勢，但往往犧牲了通用語言理解能力，存在「災難性遺忘」和指令不穩定問題；
單純增加模型規模或引入「思考鏈」并不足以解決復雜化學任務，瓶頸并不在推理長度，而在領域知識建模與表示能力本身；
在多模態化學任務中，當前模型在簡單結構識別上尚可，但在綜合結構識別 + 機理推斷的任務中普遍存在顯著困難。

這些結果以系統性、量化方式揭示了當前大模型在化學研究中的真實能力邊界，也為后續模型設計與訓練方向提供了明確指引。

通用大模型與化學專用模型的評估結果

為 AI for Science 提供「標尺」，而不只是排行榜

不同于「刷榜型」評測工作，ChemEval 更強調診斷價值：

它能夠精確定位模型在化學研究流程中「卡在哪一層能力」；
揭示通用能力與領域能力之間的結構性矛盾；
為化學大模型的訓練策略、數據構建和工具增強提供可操作的參考依據。

研究團隊認為，真正推動 AI for Science 的關鍵，不是讓模型在單一任務上表現更好，而是讓模型在完整科學認知鏈條中更可靠、更可解釋。ChemEval 正是朝這一目標邁出的重要一步。

實驗室持續推進 AI × Chemistry 深度融合

該工作是認知智能全國重點實驗室與科大訊飛 AI for Science 團隊在科學智能與化學大模型評測方向的重要進展之一。近年來，團隊圍繞「模型是否真正理解科學」這一核心問題，持續在科學推理、多模態理解和領域評測體系建設方面開展系統研究。

未來，團隊將進一步探索化學大模型與專業仿真工具、實驗數據和多模態信息的深度融合，推動 AI 從「輔助理解」走向「參與發現」，為化學研究范式變革提供堅實的智能基礎。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.