<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      中科大、科大訊飛開發ChemEval:化學大模型多維度能力評估新基準

      0
      分享至



      作者丨論文團隊

      編輯丨ScienceAI

      近年來,大語言模型在文本理解、知識問答和通用推理任務中展現出驚人的能力,也逐漸被引入到化學文獻分析、反應預測和分子設計等科學場景中。然而,一個關鍵問題長期被忽視:

      模型「看起來會化學」,是否真的具備化學研究所需的能力?

      現有主流評測基準(如 MMLU、SciEval 等)大多以通用學科或淺層科學問答為主,難以刻畫化學研究中高度專業、層次分明且跨模態的能力需求。即便是已有的化學評測工作,也往往局限于少量任務或單一能力維度,難以反映模型在真實科研場景中的綜合表現。

      針對這一核心缺口,認知智能全國重點實驗室聯合研究團隊 —— 中國科學技術大學陳恩紅教授團隊與科大訊飛研究院 AI for Science 團隊,在人工智能領域頂級國際會議 ICLR 2026 發表最新研究成果,論文提出了多層級、細粒度的化學能力評測框架 ChemEval,并系統性揭示了大語言模型在化學領域的真實能力邊界。

      該工作為 AI for Science 方向中「如何科學地評估大模型是否真正理解化學」這一核心問題,提供了完整、可復現且具有學術深度的答案。



      論文地址:https://openreview.net/forum?id=JrqjSkEPrX

      論文的主要作者為中國科學技術大學博士生黃育慶、張榮楊,所屬認知智能全國重點實驗室陳恩紅教授團隊,其他作者包括科大訊飛 AI 研究院執行院長王士進、副院長李鑫、研究員徐飛揚、梁華東等人。團隊在 AI4Chemistry 領域開展深入研究,具體包括化學推理大模型 post-training、化工大模型 DeepReasearch、化學大模型智能體、化學領域大模型評測等。

      ChemEval —— 從化學研究者視角出發的評測體系

      ChemEval 并非簡單堆疊題目,而是圍繞化學研究的認知過程,構建了一套四層遞進式評測結構:

      • 基礎與進階化學知識問答:考察模型對核心化學概念、定量計算與理論知識的掌握;
      • 化學文獻理解與信息抽取:評估模型從論文、表格和圖像中提取關鍵信息并進行歸納生成的能力;
      • 分子層級理解:覆蓋分子命名、結構轉換、性質預測與描述等核心分子認知任務;
      • 科學推理與化學推斷:包括逆合成分析、反應條件推薦、產物預測與機理分析等高階任務。

      整個評測體系共包含 13 個能力維度、62 項具體任務,既涵蓋文本任務,也系統引入分子結構圖、光譜圖等多模態輸入,貼近真實化學研究流程。

      更重要的是,ChemEval 的數據并非簡單復用已有公開數據,而是結合開源數據集與化學領域專家人工構建的數據,通過嚴格的三階段標注與審校流程,確保科學性與評測可靠性。



      ChemEval 概覽圖與測試數據示例

      通用大模型 vs. 化學專用模型,誰更「懂化學」?

      基于 ChemEval,研究團隊對主流通用大語言模型與化學專用模型進行了系統評測,得到了一系列具有啟發性的結論:

      • 通用大模型在化學文獻理解、指令遵循和部分推理任務中表現突出,但在涉及分子結構、反應機理等深度化學知識時明顯乏力;
      • 化學專用模型在術語理解、分子性質等專業任務上具備優勢,但往往犧牲了通用語言理解能力,存在「災難性遺忘」和指令不穩定問題;
      • 單純增加模型規模或引入「思考鏈」并不足以解決復雜化學任務,瓶頸并不在推理長度,而在領域知識建模與表示能力本身;
      • 在多模態化學任務中,當前模型在簡單結構識別上尚可,但在綜合結構識別 + 機理推斷的任務中普遍存在顯著困難。

      這些結果以系統性、量化方式揭示了當前大模型在化學研究中的真實能力邊界,也為后續模型設計與訓練方向提供了明確指引。



      通用大模型與化學專用模型的評估結果

      為 AI for Science 提供「標尺」,而不只是排行榜

      不同于「刷榜型」評測工作,ChemEval 更強調診斷價值:

      • 它能夠精確定位模型在化學研究流程中「卡在哪一層能力」;
      • 揭示通用能力與領域能力之間的結構性矛盾;
      • 為化學大模型的訓練策略、數據構建和工具增強提供可操作的參考依據。

      研究團隊認為,真正推動 AI for Science 的關鍵,不是讓模型在單一任務上表現更好,而是讓模型在完整科學認知鏈條中更可靠、更可解釋。ChemEval 正是朝這一目標邁出的重要一步。

      實驗室持續推進 AI × Chemistry 深度融合

      該工作是認知智能全國重點實驗室與科大訊飛 AI for Science 團隊在科學智能與化學大模型評測方向的重要進展之一。近年來,團隊圍繞「模型是否真正理解科學」這一核心問題,持續在科學推理、多模態理解和領域評測體系建設方面開展系統研究。

      未來,團隊將進一步探索化學大模型與專業仿真工具、實驗數據和多模態信息的深度融合,推動 AI 從「輔助理解」走向「參與發現」,為化學研究范式變革提供堅實的智能基礎。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      鎂是保護心臟、防癡呆的必需元素!提醒:常吃4類食物就能補!

      鎂是保護心臟、防癡呆的必需元素!提醒:常吃4類食物就能補!

      39健康網
      2026-05-20 09:30:56
      惋惜!12位名將無緣德國世界杯名單 4大紅星落選引爭議 3悍將傷缺

      惋惜!12位名將無緣德國世界杯名單 4大紅星落選引爭議 3悍將傷缺

      我愛英超
      2026-05-21 20:04:06
      爭議!國際足聯重大錯誤:U17世界杯抽簽分檔公布 竟然漏掉中國隊

      爭議!國際足聯重大錯誤:U17世界杯抽簽分檔公布 竟然漏掉中國隊

      念洲
      2026-05-21 08:02:07
      維拉歐聯奪冠 騰出的歐冠席位將歸屬3隊 末輪輸球或助英超6隊參賽

      維拉歐聯奪冠 騰出的歐冠席位將歸屬3隊 末輪輸球或助英超6隊參賽

      我愛英超
      2026-05-21 06:41:08
      “大傻”去世15年后,兒子入獄孫子身亡,王晶爆料往事:絕對狠人

      “大傻”去世15年后,兒子入獄孫子身亡,王晶爆料往事:絕對狠人

      林輕吟
      2026-05-21 14:25:53
      人民大會堂女服務萬里挑一!她們是啥編制?選拔標準有多嚴?

      人民大會堂女服務萬里挑一!她們是啥編制?選拔標準有多嚴?

      復轉這些年
      2026-05-20 19:44:43
      A股:大家做好準備!明天(5月22日)的市場會這樣走

      A股:大家做好準備!明天(5月22日)的市場會這樣走

      風風順
      2026-05-22 00:30:05
      訂婚宴上被岳母潑紅酒,我一言不發離席,十五分鐘后她們全家慌了

      訂婚宴上被岳母潑紅酒,我一言不發離席,十五分鐘后她們全家慌了

      千秋文化
      2026-05-20 20:25:36
      快訊!普京訪華,這個漂亮女人非常顯眼!

      快訊!普京訪華,這個漂亮女人非常顯眼!

      達文西看世界
      2026-05-21 10:54:05
      OpenAI徹底震撼數學界,80年核心猜想被破解!菲爾茲獎得主驚呼坐不穩

      OpenAI徹底震撼數學界,80年核心猜想被破解!菲爾茲獎得主驚呼坐不穩

      新智元
      2026-05-21 12:49:57
      醫生發現:只需改變下早餐,不僅膽固醇下降了,各個指標都穩定了

      醫生發現:只需改變下早餐,不僅膽固醇下降了,各個指標都穩定了

      讀懂世界歷史
      2026-05-21 22:28:50
      震驚!夜班護士搶救病人,家屬嫌“按得慢”直接扇耳光!醫生:不要忍,一定要報警

      震驚!夜班護士搶救病人,家屬嫌“按得慢”直接扇耳光!醫生:不要忍,一定要報警

      梅斯醫學
      2026-05-21 16:30:41
      1651年,多爾袞被順治帝掘墓鞭尸,對他的女兒,順治更是痛下殺手

      1651年,多爾袞被順治帝掘墓鞭尸,對他的女兒,順治更是痛下殺手

      飯小妹說歷史
      2026-05-21 09:50:13
      中國人最尊敬的清華校長攜巨款逃去美國,如今驚人秘密浮出水面

      中國人最尊敬的清華校長攜巨款逃去美國,如今驚人秘密浮出水面

      華人星光
      2026-05-19 11:05:48
      潮水退去,裸泳的一定不止五糧液

      潮水退去,裸泳的一定不止五糧液

      36氪財經
      2026-05-21 19:12:28
      NOAA預警:厄爾尼諾七月回歸,美國東西海岸將遭"雙重打擊"

      NOAA預警:厄爾尼諾七月回歸,美國東西海岸將遭"雙重打擊"

      算力游俠
      2026-05-21 01:42:34
      向佑獨自慶祝39歲生日,感恩媽媽,向華強夫婦已經排除他的繼承權

      向佑獨自慶祝39歲生日,感恩媽媽,向華強夫婦已經排除他的繼承權

      小椰的奶奶
      2026-05-22 02:39:12
      約會時女人說去廁所,其實是在給你兩個暗示,聽懂的都不是凡人

      約會時女人說去廁所,其實是在給你兩個暗示,聽懂的都不是凡人

      心理觀察局
      2026-05-18 09:11:14
      寶馬宣布:方媛出任寶馬中國企業事務副總裁

      寶馬宣布:方媛出任寶馬中國企業事務副總裁

      澎湃新聞
      2026-05-22 00:01:45
      新歡不保楊子家族被曝丑聞,和黃圣依離婚真實目的藏不住了!

      新歡不保楊子家族被曝丑聞,和黃圣依離婚真實目的藏不住了!

      漫婷侃娛樂
      2026-05-20 22:48:12
      2026-05-22 03:47:00
      ScienceAI incentive-icons
      ScienceAI
      關注人工智能與其他前沿技術
      1307文章數 227關注度
      往期回顧 全部

      科技要聞

      小米YU7 GT正式發布:售價38.99萬元

      頭條要聞

      女子高空跳傘遇難 原計劃今年訂婚

      頭條要聞

      女子高空跳傘遇難 原計劃今年訂婚

      體育要聞

      常住人口7000的小鎮,擁有了一支德甲球隊

      娛樂要聞

      反轉!金秀賢與金賽綸未成年時交往不實

      財經要聞

      潮水退去,裸泳的一定不止五糧液

      汽車要聞

      雷軍:YU7首戰Model Y八敗兩勝 輸給全球銷冠不丟人

      態度原創

      數碼
      本地
      時尚
      手機
      公開課

      數碼要聞

      精準操控不誤觸!一加Ace 6至尊版讓點擊精準如物理外掛

      本地新聞

      用云錦的方式,打開江蘇南京

      今年夏天最流行的4組搭配,誰穿誰好看!

      手機要聞

      AYANEO Pocket AIR Mini安卓掌機Arcade Home聯名款發布,739元起

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 成色7777精品在线| 亚洲男人第一无码av网站| 久久发布国产伦子伦精品| 蜜臀久久精精品久久久久久噜噜| 久久精品免视看国产盗摄| 门头沟区| 丁香五月婷激情综合第九色| 亚洲区一区二| 亚洲欧美日韩国产美色| 日本成人精品视频一区| 成人亚洲一区无码久久| 亚洲精品乱码久久久久| 欧美寡妇xxxx黑人猛交| 国产新疆成人a一片在线观看 | 国产av一区二区三区区别| 久久久婷婷亚洲5月97色| 99久久精品免费看国产免费软件 | 91青青草视频在线观看的| 亚洲国产成人综合精品2020| 亚洲日本激情| 欧洲freexxxx性| 亚洲人成网站18禁动漫无码| 国产麻豆福利av在线播放| 中文字幕一区二| 日本丰满的人妻hd高清在线| 九九国产视频| 成人午夜精品无码区久久| 国产熟女AAV久久| 亚洲色婷婷婷婷五月基地| 国产精品十八禁在线观看| 国产乱妇无乱码大黄aa片| 亚洲大尺度在线观看| 菠萝菠萝蜜午夜视频在线播放观看| 日韩精品一区二区都可以| 内射网站| 亚洲第一色视频| 亚洲人成人伊人成综合网无码| 精品久久久久无码| 欧美极p品少妇的xxxxx| 开心五月激情综合婷婷| 成人免费观看视频福利|