<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      Google與康奈爾用1726篇論文測試大模型理解科學的極限

      0
      分享至



      編輯丨&

      在過去幾年里,大語言模型已經在寫作、編程和知識問答上展示出驚人的能力。它們可以總結論文、解釋概念,甚至提出科研假設。

      但一個關鍵問題始終存在:

      當面對真正的科學研究問題時,這些模型是否真的「理解」科學?

      為了回答這個問題,Google Research 與康奈爾大學的一組物理學家設計了一場不同尋常的實驗: 不是用考試題,也不是用標準 AI benchmark,而是直接把真實的科學研究問題交給大語言模型。

      他們選擇的測試領域是高溫超導。這個研究方向擁有幾十年的理論爭論、復雜的實驗結果以及大量彼此矛盾的解釋,被認為是凝聚態物理中最難理解的問題之一。如果一個 AI 模型真的能夠理解科學文獻,那么它應該能在這樣的領域中給出接近專家水平的回答。

      于是,一場前所未有的測試開始了。

      這些研究內容以「Expert evaluation of LLM world models: A high-T(c) superconductivity case study」為題,于 2026 年 3 月 10 日發布在《Proceedings of the National Academy of Sciences》。



      論文鏈接:https://www.pnas.org/doi/10.1073/pnas.2533676123

      專家級科學考試

      高溫超導是自 1987 年諾貝爾獎發現以來的一個開放研究領域。本次研究案例中的銅酸鹽便是已知的相關材料之一。它可在遠高于傳統超導材料的溫度下導電零電阻的電子(即使最高溫度閾值仍為 -140℃),理解這種行為背后的機制,可能有助于發現更多具有類似性質的化合物,甚至可能在更高溫度下,并為更多應用鋪平道路。

      研究團隊邀請了共計六個大型語言模型,包括四個完全訪問網絡的模型與兩個封閉系統。他們首先構建了一套高度專業化的知識基礎,整理了1,726 篇關于銅氧化物高溫超導體(cuprates)的研究論文,覆蓋這一領域幾十年的實驗和理論成果,并在此基礎上設計了一組67 個專家級研究問題



      圖示:封閉系統的創建。

      這些問題將在六個指標上對模型進行評判:

      • 平衡視角:是否考慮了不同的科學觀點。
      • 全面性:事實深度且不遺漏相關實驗。
      • :提供簡明明快的答案。
      • 證據:有證據支持,并附有來源鏈接。
      • 視覺相關性:任何提供圖像的質量(適用于持續包含圖像的兩個大型語言模型)。
      • 定性反饋:開放式專家評論。



      圖示:文獻數據庫的組成。

      AI 能讀懂論文,但不一定理解科學

      實驗結果呈現出一個耐人尋味的圖景。

      在某些問題上,大語言模型確實表現出令人印象深刻的能力。它們能夠快速總結多篇論文的結果,提取關鍵實驗結論,并組織出結構清晰的回答。尤其是在使用檢索增強系統(RAG)的情況下,一些模型的表現甚至超過了傳統閉源模型,在多個指標上取得更高評分。



      圖示:六名大型語言模型在回答專家提出的問題時的平均得分。

      不過,盡管 RAG 系統表現更優,但專家們在評估中指出了所有模型的共同且嚴重的局限性,揭示了它們與「真正理解」的差距:模型常能找到包含相同關鍵詞的論文,卻無法建立概念上的聯系;模型會不加區分地引用早期和近期的文獻,無法識別出某些早期結論已被后續研究修正。

      最后,所有模型都有一個顯著的短板:雖然自定義 RAG 系統能返回相關圖片,但它無法像人類專家那樣,從圖像的坐標軸、刻度、標尺、圖注和曲線趨勢中定量地提取信息并進行推理

      通向可信 AI 科學助手的漫漫長路

      盡管當前模型仍存在局限,這項研究并不意味著 AI 在科學研究中沒有價值。

      事實上,AI 可以協助瀏覽大量文獻,總結實驗結果。在材料科學等領域,一些研究已經開始利用 LLM 從論文中自動提取實驗數據,并構建新的材料數據庫。這些工作表明,AI 可能成為科學發現流程中的一種新工具,但真正的科學推理仍然需要人類專家的參與。

      https://research.google/blog/testing-llms-on-superconductivity-research-questions/

      聲明:包含AI生成內容

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      炸鍋!特斯拉監督版 FSD 正式入華!7 年等待終落地,帶你了解監督版

      炸鍋!特斯拉監督版 FSD 正式入華!7 年等待終落地,帶你了解監督版

      數碼八叔
      2026-05-21 18:31:08
      逃兵塔帥拒看槍手加冕,聽長子喜泣“阿森納是冠軍”

      逃兵塔帥拒看槍手加冕,聽長子喜泣“阿森納是冠軍”

      體壇周報
      2026-05-21 22:41:12
      翁虹女兒顏值炸裂!憑成人禮火上熱搜,力壓小酒窩被封最美星二代

      翁虹女兒顏值炸裂!憑成人禮火上熱搜,力壓小酒窩被封最美星二代

      八卦王者
      2026-05-19 15:10:05
      潔麗雅風波再度升級!石家報警曬結婚證!DNA報告曝出更大雷

      潔麗雅風波再度升級!石家報警曬結婚證!DNA報告曝出更大雷

      嘴角上翹的弧度
      2026-05-21 11:50:57
      中國最"可惜"的城市,曾是四大經濟特區之首,如今淪為三線小城

      中國最"可惜"的城市,曾是四大經濟特區之首,如今淪為三線小城

      老謝談史
      2026-05-21 10:25:26
      夯爆了!46+32+30!中國男籃真該歸化人家

      夯爆了!46+32+30!中國男籃真該歸化人家

      籃球實戰寶典
      2026-05-21 22:54:37
      女子收22萬彩禮拉黑男方!領完結婚證扔垃圾桶,被傳喚還裝瘋賣傻

      女子收22萬彩禮拉黑男方!領完結婚證扔垃圾桶,被傳喚還裝瘋賣傻

      小鋭有話說
      2026-05-21 23:05:06
      沙特41%石油用人民幣結,轉頭找中國換一樣東西,美國擔心的來了

      沙特41%石油用人民幣結,轉頭找中國換一樣東西,美國擔心的來了

      史行途
      2026-05-21 07:36:39
      聯想集團股價升至歷史新高

      聯想集團股價升至歷史新高

      每日經濟新聞
      2026-05-21 10:17:12
      天津農學院原黨委書記王延文病逝,年僅62歲

      天津農學院原黨委書記王延文病逝,年僅62歲

      澎湃新聞
      2026-05-21 16:58:27
      《主角》直到發現胡三元遺言,憶秦娥方知,封瀟瀟對她的隱瞞

      《主角》直到發現胡三元遺言,憶秦娥方知,封瀟瀟對她的隱瞞

      娛樂傾城巷
      2026-05-21 19:04:02
      馬斯克,也沒擋住這股潮流

      馬斯克,也沒擋住這股潮流

      補壹刀
      2026-05-20 21:12:55
      與秦昊結婚時,伊能靜已經46歲了。醫生告訴她,自然懷孕幾乎為零

      與秦昊結婚時,伊能靜已經46歲了。醫生告訴她,自然懷孕幾乎為零

      歲月有情1314
      2026-05-21 08:52:05
      深圳91-80廣廈!球員評分:3人滿分,2人良好,2人不合格

      深圳91-80廣廈!球員評分:3人滿分,2人良好,2人不合格

      多特體育說
      2026-05-21 23:03:49
      賽季初幾乎崩潰 賽季末捧杯 埃梅里如何挽救了阿斯頓維拉

      賽季初幾乎崩潰 賽季末捧杯 埃梅里如何挽救了阿斯頓維拉

      敖銘
      2026-05-21 11:28:33
      NBA選秀行情突變!布澤爾行情持續走高?爵士有望用榜眼簽摘下

      NBA選秀行情突變!布澤爾行情持續走高?爵士有望用榜眼簽摘下

      夜白侃球
      2026-05-21 22:49:43
      雪上加霜!廣廈爆冷落敗,比輸球更可怕的是又傷了兩人,王博苦笑

      雪上加霜!廣廈爆冷落敗,比輸球更可怕的是又傷了兩人,王博苦笑

      萌蘭聊個球
      2026-05-21 22:01:37
      成都指標到校惹眾怒!家長投訴:初中畢業就被“區別對待”!

      成都指標到校惹眾怒!家長投訴:初中畢業就被“區別對待”!

      優墨出品
      2026-05-21 13:18:35
      吃里扒外、被丈夫三刀索命的女星白靜,她的故事遠比你想得更荒唐

      吃里扒外、被丈夫三刀索命的女星白靜,她的故事遠比你想得更荒唐

      飄飄然的娛樂匯
      2026-05-20 15:45:07
      墓碑上的“故、顯、先、考、妣”,指的是什么?看完長知識了??

      墓碑上的“故、顯、先、考、妣”,指的是什么?看完長知識了??

      歷史人文2
      2026-05-16 12:00:03
      2026-05-21 23:48:49
      ScienceAI incentive-icons
      ScienceAI
      關注人工智能與其他前沿技術
      1307文章數 227關注度
      往期回顧 全部

      科技要聞

      小米YU7 GT正式發布:售價38.99萬元

      頭條要聞

      叔侄倆將溺亡男子送回家離開 3天后男子被發現已腐爛

      頭條要聞

      叔侄倆將溺亡男子送回家離開 3天后男子被發現已腐爛

      體育要聞

      常住人口7000的小鎮,擁有了一支德甲球隊

      娛樂要聞

      反轉!金秀賢與金賽綸未成年時交往不實

      財經要聞

      潮水退去,裸泳的一定不止五糧液

      汽車要聞

      后驅+閃充+激光雷達 第三代元PLUS上市售11.99萬元起

      態度原創

      健康
      教育
      房產
      時尚
      旅游

      外泌體與干細胞竟是“快遞”與“工廠”的關系?

      教育要聞

      一個方法讓孩子擁有解決問題能力

      房產要聞

      順德澐璟樓王『澐冠』啟幕|一場高階共鳴的靜奢美學之約

      今年夏天最流行的4組搭配,誰穿誰好看!

      旅游要聞

      無主墓碑怎可當登山臺階 對逝者的敬畏,禁不起這么踩 | 封面評論

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产激情无码一区二区三区| 国产资源精品一区二区免费| 日日噜噜夜夜狠狠视频| 无码制服丝袜人妻在线视频精品| av无码一区二区二三区1区6区| 国内精品久久久久久久影视| 亚洲日本中文字幕天天更新| 日韩av电影在线观看| 人妻蜜臀久久av不卡| 女人高潮被爽到呻吟在线观看| 久久精品国产欧美日韩| 免费国产高清精品一区在线| 波多野结衣av在线无码中文观看| 伊人丁香欧美成A片| 337p日本欧洲亚洲大胆裸体艺术| 亚洲人交乣女bbw| 国产综合久久久久鬼色| 日韩亚洲AV最新在线观看| 国内精品久久人妻无码妲 | 亚洲人亚洲成综合网站_亚洲| 尤物国产在线精品一区| 深夜免费福利视频| 久久偷偷做嫩草影院免费看| 景洪市| 国模肉肉视频一区二区三区 | 看亚洲黄色不在线网占| 亚洲欧美国产另类视频| 日韩一区二区三区av| 少妇粉嫩小泬喷水视频www| 欧美日韩在线第一页| 无码视频伊人| 久久久久久久女人| 一区二区三区精品偷拍| 人人澡人人妻人人爽人人蜜桃 | 熟妇人妻系列| 黄频短视频免费| 成在线人av免费无码高潮喷水| 夜夜揉揉日日人人| 成人欧美一区二区三区在线| 福利导航在线| 国产精品一区二区资源|