網易首頁 > 網易號 > 正文申請入駐

AI理科碾壓人類狀元，卻被這道“文科題”戳中了死穴...

2026-05-04 08:31:07　來源: 鈦媒體APP

北京舉報

分享至

誰敢信？

日本最難考的頂尖學府——東京大學和京都大學，剛剛被AI實現了突破。

不僅是考上，成績還大幅領先。

在LifePrompt公司和日本老牌補習機構“河合塾”搞的一場閉卷盲測中，OpenAI的最新大模型ChatGPT 5.2 Thinking，大幅領先人類頂尖考生。

但值得注意的是。

在翻看這份成績單時，我們發現了一個AI得分率僅為25%的“顯著薄弱環節”。

這個大坑，或許恰好是當代高考生和準大學生們的“核心競爭力所在”。

多考50分，數學拿滿分

先來看一眼這份成績單。

這可不是開卷考試。測試全程物理斷網，AI只能憑自己的“腦力”（預訓練權重）硬做。

結果呢？

在號稱日本地獄級難度的東大理科三類（醫學部）考試里，滿分550分，ChatGPT 5.2拿了503分。

作為參照，今年考上這個專業的人類最高分，僅僅是453分。

整整高了50分！

更值得注意的是，它的數學直接拿了滿分，英語得分率也穩穩踩在90%的基準線上。

京都大學同樣取得了突破性成績。在醫學部考試中，AI獲得1176分，把人類狀元的1098分遠遠甩在身后。

要知道，AI進化速度令人矚目。

回看2024年，老前輩GPT-4在這套卷子面前未能通過所有科目，連最低錄取線都沒夠到。

2025年，加了強化學習的o1模型終于首次達到錄取合格線。

結果才過了一年，ChatGPT 5.2以最高分通過考試。

得分率25%的短板

數學滿分，英語90%，理應是無敵的存在了吧？

但是！

在這份優異的成績單中，有一科的成績明顯不足——

世界史論述題，滿分60，它只拿了15分，得分率僅為25%。

為何一個擁有龐大知識儲備、數學能力極強的模型，會在文科論述題上表現明顯不佳？

閱卷的河合塾老師和技術社區的專家們給出了答案：因為這屆AI，嚴重缺乏結構化組織能力（Structural organization）。

世界史論述題可不是背年份填空。

它需要你把歷史長河里的碎片串起來，理出政治和經濟的因果，寫出一篇邏輯嚴密、首尾呼應的大文章。

一句話：需要人類的“宏大敘事”。

而這，恰恰是大模型目前的死穴。

當讓它寫上千字長文時，它寫著寫著就偏離了主題。

開發者社區做過極端測試：如果讓現在的AI去維持一個超長文本的“連貫思想主線”，往往在幾輪邏輯轉折后，它就開始出現結構性斷裂（Structural collapse）。

更要命的是，在處理極度復雜的宏大卷宗時，它還可能遭遇“長期記憶坍縮”，上下文丟失，邏輯線瞬間重置。

也就是說，目前的大模型依然缺乏全局架構能力。

它寫出來的東西，單看每一句辭藻都很華麗；但拼在一起，整體缺乏邏輯連貫性，完全沒有人類統領全局的“世界觀”。

準大學生的“反擊指南”

看懂了這個25%的軟肋，高考生和準大學生的破局方向也就清晰了。

日本人工智能學會會長Satoshi Kurihara教授說得好：人類絕對不該在同一條賽道上與AI直接競爭。

打個比方，你非要跟計算器比算數快，這顯然不是明智之舉。

在AI輕松超越人類頂尖理科考生的時代，準大學生們的技能樹，必須得換個點法了：

第一，減少對“規則內機械做題”的依賴。

不管你微積分算得多快，法條背得多熟練，你都拼不過幾美分調用一次的API接口。

靠瘋狂刷題、機械記憶去換取職場高薪的路線，正在急速貶值。果斷把你的時間精力，從純粹的“拼記憶、拼算力”里抽離出來。

第二，將重心轉向“宏觀架構能力”的培養。

AI連世界史大題都統籌不好，說明它目前根本當不了“總工程師”。

未來的高薪崗位，屬于那些懂行的“AI項目經理”。

你需要重點培養的能力是：如何提出直擊本質的犀利問題？如何把一個龐大模糊的任務，精準拆解成十幾個AI能聽懂的標準指令？最后，如何用人類的戰略眼光，把AI生成的一堆碎片，拼裝成一套能用的系統。

第三，去那些充滿復雜性和不確定性的現實場景中歷練。

AI喜歡干凈、透明、結構化的數據。但在真實的社會里，到處是混沌、情緒和謊言。

在一場劍拔弩張的商務談判里，怎么察言觀色搞定客戶？

在公司不同派系的利益博弈中，怎么調解沖突？

面對一團亂麻的市場反饋，誰來頂住壓力拍板擔責？

這些需要同理心、信任背書、道德抉擇的“高感觸（High-touch）”領域，是AI目前無法有效介入的領域。

時代真的變了。機器的履帶已經越過了知識評估的及格線。

與其在AI擅長的規則中過度內卷，不如退一步，去填補那些技術無法替代的領域。（本文首發鈦媒體App，作者｜ AGI-Signal，編輯｜林深）

聲明：

本文所涉數據及推演均嚴格基于客觀原始信息。包括LifePrompt對東京大學與京都大學的錄取分數線對比盲測數據、大語言模型在長文本結構上的架構缺陷剖析及相關人工智能專家訪談等。需警示的是，AI技術演進屬于極速變動的高壓領域，本文的客觀對比與能力推演不構成任何教育、升學或財務投資建議。讀者在進行個人能力規劃與發展決策時，應充分評估技術變遷帶來的深遠影響。

聲明：包含AI生成內容

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.