網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

AI理科碾壓人類狀元，卻被這道“文科題”戳中了死穴...

2026-05-04 08:31:07　來源: 鈦媒體APP

北京舉報(bào)

分享至

誰敢信？

日本最難考的頂尖學(xué)府——東京大學(xué)和京都大學(xué)，剛剛被AI實(shí)現(xiàn)了突破。

不僅是考上，成績(jī)還大幅領(lǐng)先。

在LifePrompt公司和日本老牌補(bǔ)習(xí)機(jī)構(gòu)“河合塾”搞的一場(chǎng)閉卷盲測(cè)中，OpenAI的最新大模型ChatGPT 5.2 Thinking，大幅領(lǐng)先人類頂尖考生。

但值得注意的是。

在翻看這份成績(jī)單時(shí)，我們發(fā)現(xiàn)了一個(gè)AI得分率僅為25%的“顯著薄弱環(huán)節(jié)”。

這個(gè)大坑，或許恰好是當(dāng)代高考生和準(zhǔn)大學(xué)生們的“核心競(jìng)爭(zhēng)力所在”。

多考50分，數(shù)學(xué)拿滿分

先來看一眼這份成績(jī)單。

這可不是開卷考試。測(cè)試全程物理斷網(wǎng)，AI只能憑自己的“腦力”（預(yù)訓(xùn)練權(quán)重）硬做。

結(jié)果呢？

在號(hào)稱日本地獄級(jí)難度的東大理科三類（醫(yī)學(xué)部）考試?yán)铮瑵M分550分，ChatGPT 5.2拿了503分。

作為參照，今年考上這個(gè)專業(yè)的人類最高分，僅僅是453分。

整整高了50分！

更值得注意的是，它的數(shù)學(xué)直接拿了滿分，英語得分率也穩(wěn)穩(wěn)踩在90%的基準(zhǔn)線上。

京都大學(xué)同樣取得了突破性成績(jī)。在醫(yī)學(xué)部考試中，AI獲得1176分，把人類狀元的1098分遠(yuǎn)遠(yuǎn)甩在身后。

要知道，AI進(jìn)化速度令人矚目。

回看2024年，老前輩GPT-4在這套卷子面前未能通過所有科目，連最低錄取線都沒夠到。

2025年，加了強(qiáng)化學(xué)習(xí)的o1模型終于首次達(dá)到錄取合格線。

結(jié)果才過了一年，ChatGPT 5.2以最高分通過考試。

得分率25%的短板

數(shù)學(xué)滿分，英語90%，理應(yīng)是無敵的存在了吧？

但是！

在這份優(yōu)異的成績(jī)單中，有一科的成績(jī)明顯不足——

世界史論述題，滿分60，它只拿了15分，得分率僅為25%。

為何一個(gè)擁有龐大知識(shí)儲(chǔ)備、數(shù)學(xué)能力極強(qiáng)的模型，會(huì)在文科論述題上表現(xiàn)明顯不佳？

閱卷的河合塾老師和技術(shù)社區(qū)的專家們給出了答案：因?yàn)檫@屆AI，嚴(yán)重缺乏結(jié)構(gòu)化組織能力（Structural organization）。

世界史論述題可不是背年份填空。

它需要你把歷史長(zhǎng)河里的碎片串起來，理出政治和經(jīng)濟(jì)的因果，寫出一篇邏輯嚴(yán)密、首尾呼應(yīng)的大文章。

一句話：需要人類的“宏大敘事”。

而這，恰恰是大模型目前的死穴。

當(dāng)讓它寫上千字長(zhǎng)文時(shí)，它寫著寫著就偏離了主題。

開發(fā)者社區(qū)做過極端測(cè)試：如果讓現(xiàn)在的AI去維持一個(gè)超長(zhǎng)文本的“連貫思想主線”，往往在幾輪邏輯轉(zhuǎn)折后，它就開始出現(xiàn)結(jié)構(gòu)性斷裂（Structural collapse）。

更要命的是，在處理極度復(fù)雜的宏大卷宗時(shí)，它還可能遭遇“長(zhǎng)期記憶坍縮”，上下文丟失，邏輯線瞬間重置。

也就是說，目前的大模型依然缺乏全局架構(gòu)能力。

它寫出來的東西，單看每一句辭藻都很華麗；但拼在一起，整體缺乏邏輯連貫性，完全沒有人類統(tǒng)領(lǐng)全局的“世界觀”。

準(zhǔn)大學(xué)生的“反擊指南”

看懂了這個(gè)25%的軟肋，高考生和準(zhǔn)大學(xué)生的破局方向也就清晰了。

日本人工智能學(xué)會(huì)會(huì)長(zhǎng)Satoshi Kurihara教授說得好：人類絕對(duì)不該在同一條賽道上與AI直接競(jìng)爭(zhēng)。

打個(gè)比方，你非要跟計(jì)算器比算數(shù)快，這顯然不是明智之舉。

在AI輕松超越人類頂尖理科考生的時(shí)代，準(zhǔn)大學(xué)生們的技能樹，必須得換個(gè)點(diǎn)法了：

第一，減少對(duì)“規(guī)則內(nèi)機(jī)械做題”的依賴。

不管你微積分算得多快，法條背得多熟練，你都拼不過幾美分調(diào)用一次的API接口。

靠瘋狂刷題、機(jī)械記憶去換取職場(chǎng)高薪的路線，正在急速貶值。果斷把你的時(shí)間精力，從純粹的“拼記憶、拼算力”里抽離出來。

第二，將重心轉(zhuǎn)向“宏觀架構(gòu)能力”的培養(yǎng)。

AI連世界史大題都統(tǒng)籌不好，說明它目前根本當(dāng)不了“總工程師”。

未來的高薪崗位，屬于那些懂行的“AI項(xiàng)目經(jīng)理”。

你需要重點(diǎn)培養(yǎng)的能力是：如何提出直擊本質(zhì)的犀利問題？如何把一個(gè)龐大模糊的任務(wù)，精準(zhǔn)拆解成十幾個(gè)AI能聽懂的標(biāo)準(zhǔn)指令？最后，如何用人類的戰(zhàn)略眼光，把AI生成的一堆碎片，拼裝成一套能用的系統(tǒng)。

第三，去那些充滿復(fù)雜性和不確定性的現(xiàn)實(shí)場(chǎng)景中歷練。

AI喜歡干凈、透明、結(jié)構(gòu)化的數(shù)據(jù)。但在真實(shí)的社會(huì)里，到處是混沌、情緒和謊言。

在一場(chǎng)劍拔弩張的商務(wù)談判里，怎么察言觀色搞定客戶？

在公司不同派系的利益博弈中，怎么調(diào)解沖突？

面對(duì)一團(tuán)亂麻的市場(chǎng)反饋，誰來頂住壓力拍板擔(dān)責(zé)？

這些需要同理心、信任背書、道德抉擇的“高感觸（High-touch）”領(lǐng)域，是AI目前無法有效介入的領(lǐng)域。

時(shí)代真的變了。機(jī)器的履帶已經(jīng)越過了知識(shí)評(píng)估的及格線。

與其在AI擅長(zhǎng)的規(guī)則中過度內(nèi)卷，不如退一步，去填補(bǔ)那些技術(shù)無法替代的領(lǐng)域。（本文首發(fā)鈦媒體App，作者｜ AGI-Signal，編輯｜林深）

聲明：

本文所涉數(shù)據(jù)及推演均嚴(yán)格基于客觀原始信息。包括LifePrompt對(duì)東京大學(xué)與京都大學(xué)的錄取分?jǐn)?shù)線對(duì)比盲測(cè)數(shù)據(jù)、大語言模型在長(zhǎng)文本結(jié)構(gòu)上的架構(gòu)缺陷剖析及相關(guān)人工智能專家訪談等。需警示的是，AI技術(shù)演進(jìn)屬于極速變動(dòng)的高壓領(lǐng)域，本文的客觀對(duì)比與能力推演不構(gòu)成任何教育、升學(xué)或財(cái)務(wù)投資建議。讀者在進(jìn)行個(gè)人能力規(guī)劃與發(fā)展決策時(shí)，應(yīng)充分評(píng)估技術(shù)變遷帶來的深遠(yuǎn)影響。

聲明：包含AI生成內(nèi)容

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.