![]()
誰敢信?
日本最難考的頂尖學(xué)府——東京大學(xué)和京都大學(xué),剛剛被AI實(shí)現(xiàn)了突破。
不僅是考上,成績(jī)還大幅領(lǐng)先。
在LifePrompt公司和日本老牌補(bǔ)習(xí)機(jī)構(gòu)“河合塾”搞的一場(chǎng)閉卷盲測(cè)中,OpenAI的最新大模型ChatGPT 5.2 Thinking,大幅領(lǐng)先人類頂尖考生。
但值得注意的是。
在翻看這份成績(jī)單時(shí),我們發(fā)現(xiàn)了一個(gè)AI得分率僅為25%的“顯著薄弱環(huán)節(jié)”。
這個(gè)大坑,或許恰好是當(dāng)代高考生和準(zhǔn)大學(xué)生們的“核心競(jìng)爭(zhēng)力所在”。
多考50分,數(shù)學(xué)拿滿分
先來看一眼這份成績(jī)單。
這可不是開卷考試。測(cè)試全程物理斷網(wǎng),AI只能憑自己的“腦力”(預(yù)訓(xùn)練權(quán)重)硬做。
結(jié)果呢?
在號(hào)稱日本地獄級(jí)難度的東大理科三類(醫(yī)學(xué)部)考試?yán)铮瑵M分550分,ChatGPT 5.2拿了503分。
作為參照,今年考上這個(gè)專業(yè)的人類最高分,僅僅是453分。
整整高了50分!
更值得注意的是,它的數(shù)學(xué)直接拿了滿分,英語得分率也穩(wěn)穩(wěn)踩在90%的基準(zhǔn)線上。
京都大學(xué)同樣取得了突破性成績(jī)。在醫(yī)學(xué)部考試中,AI獲得1176分,把人類狀元的1098分遠(yuǎn)遠(yuǎn)甩在身后。
要知道,AI進(jìn)化速度令人矚目。
回看2024年,老前輩GPT-4在這套卷子面前未能通過所有科目,連最低錄取線都沒夠到。
2025年,加了強(qiáng)化學(xué)習(xí)的o1模型終于首次達(dá)到錄取合格線。
結(jié)果才過了一年,ChatGPT 5.2以最高分通過考試。
得分率25%的短板
數(shù)學(xué)滿分,英語90%,理應(yīng)是無敵的存在了吧?
但是!
在這份優(yōu)異的成績(jī)單中,有一科的成績(jī)明顯不足——
世界史論述題,滿分60,它只拿了15分,得分率僅為25%。
![]()
為何一個(gè)擁有龐大知識(shí)儲(chǔ)備、數(shù)學(xué)能力極強(qiáng)的模型,會(huì)在文科論述題上表現(xiàn)明顯不佳?
閱卷的河合塾老師和技術(shù)社區(qū)的專家們給出了答案:因?yàn)檫@屆AI,嚴(yán)重缺乏結(jié)構(gòu)化組織能力(Structural organization)。
世界史論述題可不是背年份填空。
它需要你把歷史長(zhǎng)河里的碎片串起來,理出政治和經(jīng)濟(jì)的因果,寫出一篇邏輯嚴(yán)密、首尾呼應(yīng)的大文章。
一句話:需要人類的“宏大敘事”。
而這,恰恰是大模型目前的死穴。
當(dāng)讓它寫上千字長(zhǎng)文時(shí),它寫著寫著就偏離了主題。
開發(fā)者社區(qū)做過極端測(cè)試:如果讓現(xiàn)在的AI去維持一個(gè)超長(zhǎng)文本的“連貫思想主線”,往往在幾輪邏輯轉(zhuǎn)折后,它就開始出現(xiàn)結(jié)構(gòu)性斷裂(Structural collapse)。
更要命的是,在處理極度復(fù)雜的宏大卷宗時(shí),它還可能遭遇“長(zhǎng)期記憶坍縮”,上下文丟失,邏輯線瞬間重置。
也就是說,目前的大模型依然缺乏全局架構(gòu)能力。
它寫出來的東西,單看每一句辭藻都很華麗;但拼在一起,整體缺乏邏輯連貫性,完全沒有人類統(tǒng)領(lǐng)全局的“世界觀”。
準(zhǔn)大學(xué)生的“反擊指南”
看懂了這個(gè)25%的軟肋,高考生和準(zhǔn)大學(xué)生的破局方向也就清晰了。
日本人工智能學(xué)會(huì)會(huì)長(zhǎng)Satoshi Kurihara教授說得好:人類絕對(duì)不該在同一條賽道上與AI直接競(jìng)爭(zhēng)。
打個(gè)比方,你非要跟計(jì)算器比算數(shù)快,這顯然不是明智之舉。
在AI輕松超越人類頂尖理科考生的時(shí)代,準(zhǔn)大學(xué)生們的技能樹,必須得換個(gè)點(diǎn)法了:
第一,減少對(duì)“規(guī)則內(nèi)機(jī)械做題”的依賴。
不管你微積分算得多快,法條背得多熟練,你都拼不過幾美分調(diào)用一次的API接口。
靠瘋狂刷題、機(jī)械記憶去換取職場(chǎng)高薪的路線,正在急速貶值。果斷把你的時(shí)間精力,從純粹的“拼記憶、拼算力”里抽離出來。
第二,將重心轉(zhuǎn)向“宏觀架構(gòu)能力”的培養(yǎng)。
AI連世界史大題都統(tǒng)籌不好,說明它目前根本當(dāng)不了“總工程師”。
未來的高薪崗位,屬于那些懂行的“AI項(xiàng)目經(jīng)理”。
你需要重點(diǎn)培養(yǎng)的能力是:如何提出直擊本質(zhì)的犀利問題?如何把一個(gè)龐大模糊的任務(wù),精準(zhǔn)拆解成十幾個(gè)AI能聽懂的標(biāo)準(zhǔn)指令?最后,如何用人類的戰(zhàn)略眼光,把AI生成的一堆碎片,拼裝成一套能用的系統(tǒng)。
第三,去那些充滿復(fù)雜性和不確定性的現(xiàn)實(shí)場(chǎng)景中歷練。
AI喜歡干凈、透明、結(jié)構(gòu)化的數(shù)據(jù)。但在真實(shí)的社會(huì)里,到處是混沌、情緒和謊言。
在一場(chǎng)劍拔弩張的商務(wù)談判里,怎么察言觀色搞定客戶?
在公司不同派系的利益博弈中,怎么調(diào)解沖突?
面對(duì)一團(tuán)亂麻的市場(chǎng)反饋,誰來頂住壓力拍板擔(dān)責(zé)?
這些需要同理心、信任背書、道德抉擇的“高感觸(High-touch)”領(lǐng)域,是AI目前無法有效介入的領(lǐng)域。
時(shí)代真的變了。機(jī)器的履帶已經(jīng)越過了知識(shí)評(píng)估的及格線。
與其在AI擅長(zhǎng)的規(guī)則中過度內(nèi)卷,不如退一步,去填補(bǔ)那些技術(shù)無法替代的領(lǐng)域。(本文首發(fā)鈦媒體App,作者| AGI-Signal,編輯|林深)
聲明:
本文所涉數(shù)據(jù)及推演均嚴(yán)格基于客觀原始信息。包括LifePrompt對(duì)東京大學(xué)與京都大學(xué)的錄取分?jǐn)?shù)線對(duì)比盲測(cè)數(shù)據(jù)、大語言模型在長(zhǎng)文本結(jié)構(gòu)上的架構(gòu)缺陷剖析及相關(guān)人工智能專家訪談等。需警示的是,AI技術(shù)演進(jìn)屬于極速變動(dòng)的高壓領(lǐng)域,本文的客觀對(duì)比與能力推演不構(gòu)成任何教育、升學(xué)或財(cái)務(wù)投資建議。讀者在進(jìn)行個(gè)人能力規(guī)劃與發(fā)展決策時(shí),應(yīng)充分評(píng)估技術(shù)變遷帶來的深遠(yuǎn)影響。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.