網易首頁 > 網易號 > 正文申請入駐

大模型刷爆所有考試，卻離AGI更遠了：這篇論文拆穿了什么？

2026-05-28 08:33:08　來源: 鈦媒體APP

北京舉報

分享至

如果有人告訴你，AGI（通用人工智能）已經實現了，你怎么判斷他是在說真話，還是在吹牛？

在OpenAI與微軟曝光的秘密協議里，這把尺子是財務報表——開發出能產生至少1000億美元利潤的AI系統就算AGI。而在黃仁勛嘴里，這把尺子是時間——五年內必現；馬斯克更是屢次放出“明年達成”的預言。

行業大佬們各說各話，根源不在于誰在說謊，而在于AGI這個概念本身，根本就沒有一把公認的尺子。正如AGI研究領域中一位有獨立思考的研究者Bennett在論文中所說，AGI已被炒作和猜測還原成了“羅夏墨跡測試”——每個人看到的只是自己心里的想象，而非客觀事實；而圣塔菲研究所科學家Melanie Mitchell也認為，這場辯論只能通過長期的科學研究來厘清。（附論文地址：https://arxiv.org/pdf/2503.23923）

這是AI行業當下最荒誕的困境：我們正在全速狂奔，去追逐一個連終點線都沒畫清楚的目標。

2025，誰在重畫AGI的起跑線？

面對這種定義真空，學術界在2025年開始密集“補位”。Bengio等學者強調“多功能性”和“熟練度”；DeepMind提出“分布式AGI”，試圖打破單體全能的迷思。

但澳大利亞國立大學的研究員Michael Timothy Bennett，在3月底提交到arXiv的一篇論文中，給出了一個極具挑釁性卻也最切中肯綮的答案。

他指出，前人的定義繞來繞去，依然在跟“受過教育的成年人”較勁。Bennett采納了學者Pei Wang對智能的定義——將智能視為有限資源下的適應能力——從根本上跳出了“像人”的框架，并將AGI定義為一種“人工科學家”。

他提出，真正的AGI應當是一個能在計算、記憶和能量等現實約束下，像人類科學家一樣廣泛、高效且科學地適應新環境和任務的系統。

這句話的潛臺詞是：評判AGI的標準，不該是它模仿人類有多像，而是它“發現新知”的能力有多強。

為什么急需一把新尺子？因為舊尺子——圖靈測試和人類基準測試——已經被大模型刷爆了，但我們卻離真正的通用智能越來越遠。

2025年，如果你問一個頂尖大模型“9.11和9.9哪個大”，它依然可能信誓旦旦地告訴你9.11大，因為11大于9。在解決復雜的數學不等式證明時，大模型即便蒙對了答案，推理過程也往往是邏輯崩潰的。

Bennett一針見血地指出了病因：當前的大模型走的是“規模最大化的近似”路線——用海量數據和算力，把各種任務的近似答案提前存在網絡權重里。一旦遇到沒見過的分布外問題，就立刻露餡。

更致命的是，大模型沒有“主動能力”。它無法主動做實驗驗證猜想，無法自主構建因果鏈條，更無法在“繼續探索”與“利用已知”之間做權衡。

回到9.11和9.9的比較——大模型不是不會算術，而是它根本沒有建立關于數字比較的因果模型。它只是在用概率去猜那個它見過的、最接近的文本片段。

“模仿能力”與“適應能力”之間的鴻溝，正是新AGI標準想要測量的核心。

智能的新刻度：拆解“人工科學家”

Bennett的這套標準之所以值得重視，是因為他把AGI從一個模糊的哲學命題，降維成了可量化的工程問題。

在他看來，一個真正的AGI，其行為模式應該完美對齊人類科學家的研究范式：

第一，從“提線木偶”到“主動實驗者”。

今天的AI是徹頭徹尾的被動學習者，只能“看”人類喂給它的數據。但科學家不是，如果一個科學家被鎖在一個陌生房間里，他絕不會站在原地等信息，而是會去推門、拉把手、檢查窗戶——這就是“主動實驗”。真正的AGI，必須能自主規劃實驗，通過主動交互獲取關鍵信息。

第二，從“知其然”到“知其所以然”。

這是當前AI最大的短板。大模型是極端的“相關性學習器”，它知道“下雨”常伴隨“地濕”，但不知道是誰導致了誰。只有理解了因果，才懂得在晴空萬里但地面濕潤時，推斷出是灑水車經過而非即將下雨。沒有因果理解，AI永遠只能在訓練數據的分布內打轉，這與“通用”毫不相干。

第三，在“探索”與“利用”之間走鋼絲。

如果只探索不利用，掌握再多知識也解決不了眼前問題；如果只利用不探索，環境一變就束手無策。AGI必須在資源受限下動態平衡這對矛盾——知道自己不知道什么，并據此分配算力。

此外，Bennett還加入了一個極具現實感的維度：能量限制。把“能量”寫進定義，意味著他劃清了一條底線：真正的智能不是擁有無限資源，而是在有限資源下優雅地適應。需要消耗一座核電站才能解決新問題的AI，只是昂貴的計算器，不是AGI。

通向AGI的路線重置：告別單一Scaling Law

基于上述框架，Bennett把當前構建智能系統的元方法拆解為三類：

Scale-maxing（規模最大化）：當前主流的大模型路線，拼命堆參數、數據和算力。但瓶頸已經顯現：樣本和能量效率極低。

Simp-maxing（簡單性最大化）：追求模型結構的極致簡潔，信奉奧卡姆剃刀。但簡單性是形式的屬性而非功能的屬性——不同圖靈機下的“最簡”可能完全不同，使其難以擺脫主觀性陷阱。

W-maxing（約束弱化最大化）：盡可能弱化功能約束，讓系統自行尋找最優解。實驗表明，僅W-maxing就能在特定任務上實現110%-500%的泛化率提升，但它需要搜索無限的硬件形態空間，優化難度極高。

Bennett的結論極其清晰：盡管Scale-maxing目前占據絕對主導，但AGI絕不是靠單一路線的暴力美學能達成的，它必然是多種元方法的融合。

如果“人工科學家”的定義被廣泛接受，AI行業將迎來一次深層的范式轉移。

評判標準將徹底改變。我們不再需要看大模型在人類考試排行榜上又超了多少分，而是建立一套“適應性基準”：把AI扔進一個從未見過的物理環境，看它能否在有限交互內發現規律；給它一個新游戲，看它能否比人類更快理解規則；甚至讓它去解決真實的科學問題，看它能否自主提出假說并設計實驗驗證。核心不再是“你知道多少”，而是“你能發現多少”。

技術路線也將隨之轉向。單純的Scaling Law很快會觸頂，因為被動接收的數據喂不出因果性。搜索與近似、規模最大化與約束弱化——AGI的達成必然是多種工具和元方法的融合，而非單一路線的延伸。

Bennett的論文之所以重要，不是因為他給出了AGI的終極答案，而是他把這面名為“智能”的模糊鏡子擦干凈了一角。他讓我們看到，AGI的實現不是大模型的線性迭代，而是一次路線重置。

AGI到底該是什么樣？答案不在那些越來越像人的對話，而在那些能夠主動追問“為什么”、并親手去驗證答案的能力中。當AI真正走出“羅夏墨跡測試”的迷霧，它將不再只是模仿人類的樣子，而是擁有科學家的精神。(本文首發鈦媒體APP，作者 | 硅谷tech news，編輯 | 趙虹宇)

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.