![]()
如果有人告訴你,AGI(通用人工智能)已經實現了,你怎么判斷他是在說真話,還是在吹牛?
在OpenAI與微軟曝光的秘密協議里,這把尺子是財務報表——開發出能產生至少1000億美元利潤的AI系統就算AGI。而在黃仁勛嘴里,這把尺子是時間——五年內必現;馬斯克更是屢次放出“明年達成”的預言。
行業大佬們各說各話,根源不在于誰在說謊,而在于AGI這個概念本身,根本就沒有一把公認的尺子。正如AGI研究領域中一位有獨立思考的研究者Bennett在論文中所說,AGI已被炒作和猜測還原成了“羅夏墨跡測試”——每個人看到的只是自己心里的想象,而非客觀事實;而圣塔菲研究所科學家Melanie Mitchell也認為,這場辯論只能通過長期的科學研究來厘清。(附論文地址:https://arxiv.org/pdf/2503.23923)
這是AI行業當下最荒誕的困境:我們正在全速狂奔,去追逐一個連終點線都沒畫清楚的目標。
2025,誰在重畫AGI的起跑線?
面對這種定義真空,學術界在2025年開始密集“補位”。Bengio等學者強調“多功能性”和“熟練度”;DeepMind提出“分布式AGI”,試圖打破單體全能的迷思。
但澳大利亞國立大學的研究員Michael Timothy Bennett,在3月底提交到arXiv的一篇論文中,給出了一個極具挑釁性卻也最切中肯綮的答案。
他指出,前人的定義繞來繞去,依然在跟“受過教育的成年人”較勁。Bennett采納了學者Pei Wang對智能的定義——將智能視為有限資源下的適應能力——從根本上跳出了“像人”的框架,并將AGI定義為一種“人工科學家”。
他提出,真正的AGI應當是一個能在計算、記憶和能量等現實約束下,像人類科學家一樣廣泛、高效且科學地適應新環境和任務的系統。
這句話的潛臺詞是:評判AGI的標準,不該是它模仿人類有多像,而是它“發現新知”的能力有多強。
為什么急需一把新尺子?因為舊尺子——圖靈測試和人類基準測試——已經被大模型刷爆了,但我們卻離真正的通用智能越來越遠。
2025年,如果你問一個頂尖大模型“9.11和9.9哪個大”,它依然可能信誓旦旦地告訴你9.11大,因為11大于9。在解決復雜的數學不等式證明時,大模型即便蒙對了答案,推理過程也往往是邏輯崩潰的。
Bennett一針見血地指出了病因:當前的大模型走的是“規模最大化的近似”路線——用海量數據和算力,把各種任務的近似答案提前存在網絡權重里。一旦遇到沒見過的分布外問題,就立刻露餡。
更致命的是,大模型沒有“主動能力”。它無法主動做實驗驗證猜想,無法自主構建因果鏈條,更無法在“繼續探索”與“利用已知”之間做權衡。
回到9.11和9.9的比較——大模型不是不會算術,而是它根本沒有建立關于數字比較的因果模型。它只是在用概率去猜那個它見過的、最接近的文本片段。
“模仿能力”與“適應能力”之間的鴻溝,正是新AGI標準想要測量的核心。
智能的新刻度:拆解“人工科學家”
Bennett的這套標準之所以值得重視,是因為他把AGI從一個模糊的哲學命題,降維成了可量化的工程問題。
在他看來,一個真正的AGI,其行為模式應該完美對齊人類科學家的研究范式:
第一,從“提線木偶”到“主動實驗者”。
今天的AI是徹頭徹尾的被動學習者,只能“看”人類喂給它的數據。但科學家不是,如果一個科學家被鎖在一個陌生房間里,他絕不會站在原地等信息,而是會去推門、拉把手、檢查窗戶——這就是“主動實驗”。真正的AGI,必須能自主規劃實驗,通過主動交互獲取關鍵信息。
第二,從“知其然”到“知其所以然”。
這是當前AI最大的短板。大模型是極端的“相關性學習器”,它知道“下雨”常伴隨“地濕”,但不知道是誰導致了誰。只有理解了因果,才懂得在晴空萬里但地面濕潤時,推斷出是灑水車經過而非即將下雨。沒有因果理解,AI永遠只能在訓練數據的分布內打轉,這與“通用”毫不相干。
第三,在“探索”與“利用”之間走鋼絲。
如果只探索不利用,掌握再多知識也解決不了眼前問題;如果只利用不探索,環境一變就束手無策。AGI必須在資源受限下動態平衡這對矛盾——知道自己不知道什么,并據此分配算力。
此外,Bennett還加入了一個極具現實感的維度:能量限制。把“能量”寫進定義,意味著他劃清了一條底線:真正的智能不是擁有無限資源,而是在有限資源下優雅地適應。需要消耗一座核電站才能解決新問題的AI,只是昂貴的計算器,不是AGI。
通向AGI的路線重置:告別單一Scaling Law
基于上述框架,Bennett把當前構建智能系統的元方法拆解為三類:
Scale-maxing(規模最大化):當前主流的大模型路線,拼命堆參數、數據和算力。但瓶頸已經顯現:樣本和能量效率極低。
Simp-maxing(簡單性最大化):追求模型結構的極致簡潔,信奉奧卡姆剃刀。但簡單性是形式的屬性而非功能的屬性——不同圖靈機下的“最簡”可能完全不同,使其難以擺脫主觀性陷阱。
W-maxing(約束弱化最大化):盡可能弱化功能約束,讓系統自行尋找最優解。實驗表明,僅W-maxing就能在特定任務上實現110%-500%的泛化率提升,但它需要搜索無限的硬件形態空間,優化難度極高。
Bennett的結論極其清晰:盡管Scale-maxing目前占據絕對主導,但AGI絕不是靠單一路線的暴力美學能達成的,它必然是多種元方法的融合。
如果“人工科學家”的定義被廣泛接受,AI行業將迎來一次深層的范式轉移。
評判標準將徹底改變。我們不再需要看大模型在人類考試排行榜上又超了多少分,而是建立一套“適應性基準”:把AI扔進一個從未見過的物理環境,看它能否在有限交互內發現規律;給它一個新游戲,看它能否比人類更快理解規則;甚至讓它去解決真實的科學問題,看它能否自主提出假說并設計實驗驗證。核心不再是“你知道多少”,而是“你能發現多少”。
技術路線也將隨之轉向。單純的Scaling Law很快會觸頂,因為被動接收的數據喂不出因果性。搜索與近似、規模最大化與約束弱化——AGI的達成必然是多種工具和元方法的融合,而非單一路線的延伸。
Bennett的論文之所以重要,不是因為他給出了AGI的終極答案,而是他把這面名為“智能”的模糊鏡子擦干凈了一角。他讓我們看到,AGI的實現不是大模型的線性迭代,而是一次路線重置。
AGI到底該是什么樣?答案不在那些越來越像人的對話,而在那些能夠主動追問“為什么”、并親手去驗證答案的能力中。當AI真正走出“羅夏墨跡測試”的迷霧,它將不再只是模仿人類的樣子,而是擁有科學家的精神。(本文首發鈦媒體APP,作者 | 硅谷tech news,編輯 | 趙虹宇)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.