我們正在嚴(yán)重低估AI的進(jìn)展！AlphaGo締造者罕見發(fā)聲：2026年AI自主上崗8小時

2025-11-04 23:06:21　來源: 互聯(lián)網(wǎng)思想

廣東舉報

分享至

　　來源：新智元

　　【導(dǎo)讀】當(dāng)我們還在調(diào)侃「AI寫錯代碼」時，實(shí)驗室里的科學(xué)家卻看到它能獨(dú)立完成幾個小時的復(fù)雜任務(wù)。AlphaGo作者Julian罕見發(fā)聲：公眾對AI的認(rèn)知，至少落后一個世代。最新數(shù)據(jù)更顯示，AI正以指數(shù)速度逼近專家水準(zhǔn)，2026或許就是臨界點(diǎn)。我們，是在見證未來，還是在自欺欺人？

　　AlphaGo、AlphaZero的核心作者——Julian拋出了一個尖銳的比喻：人們今天對AI的態(tài)度，很像當(dāng)初面對新冠疫情早期的反應(yīng)。

　　Julian的意思很直接：我們正在嚴(yán)重低估AI的進(jìn)展。

　　很多人還在笑它寫錯代碼，抱怨它沒法替代人類；但在實(shí)驗室里，研究者早已看到另一幅景象——AI已經(jīng)能獨(dú)立完成幾個小時的復(fù)雜任務(wù)，并且還在按指數(shù)速度進(jìn)化。

　　這就是他決定站出來發(fā)聲的原因：公眾的認(rèn)知，和前沿的現(xiàn)實(shí)，之間至少隔著一個世代的落差。

　　科學(xué)家不忍再沉默：AI為何被大眾低估？

　　Julian Schrittwieser的名字，或許不像馬斯克、奧特曼那樣家喻戶曉，但在AI圈，他是響當(dāng)當(dāng)?shù)拇嬖凇?/p>

　　作為AlphaGo、AlphaZero、MuZero的核心作者之一，他親歷了AI從「圍棋科幻」到「現(xiàn)實(shí)碾壓」的全過程。

　　也正因如此，當(dāng)他在個人博客寫下那段話時，格外刺耳：

　　人們注意到AI還會犯錯，就急著下結(jié)論：它永遠(yuǎn)不可能達(dá)到人類水準(zhǔn)，或者影響有限。可別忘了——就在幾年前，讓AI寫程序、設(shè)計網(wǎng)站還完全是科幻！

　　在他看來，今天的輿論氛圍有點(diǎn)荒謬。

　　大眾盯著模型出錯的細(xì)節(jié)，就斷言「AI不過如此」；記者拿兩代模型的閑聊對比，覺得「沒啥變化」，就認(rèn)定「進(jìn)步停滯」；政策討論里，AI被當(dāng)成遙遠(yuǎn)的、虛浮的「泡沫」。

　　然而，實(shí)驗室里的研究者看到的，卻是另一幅畫面：AI的能力曲線正在以指數(shù)型躍升。

　　Julian bluntly指出，公眾與前沿之間的認(rèn)知差距，至少滯后了一個世代。

　　他之所以站出來發(fā)聲，不是為了渲染危機(jī)，而是為了提醒：如果連科學(xué)家眼前清晰可見的趨勢都被忽視，真正的臨界點(diǎn)到來時，我們幾乎沒有準(zhǔn)備。

　　指數(shù)曲線下的震撼

　　AI「獨(dú)立上班」的時間在翻倍

　　Julian提出的第一個關(guān)鍵證據(jù)，來自一家專門研究模型能力的機(jī)構(gòu)——METR (Model Evaluation and Threat Research)。

　　他們的思路很直白：不再只看模型答題對錯，而是衡量它們能自主完成多長時間的真實(shí)任務(wù)。

　　在今年早些時候的研究里，METR給出的答案是：Claude 3.7 Sonnet能在約1小時長度的軟件工程任務(wù)中保持50%的成功率。

　　這意味著，它已經(jīng)具備獨(dú)立撐起一段「實(shí)打?qū)嵉墓ぷ鲿r長」的能力。

　　Julian指出，更令人震驚的是——這條曲線呈現(xiàn)出指數(shù)增長趨勢，每7個月翻一倍。

　　Sonnet 3.7已經(jīng)是7個月前的模型，正好對應(yīng)METR統(tǒng)計出的翻倍周期。

　　他隨即給出最新的對照：在METR官網(wǎng)更新的圖表里，可以看到Grok 4、Claude Opus 4.1、GPT-5已經(jīng)排在右上角。

　　Julian博文引用的METR數(shù)據(jù)，橫軸為時間，縱軸為可完成任務(wù)的時長。可以看到GPT-5、Opus 4.1已經(jīng)突破兩小時大關(guān)。

　　它們不再是「1小時工作」，而是能夠支撐超過2小時的任務(wù)。指數(shù)并沒有放緩，反而略超預(yù)期。

　　這條線的含義不止是「2小時」，而是它所暗示的外推未來：

　　如果趨勢不變，2026年年中，模型將能連續(xù)完成8小時工作；再往后，2027年，模型可能在不少復(fù)雜任務(wù)上超越人類專家。

　　Julian的意思很明確：你也許不必喜歡這種預(yù)測，但忽視它的代價極高。

　　跨行業(yè)評測：AI已逼近人類專家

　　如果說METR的研究證明了AI在軟件工程任務(wù)上的「時間地平線」不斷拉長，那么另一項研究——OpenAI的GDPval則把這個趨勢帶進(jìn)了現(xiàn)實(shí)經(jīng)濟(jì)。

　　GDPval的設(shè)計非常直接：找來44個職業(yè)、9大行業(yè)的任務(wù)，每個職業(yè)挑選30個真實(shí)工作樣本，總共1320項任務(wù)。

　　GDPval任務(wù)覆蓋9大行業(yè)，44個職業(yè)，模型表現(xiàn)已與人類差距極小。Claude Opus 4.1在多個維度甚至領(lǐng)先GPT-5。

　　這些任務(wù)由平均14年經(jīng)驗的行業(yè)專家設(shè)計，再交給模型去完成，最后由盲評打分：只看結(jié)果，不看作者是誰。

　　Julian在博文里寫道：

　　最新的結(jié)果顯示，GPT-5在許多職業(yè)任務(wù)上已經(jīng)接近人類水準(zhǔn)。更令人意外的是，Claude Opus 4.1（發(fā)布時間甚至早于 GPT-5），在GDPval上的表現(xiàn)顯著優(yōu)于GPT-5，幾乎追平了行業(yè)專家。

　　這不是某個孤立benchmark的「漂亮成績」，而是在跨越法律、金融、工程、醫(yī)療、創(chuàng)意等行業(yè)的真實(shí)檢驗中，AI開始逼近人類平均水平。

　　OpenAI GDPval評測結(jié)果（2024–2025）。縱軸為模型在真實(shí)職業(yè)任務(wù)中的勝率（對比有多年經(jīng)驗的行業(yè)專家），深色為純勝率，淺色為勝或平局。可以看到GPT-5已逼近「行業(yè)專家水平線」。

　　更值得注意的是：OpenAI在這份報告中，并沒有刻意凸顯自家模型，反而坦誠承認(rèn)友商Claude的表現(xiàn)更好。

　　Julian特別稱贊這一點(diǎn)，認(rèn)為這是行業(yè)少見的「科研誠信」：

　　在追求安全和有益結(jié)果時，比拼輸贏反而不是最重要的。

　　當(dāng)然，GDPval的設(shè)計也并非完美。

　　Julian也提醒，許多任務(wù)依然相對「整潔」（messy程度不高），沒有模擬長周期、多輪反饋的復(fù)雜工作環(huán)境。

　　但即便如此，趨勢已經(jīng)足夠說明問題——AI不只是能寫點(diǎn)小程序，而是在真實(shí)的職業(yè)場景里，正一步步靠近甚至超越人類。

　　質(zhì)疑聲出現(xiàn)：趨勢真的可靠嗎？

　　在Julian的博文下，不少讀者認(rèn)同「AI沒有泡沫」，但也有人提出尖銳的質(zhì)疑。

　　其中，Atharva Raykar的評論獲得了高贊。他指出：

　　把AI的進(jìn)展直接類比成指數(shù)曲線，其實(shí)很危險。疫情的指數(shù)傳播有明確機(jī)制支撐，而AI的提升并不是必然的。

　　他的觀點(diǎn)是：AI的進(jìn)步更像是摩爾定律，靠整個行業(yè)不斷疊加創(chuàng)新與工程突破。

　　如果沒有推理模型等關(guān)鍵節(jié)點(diǎn)的突破，能力曲線可能早就「撞墻」。所以，單純外推曲線，未必能保證未來必然繼續(xù)加速。

　　Atharva還提到另一個問題：評測任務(wù)不夠「messy」。

　　METR的任務(wù)平均「復(fù)雜度得分」只有3/16，相當(dāng)于結(jié)構(gòu)清晰的小型工程任務(wù)；而現(xiàn)實(shí)世界中的軟件項目、科研探索，往往在7–16的區(qū)間，遠(yuǎn)比benchmark混亂。

　　也就是說，現(xiàn)在的評測結(jié)果可能高估了AI在真實(shí)世界中的適用性。

　　Julian在后續(xù)回復(fù)中承認(rèn)了這些提醒的合理性，但也強(qiáng)調(diào)：

　　我類比的重點(diǎn)并不是AI一定會像病毒傳播那樣加速，而是公眾和決策層正在忽視已經(jīng)發(fā)生的增長。

　　短期（1–2 年）的趨勢依然很清晰——在這種尺度上，外推往往比專家預(yù)測更靠譜。

　　在他看來，問題的關(guān)鍵不是曲線未來是否會「拐彎]，而是：如果趨勢真的繼續(xù)，而社會卻沒有準(zhǔn)備，那代價將會極其沉重。

　　未來是替代，還是百倍增幅的協(xié)作？

　　Julian 在文章的最后給出了他最具沖擊力的預(yù)測：

　　2026年中，至少有一款頂級模型能連續(xù)自主完成8小時的工作任務(wù)——這意味著它不再只是一個「對話工具」，而是能真正以「全職員工」的形式參與工作流。

　　2026年底，在多個行業(yè)任務(wù)中，會有模型的表現(xiàn)正式達(dá)到人類專家的平均水平。

　　2027年之后，在不少垂直任務(wù)里，AI的表現(xiàn)將頻繁超越專家，并逐步成為生產(chǎn)力的主力。

　　這不是科幻，而是從當(dāng)前曲線直接外推出的「保守版本」。

　　Julian直言，忽視這種趨勢，比過度擔(dān)憂更危險。

　　但他同時也強(qiáng)調(diào)，AI的未來不一定意味著「替代」。在他設(shè)想的畫面里，更有可能出現(xiàn)的是這樣一種場景：

　　人類依舊是指揮者，但身邊會有幾十個、上百個超強(qiáng)助手。人機(jī)協(xié)作下的效率提升，不是1倍，而是10倍、100倍。

　　這種模式不僅能避免大規(guī)模失業(yè)的恐慌，還可能釋放前所未有的創(chuàng)造力。

　　科研、設(shè)計、醫(yī)療、法律、金融……幾乎所有行業(yè)都會因此重組。

　　Julian把這種可能性稱為「更安全、更有益的道路」：讓AI成為超強(qiáng)工具，而不是對手。

　　這幅未來圖景令人震撼：或許在不遠(yuǎn)的2026或2027，你不是被AI取代，而是帶著一支「AI 團(tuán)隊」去上班。

　　Julian的提醒，其實(shí)很簡單：我們正在低估AI。

　　不是說它完美無缺，而是它的曲線比多數(shù)人想象的更快、更陡。

　　按照當(dāng)前的趨勢，2026或許就是關(guān)鍵轉(zhuǎn)折點(diǎn)——AI可能不再是「實(shí)驗室的奇觀」，而是走進(jìn)每一個普通行業(yè)，真正改寫經(jīng)濟(jì)的底層邏輯。

　　這不是危言聳聽，而是一個事實(shí)：未來兩三年內(nèi)，我們都將直面一個被低估的臨界點(diǎn)。

　　而當(dāng)那一刻到來時，每個人都要回答同一個問題：你會抵抗、觀望，還是率先和你的AI團(tuán)隊并肩上崗？

　　參考資料：

　　https://x.com/polynoamial/status/1972167347088904371

　　https://www.julian.ac/blog/2025/09/27/failing-to-understand-the-exponential-again/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.