<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      我們正在嚴(yán)重低估AI的進(jìn)展!AlphaGo締造者罕見發(fā)聲:2026年AI自主上崗8小時

      0
      分享至

        

        來源:新智元

        【導(dǎo)讀】當(dāng)我們還在調(diào)侃「AI寫錯代碼」時,實(shí)驗室里的科學(xué)家卻看到它能獨(dú)立完成幾個小時的復(fù)雜任務(wù)。AlphaGo作者Julian罕見發(fā)聲:公眾對AI的認(rèn)知,至少落后一個世代。最新數(shù)據(jù)更顯示,AI正以指數(shù)速度逼近專家水準(zhǔn),2026或許就是臨界點(diǎn)。我們,是在見證未來,還是在自欺欺人?

        AlphaGo、AlphaZero的核心作者——Julian拋出了一個尖銳的比喻:人們今天對AI的態(tài)度,很像當(dāng)初面對新冠疫情早期的反應(yīng)。

        Julian的意思很直接:我們正在嚴(yán)重低估AI的進(jìn)展。

        

        很多人還在笑它寫錯代碼,抱怨它沒法替代人類;但在實(shí)驗室里,研究者早已看到另一幅景象——AI已經(jīng)能獨(dú)立完成幾個小時的復(fù)雜任務(wù),并且還在按指數(shù)速度進(jìn)化。

        這就是他決定站出來發(fā)聲的原因:公眾的認(rèn)知,和前沿的現(xiàn)實(shí),之間至少隔著一個世代的落差。

        

        科學(xué)家不忍再沉默:AI為何被大眾低估?

        Julian Schrittwieser的名字,或許不像馬斯克、奧特曼那樣家喻戶曉,但在AI圈,他是響當(dāng)當(dāng)?shù)拇嬖凇?/p>

        

        作為AlphaGo、AlphaZero、MuZero的核心作者之一,他親歷了AI從「圍棋科幻」到「現(xiàn)實(shí)碾壓」的全過程。

        也正因如此,當(dāng)他在個人博客寫下那段話時,格外刺耳:

        人們注意到AI還會犯錯,就急著下結(jié)論:它永遠(yuǎn)不可能達(dá)到人類水準(zhǔn),或者影響有限。可別忘了——就在幾年前,讓AI寫程序、設(shè)計網(wǎng)站還完全是科幻!

        在他看來,今天的輿論氛圍有點(diǎn)荒謬。

        大眾盯著模型出錯的細(xì)節(jié),就斷言「AI不過如此」;記者拿兩代模型的閑聊對比,覺得「沒啥變化」,就認(rèn)定「進(jìn)步停滯」;政策討論里,AI被當(dāng)成遙遠(yuǎn)的、虛浮的「泡沫」。

        

        然而,實(shí)驗室里的研究者看到的,卻是另一幅畫面:AI的能力曲線正在以指數(shù)型躍升。

        Julian bluntly指出,公眾與前沿之間的認(rèn)知差距,至少滯后了一個世代

        他之所以站出來發(fā)聲,不是為了渲染危機(jī),而是為了提醒:如果連科學(xué)家眼前清晰可見的趨勢都被忽視,真正的臨界點(diǎn)到來時,我們幾乎沒有準(zhǔn)備。

        指數(shù)曲線下的震撼

        AI「獨(dú)立上班」的時間在翻倍

        Julian提出的第一個關(guān)鍵證據(jù),來自一家專門研究模型能力的機(jī)構(gòu)——METR (Model Evaluation and Threat Research)

        他們的思路很直白:不再只看模型答題對錯,而是衡量它們能自主完成多長時間的真實(shí)任務(wù)。

        在今年早些時候的研究里,METR給出的答案是:Claude 3.7 Sonnet能在約1小時長度的軟件工程任務(wù)中保持50%的成功率

        

        這意味著,它已經(jīng)具備獨(dú)立撐起一段「實(shí)打?qū)嵉墓ぷ鲿r長」的能力。

        Julian指出,更令人震驚的是——這條曲線呈現(xiàn)出指數(shù)增長趨勢,每7個月翻一倍

        Sonnet 3.7已經(jīng)是7個月前的模型,正好對應(yīng)METR統(tǒng)計出的翻倍周期。

        他隨即給出最新的對照:在METR官網(wǎng)更新的圖表里,可以看到Grok 4、Claude Opus 4.1、GPT-5已經(jīng)排在右上角。

        

        Julian博文引用的METR數(shù)據(jù),橫軸為時間,縱軸為可完成任務(wù)的時長。可以看到GPT-5、Opus 4.1已經(jīng)突破兩小時大關(guān)。

        它們不再是「1小時工作」,而是能夠支撐超過2小時的任務(wù)。指數(shù)并沒有放緩,反而略超預(yù)期

        這條線的含義不止是「2小時」,而是它所暗示的外推未來

        如果趨勢不變,2026年年中,模型將能連續(xù)完成8小時工作;再往后,2027年,模型可能在不少復(fù)雜任務(wù)上超越人類專家

        Julian的意思很明確:你也許不必喜歡這種預(yù)測,但忽視它的代價極高

        跨行業(yè)評測:AI已逼近人類專家

        如果說METR的研究證明了AI在軟件工程任務(wù)上的「時間地平線」不斷拉長,那么另一項研究——OpenAI的GDPval則把這個趨勢帶進(jìn)了現(xiàn)實(shí)經(jīng)濟(jì)。

        GDPval的設(shè)計非常直接:找來44個職業(yè)、9大行業(yè)的任務(wù),每個職業(yè)挑選30個真實(shí)工作樣本,總共1320項任務(wù)。

        

        GDPval任務(wù)覆蓋9大行業(yè),44個職業(yè),模型表現(xiàn)已與人類差距極小。Claude Opus 4.1在多個維度甚至領(lǐng)先GPT-5。

        這些任務(wù)由平均14年經(jīng)驗的行業(yè)專家設(shè)計,再交給模型去完成,最后由盲評打分:只看結(jié)果,不看作者是誰。

        Julian在博文里寫道:

        最新的結(jié)果顯示,GPT-5在許多職業(yè)任務(wù)上已經(jīng)接近人類水準(zhǔn)。更令人意外的是,Claude Opus 4.1(發(fā)布時間甚至早于 GPT-5),在GDPval上的表現(xiàn)顯著優(yōu)于GPT-5,幾乎追平了行業(yè)專家。

        這不是某個孤立benchmark的「漂亮成績」,而是在跨越法律、金融、工程、醫(yī)療、創(chuàng)意等行業(yè)的真實(shí)檢驗中,AI開始逼近人類平均水平。

        

        OpenAI GDPval評測結(jié)果(2024–2025)。縱軸為模型在真實(shí)職業(yè)任務(wù)中的勝率(對比有多年經(jīng)驗的行業(yè)專家),深色為純勝率,淺色為勝或平局。可以看到GPT-5已逼近「行業(yè)專家水平線」。

        更值得注意的是:OpenAI在這份報告中,并沒有刻意凸顯自家模型,反而坦誠承認(rèn)友商Claude的表現(xiàn)更好

        

        Julian特別稱贊這一點(diǎn),認(rèn)為這是行業(yè)少見的「科研誠信」:

        在追求安全和有益結(jié)果時,比拼輸贏反而不是最重要的。

        當(dāng)然,GDPval的設(shè)計也并非完美。

        Julian也提醒,許多任務(wù)依然相對「整潔」(messy程度不高),沒有模擬長周期、多輪反饋的復(fù)雜工作環(huán)境。

        但即便如此,趨勢已經(jīng)足夠說明問題——AI不只是能寫點(diǎn)小程序,而是在真實(shí)的職業(yè)場景里,正一步步靠近甚至超越人類。

        質(zhì)疑聲出現(xiàn):趨勢真的可靠嗎?

        在Julian的博文下,不少讀者認(rèn)同「AI沒有泡沫」,但也有人提出尖銳的質(zhì)疑。

        其中,Atharva Raykar的評論獲得了高贊。他指出:

        把AI的進(jìn)展直接類比成指數(shù)曲線,其實(shí)很危險。疫情的指數(shù)傳播有明確機(jī)制支撐,而AI的提升并不是必然的。

        

        他的觀點(diǎn)是:AI的進(jìn)步更像是摩爾定律,靠整個行業(yè)不斷疊加創(chuàng)新與工程突破。

        如果沒有推理模型等關(guān)鍵節(jié)點(diǎn)的突破,能力曲線可能早就「撞墻」。所以,單純外推曲線,未必能保證未來必然繼續(xù)加速。

        Atharva還提到另一個問題:評測任務(wù)不夠「messy」

        METR的任務(wù)平均「復(fù)雜度得分」只有3/16,相當(dāng)于結(jié)構(gòu)清晰的小型工程任務(wù);而現(xiàn)實(shí)世界中的軟件項目、科研探索,往往在7–16的區(qū)間,遠(yuǎn)比benchmark混亂。

        也就是說,現(xiàn)在的評測結(jié)果可能高估了AI在真實(shí)世界中的適用性。

        Julian在后續(xù)回復(fù)中承認(rèn)了這些提醒的合理性,但也強(qiáng)調(diào):

        我類比的重點(diǎn)并不是AI一定會像病毒傳播那樣加速,而是公眾和決策層正在忽視已經(jīng)發(fā)生的增長。

        短期(1–2 年)的趨勢依然很清晰——在這種尺度上,外推往往比專家預(yù)測更靠譜。

        在他看來,問題的關(guān)鍵不是曲線未來是否會「拐彎],而是:如果趨勢真的繼續(xù),而社會卻沒有準(zhǔn)備,那代價將會極其沉重。

        未來是替代,還是百倍增幅的協(xié)作?

        Julian 在文章的最后給出了他最具沖擊力的預(yù)測:

        2026年中,至少有一款頂級模型能連續(xù)自主完成8小時的工作任務(wù)——這意味著它不再只是一個「對話工具」,而是能真正以「全職員工」的形式參與工作流。

        2026年底,在多個行業(yè)任務(wù)中,會有模型的表現(xiàn)正式達(dá)到人類專家的平均水平

        2027年之后,在不少垂直任務(wù)里,AI的表現(xiàn)將頻繁超越專家,并逐步成為生產(chǎn)力的主力。

        這不是科幻,而是從當(dāng)前曲線直接外推出的「保守版本」。

        

        Julian直言,忽視這種趨勢,比過度擔(dān)憂更危險。

        但他同時也強(qiáng)調(diào),AI的未來不一定意味著「替代」。在他設(shè)想的畫面里,更有可能出現(xiàn)的是這樣一種場景:

        人類依舊是指揮者,但身邊會有幾十個、上百個超強(qiáng)助手。人機(jī)協(xié)作下的效率提升,不是1倍,而是10倍、100倍。

        這種模式不僅能避免大規(guī)模失業(yè)的恐慌,還可能釋放前所未有的創(chuàng)造力。

        科研、設(shè)計、醫(yī)療、法律、金融……幾乎所有行業(yè)都會因此重組。

        Julian把這種可能性稱為「更安全、更有益的道路」:讓AI成為超強(qiáng)工具,而不是對手。

        這幅未來圖景令人震撼:或許在不遠(yuǎn)的2026或2027,你不是被AI取代,而是帶著一支「AI 團(tuán)隊」去上班

        Julian的提醒,其實(shí)很簡單:我們正在低估AI

        不是說它完美無缺,而是它的曲線比多數(shù)人想象的更快、更陡。

        按照當(dāng)前的趨勢,2026或許就是關(guān)鍵轉(zhuǎn)折點(diǎn)——AI可能不再是「實(shí)驗室的奇觀」,而是走進(jìn)每一個普通行業(yè),真正改寫經(jīng)濟(jì)的底層邏輯。

        這不是危言聳聽,而是一個事實(shí):未來兩三年內(nèi),我們都將直面一個被低估的臨界點(diǎn)。

        而當(dāng)那一刻到來時,每個人都要回答同一個問題:你會抵抗、觀望,還是率先和你的AI團(tuán)隊并肩上崗?

        參考資料:

        https://x.com/polynoamial/status/1972167347088904371

        https://www.julian.ac/blog/2025/09/27/failing-to-understand-the-exponential-again/

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      央視八套黃金檔力推!5月17號正式上線,看清陣容,網(wǎng)友:必追

      央視八套黃金檔力推!5月17號正式上線,看清陣容,網(wǎng)友:必追

      喜歡歷史的阿繁
      2026-05-15 00:28:32
      2026最扎心現(xiàn)實(shí):1270 萬畢業(yè)生里,沒背景沒人脈的孩子才真的難

      2026最扎心現(xiàn)實(shí):1270 萬畢業(yè)生里,沒背景沒人脈的孩子才真的難

      職場資深秘書
      2026-05-13 21:35:02
      劉濤雨中跪拜媽祖,一道光打下來,福建人徹底信了

      劉濤雨中跪拜媽祖,一道光打下來,福建人徹底信了

      TVB的四小花
      2026-05-10 10:38:33
      “摸奶子”惹爭議!OPPO的流量反噬開始了

      “摸奶子”惹爭議!OPPO的流量反噬開始了

      廣告創(chuàng)意
      2026-05-13 08:25:55
      老板娘說照片得放大看,她什么意思?

      老板娘說照片得放大看,她什么意思?

      太急張三瘋
      2026-05-13 09:12:35
      陳賡去朝支援,聽彭德懷說以為是姓高的人來,問:你不大歡迎我?

      陳賡去朝支援,聽彭德懷說以為是姓高的人來,問:你不大歡迎我?

      鶴羽說個事
      2026-05-14 22:50:19
      白鹿風(fēng)波升級!本人掉粉20萬評論區(qū)淪陷,網(wǎng)友質(zhì)問為何欺負(fù)李晨

      白鹿風(fēng)波升級!本人掉粉20萬評論區(qū)淪陷,網(wǎng)友質(zhì)問為何欺負(fù)李晨

      萌神木木
      2026-05-12 18:22:09
      不能說的秘密

      不能說的秘密

      貴圈真亂
      2026-05-02 12:20:52
      布朗:或許我需要換一個地方 他和字母哥互換的說法難道是真的?

      布朗:或許我需要換一個地方 他和字母哥互換的說法難道是真的?

      仰臥撐FTUer
      2026-05-14 10:24:03
      中美談了2個多小時,特朗普用了4個字評價,給兩國關(guān)系描繪了藍(lán)圖

      中美談了2個多小時,特朗普用了4個字評價,給兩國關(guān)系描繪了藍(lán)圖

      奇思妙想生活家
      2026-05-15 00:42:27
      75歲大爺與保姆生下兒子,做親子鑒定后,大爺卻被子女們氣得心梗

      75歲大爺與保姆生下兒子,做親子鑒定后,大爺卻被子女們氣得心梗

      黃家湖的憂傷
      2025-03-06 09:30:21
      寧夏惡魔,白天在謝晉電影里演好人,晚上回家當(dāng)閻王,殺人喂狗!

      寧夏惡魔,白天在謝晉電影里演好人,晚上回家當(dāng)閻王,殺人喂狗!

      莫地方
      2026-05-14 00:55:03
      金曲獎來了,看完提名名單,我要說:華語樂壇完了!

      金曲獎來了,看完提名名單,我要說:華語樂壇完了!

      八卦南風(fēng)
      2026-05-13 18:27:59
      因偷稅被查的網(wǎng)紅白冰復(fù)播,“坑我?guī)浊f還要把我送進(jìn)去,要我家破人亡”

      因偷稅被查的網(wǎng)紅白冰復(fù)播,“坑我?guī)浊f還要把我送進(jìn)去,要我家破人亡”

      都市快報橙柿互動
      2026-05-13 15:10:32
      今夏最火的“裙子與褲子”,這么穿才洋氣,輕松擺脫路人感!

      今夏最火的“裙子與褲子”,這么穿才洋氣,輕松擺脫路人感!

      何有強(qiáng)
      2026-05-14 23:54:17
      76歲的萬科創(chuàng)始人王石,最近徹底成了全網(wǎng)焦點(diǎn)。

      76歲的萬科創(chuàng)始人王石,最近徹底成了全網(wǎng)焦點(diǎn)。

      夢錄的西方史話
      2026-04-23 14:36:39
      劉國梁到底有多狠?棄用郝帥和陳玘,用天才前途換國乒的萬無一失

      劉國梁到底有多狠?棄用郝帥和陳玘,用天才前途換國乒的萬無一失

      老瑋是個手藝人
      2026-03-27 14:46:10
      別人西裝革履裝嚴(yán)肅,唯獨(dú)他舉手機(jī)亂拍,馬斯克為何如此與眾不同

      別人西裝革履裝嚴(yán)肅,唯獨(dú)他舉手機(jī)亂拍,馬斯克為何如此與眾不同

      眼界看視野
      2026-05-14 14:43:00
      越來越多的縣城,只剩下體制內(nèi)經(jīng)濟(jì)了!

      越來越多的縣城,只剩下體制內(nèi)經(jīng)濟(jì)了!

      黯泉
      2026-05-13 11:15:55
      重慶市沙坪壩區(qū)發(fā)布暴雨藍(lán)色預(yù)警信號

      重慶市沙坪壩區(qū)發(fā)布暴雨藍(lán)色預(yù)警信號

      北青網(wǎng)-北京青年報
      2026-05-14 21:53:23
      2026-05-15 02:12:49
      互聯(lián)網(wǎng)思想 incentive-icons
      互聯(lián)網(wǎng)思想
      AI時代,互聯(lián)網(wǎng)思想觀察
      2461文章數(shù) 16908關(guān)注度
      往期回顧 全部

      科技要聞

      馬斯克說會談很順利 黃仁勛點(diǎn)贊 庫克比耶

      頭條要聞

      馬斯克幼子裝扮“火”了 衣服包包都是中國造

      頭條要聞

      馬斯克幼子裝扮“火”了 衣服包包都是中國造

      體育要聞

      爭議抽象天王山,和季后賽最穩(wěn)定中鋒

      娛樂要聞

      何九華官宣當(dāng)爸!全程不提孩子媽

      財經(jīng)要聞

      李強(qiáng)會見美國工商界代表

      汽車要聞

      雙零重力座椅/AI智能體/調(diào)光天幕 啟境GT7內(nèi)飾發(fā)布

      態(tài)度原創(chuàng)

      本地
      健康
      家居
      房產(chǎn)
      公開課

      本地新聞

      用蘇繡的方式,打開江西婺源

      專家揭秘干細(xì)胞回輸?shù)陌踩L(fēng)險

      家居要聞

      精神奢享 對話塔尖需求

      房產(chǎn)要聞

      海南樓市新政要出!擬調(diào)公積金貸款額度,最高可貸168萬!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 丝袜足控一区二区三区| 四虎永久在线精品免费网站| 色综合久久中文| 欧洲精品久久久AV无码电影| 99久久er热在这里只有精品99| 99re在线| 久久AV中文综合一区二区| 色优久久久久综合网鬼色| 国产午夜大片| 天天躁日日躁狠狠躁喷水| 国内自拍网红在线综合一区| 女女同性黄网在线观看| 91丨九色丨夫妻绿帽| 久久精品国产亚洲av麻豆不卡 | 黑人巨大亚洲一区二区久| 国产av成人精品播放| 香蕉在线精品视频在线观看2| 六月丁香亚洲综合在线视频| 色综合天天综合网中文伊| 91丨九色丨人妻丨白浆| 亚洲色avav| 阿尔山市| 老司机午夜精品视频资源| 99re激情网站| 婷婷五月综合丁香在线| 亚洲日韩一区精品射精| 一本一道波多野结衣av黑人在线| 欧美亚洲色倩在线观看| 亚洲精品国产一区黑色丝袜 | 色色97| 欧美日韩精品一区二区在线视频| 少妇被粗大猛烈进出免费视频| 国产精品视频中文字幕| 国产性爱一级片| 日韩一区精品视频一区二区| 欧洲精品久久久av无码电影| 亚洲精品视频免费| 欧美日韩在线看| 日韩欧美网站| 国产精品久久久久久久影院| 欧洲多毛裸体xxxxx|