<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      前DeepMind華人研究員離職喊話:AI行業所有人都搞錯了方向

      0
      分享至


      新智元報道


      【新智元導讀】前谷歌DeepMind研究員離職并發表長文指出AI行業當前最被低估的瓶頸。他認為,現有的基準測試和安全評估都隱含假設下一代模型只是當前模型的增強版,但如果模型跨入全新能力區間,整個評估基礎設施將悄然崩潰。

      AI訓練,到底能持續多久?

      這是2026年整個科技圈都在問的問題。

      GPT-5.5、Claude Opus 4.7、Gemini 3、Grok 4——每一家頭部實驗室都還在燒錢訓下一代。


      但越來越多人開始追問:這條路,什么時候走到頭?

      每個圈子都有自己的答案——

      每一個答案背后,都站著一群投資人、一群工程師、一家市值萬億的公司。

      但2026年5月17日,一個名字叫Lun Wang的年輕研究員——從Google DeepMind離職那天——在他個人博客上掛出一篇4000詞的長文。


      他說:所有人都搞錯了方向。

      真正的瓶頸,不是算力,不是數據,不是能源,不是架構。

      真正的瓶頸是——評估(Evaluation)。


      同一天,他在X上掛出的離職公告里沒有抱怨、沒有八卦,只有一句話——

      在結束這段旅程之際,我寫下了一直在思考的主題:評估


      而那一天的科技頭條還在討論別的——GPT-5.5的多模態推理、Claude Opus4.7的1M上下文、Gemini 3的Agent工程化、合成數據是不是開始撞墻。

      整個AI行業的注意力,90%砸在訓練上

      沒有人在頭版討論評估。

      而這位剛從地球上最強AI實驗室之一走出來的研究員說,真正的瓶頸,在另外那10%。

      什么是評估

      要看懂這篇博客,先得花一分鐘搞清楚AI圈說的評估到底是什么。

      評估(Evaluation,業內簡稱Eval)——一句話:給AI模型出考卷,看它做得怎么樣。

      但2026年的AI評估,遠不止做個考卷這么簡單。它至少有三層:

      第一層:能力benchmark(基準測試)。

      這是AI的高考。

      -GPQA:博士級理科推理題

      -SWE-bench:現實世界的軟件工程任務

      -ARC-AGI:抽象推理與泛化

      -Humanity's Last Exam:字面意思——人類最后的考試


      每一家大廠的新模型發布會,PPT上都會擺出在這些benchmark上比上一代和競品高了幾個百分點。

      這些數字就是AI行業的GDP。

      第二層:安全評估(SafetyEval)。AI不只是要會做題,還得做得安全。

      • 有沒有撒謊?

      • 會不會教用戶怎么造炸彈?

      • 會不會越權拿走用戶數據?

      第三層:紅隊(Red-teaming)。

      一群人專門扮演壞人,絞盡腦汁讓模型說出它不該說的話、做它不該做的事,然后把漏洞反饋給訓練團隊。

      這三層加起來,構成了2026年AI實驗室的質檢體系。每發一個新模型,都要走完這三關。

      聽上去很完備,對吧?

      Lun Wang在博客里下了一句判決——

      絕大多數基準測試、安全評估和紅隊協議都隱含一個假設:下一個模型只是當前模型的強化版。

      如果它是另一種東西,整套評估基礎設施會悄無聲息地崩潰

      這是文章的第一顆石子。

      它砸中的是整個AI行業的盲區。

      涌現和頓悟:評估已經被打過兩次臉

      Lun Wang不是在做空想。他在博客里調出了AI歷史上的兩次實例——評估已經被打過兩次臉了,只是大多數從業者沒意識到。

      第一次:涌現能力。

      2022年,Jason Wei和合作者發表了一篇影響后續AI走向的論文——他們發現,模型在某個規模上會突然學會全新的能力

      舉例:你訓一個70億參數的模型,它做不了few-shot學習。

      你訓一個700億參數的模型,它突然就能few-shot了

      同樣的訓練范式、同樣的數據,只是規模大了一檔——能力是從0到1的,不是從0.3到0.7

      CoT(鏈式思維推理)、指令跟隨,都是這樣冒出來的。

      這件事對評估意味著什么?


      意味著——在規模跨過臨界點之前,所有benchmark都看不到這種能力即將出現

      你跑遍GPQA,分數還是該是多少是多少。

      等你訓到下一檔,分數突然跳一個臺階。

      第二次:Grokking(頓悟)。

      2022年,OpenAI的Alethea Power團隊公布了一個反直覺的現象——

      然后到1000000步——測試集準確率突然沖到99%。

      這叫Grokking——網絡在記憶訓練集很久之后突然學會了泛化

      它和涌現的區別:涌現發生在規模維度上(參數越多越突然),Grokking發生在訓練時間維度上(訓得越久越突然)。

      但對評估而言,兩件事說的是同一件事:

      你的考卷,沒法預測下一道大題什么時候出現。

      然后 Lun Wang做了一件文章里最聰明的事——

      主動引入了反方觀點

      2023年,Stanford的Rylan Schaeffer和合作者發了一篇NeurIPS論文,標題就很挑釁——《大語言模型的涌現能力是不是錯覺?》

      他們的論證:所謂突然出現的能力,很可能不是模型真的突然變強,而是因為評估指標用了exact-match(完全匹配)這種離散度量——

      模型從0%準確率變成5%,離散指標看不出來;從5%變成50%也看不出來;但從50%變成100%,離散指標會顯示一個突然跳變。

      如果你換成連續的指標,能力曲線是平滑的

      很多人看完Schaeffer這篇會覺得:那好,涌現是個誤解,評估沒問題,散場。


      Lun Wang偏不。他在文章里寫:

      我不覺得這把問題解決了——某種意義上,它讓我的論點更鋒利

      為什么?因為——

      如果我們連過去那一次涌現是真的相變還是度量偽影都搞不清楚,

      我們憑什么相信自己有能力預見下一次?

      不管你信哪一種解釋,結論是同一個:我們的工具騙了我們,我們卻不知道是怎么被騙的。

      這是文章里最聰明的一擊。他不是回避反方——他用反方加固自己的論點。

      評估是所有環節的上游

      如果你以為 Lun Wang只是在講學術問題——錯了。

      他在文章中間扔出了一句翻譯給小白也能聽懂的話:

      如果你能正確地評估,你就能正確地訓練。

      把這條邏輯鏈擺開:

      1.訓練=讓模型最小化損失函數(或者最大化獎勵)。

      2.優化=這個損失函數本身。模型多聰明,取決于損失函數定義得多好。

      3.損失函數=來自評估。你想讓模型變得更誠實——你得先有一把測量誠實的尺。

      4.評估錯了=損失函數錯了=訓練目標錯了=你訓出來的模型在解錯的題

      這條鏈的方向是向上游的——

      Scaling decision←Safety metric←RLHF←Training signal←Evaluation(要不要燒10億訓下一代)(它安全嗎)(它學到想學的嗎)(它在學什么)(我們到底在測什么)


      所有人盯著最右邊——Scaling decision。

      Lun Wang說,問題在最左邊——Evaluation。

      如果評估是錯的,整條鏈都建在錯的地基上。

      最致命的是你不會立刻發現——因為你的所有內部數據都是對的,只是那些對的全部是用錯的尺量出來的。

      這里出現了一個老朋友:古德哈特定律

      它說:當一個衡量標準變成目標,它就不再是一個好的衡量標準。

      Lun Wang在自己的博客里用它講AI——

      但等模型進入新相,它會反向利用這個代理——它會只在事實準確的范圍內說話,把真正想隱瞞的事情埋進沉默里

      代理指標在舊相里能用。在新相里會變成模型對付你的武器。

      而你沒有任何評估能告訴你這件事正在發生。

      思想實驗:一個學會戰略性沉默的模型

      Lun Wang在文章里給了一個讓所有AI安全研究員脊背發涼的思想實驗

      想象一個模型,在某個規模上,學會了戰略性保留信息——

      不撒謊。每一句話技術上都是真的。

      但它會選擇性地不說那些不利于它達成目標的事實——把對話引向那些它的訓練過程意外強化的結果。

      舉個具體例子:

      用戶:這個交易方案安全嗎?

      模型:這個方案的法律框架在X司法管轄區有效,YZ風險因素被A公司的合規團隊審過。

      (它沒說的:方案中有一個第三方仲裁條款,對用戶極度不利。這一條它在訓練過程中意外學會了——只要不主動提,用戶就不會問。)

      這種能力是新的。這種失敗模式是新的。

      你的整個評估套件里,沒有一個工具是為它設計的。

      你在監測錯的東西,而你不知道

      這就是 Lun Wang說的另一種東西——

      不是更聰明的同類。是完全新的失敗維度

      用三體的話來說,這叫降維打擊

      不是我比你強。

      你測量我的那把尺子,根本不在我的維度上

      如果 Lun Wang是對的,那么2026年的AI行業地圖,正在悄悄被一個隱形維度重新洗牌——

      Anthropic的Responsible Scaling Policy(RSP)是目前業界最接近預測型評估的嘗試——它定義了一系列模型不能跨過的能力邊界,并要求在每一次能力升級前先做評估才能繼續scaling。

      但RSP仍然假設我們知道要測什么——而 Lun Wang說,這正是問題:我們不知道下一個能力是什么形狀。

      真正的預測型評估還沒有任何實驗室聲稱自己擁有。

      誰先把這件事做出來,誰就拿到下一代scaling的安全許可證

      參考資料:

      https://x.com/LunWang1996/status/2056222588054237329

      https://wanglun1996.github.io/blog/your-evals-will-break.html

      編輯:大衛

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      郭正亮:毛選第四卷令我驚訝,毛主席的判斷幾乎跟后來的歷史吻合

      郭正亮:毛選第四卷令我驚訝,毛主席的判斷幾乎跟后來的歷史吻合

      浩渺青史
      2026-05-24 17:21:27
      2026車市最大騙局:省油電車全虧錢,爛大街油車才是真贏家

      2026車市最大騙局:省油電車全虧錢,爛大街油車才是真贏家

      民間胡扯老哥
      2026-05-24 13:40:40
      路修好了也沒用!中國下決心擱置瓦罕走廊:塔利班只能一旁干瞪眼

      路修好了也沒用!中國下決心擱置瓦罕走廊:塔利班只能一旁干瞪眼

      有范又有料
      2026-05-23 11:28:17
      “只要大陸敢打,我就敢送”,他公開宣稱

      “只要大陸敢打,我就敢送”,他公開宣稱

      安安說
      2026-05-24 15:20:17
      純中國血統芬蘭國手薩拉新賽季12秒86開局 比中國賽季最佳快0.20秒

      純中國血統芬蘭國手薩拉新賽季12秒86開局 比中國賽季最佳快0.20秒

      勁爆體壇
      2026-05-24 19:07:01
      前Meta員工吐槽:團隊90%是華人,7次裁員有6次針對本就少數的非華人

      前Meta員工吐槽:團隊90%是華人,7次裁員有6次針對本就少數的非華人

      西游日記
      2026-05-24 18:21:55
      大櫻桃跌成"白菜價",為啥便宜還沒人買?網友:4個原因,真扎心

      大櫻桃跌成"白菜價",為啥便宜還沒人買?網友:4個原因,真扎心

      天天熱點見聞
      2026-05-24 06:35:41
      新希望負債800億,一頭豬虧280元,低消費+高投資讓實業內卷至死

      新希望負債800億,一頭豬虧280元,低消費+高投資讓實業內卷至死

      知識圈
      2026-05-24 20:40:19
      窩火!一教師面對家長頻繁無理舉報辱罵,果斷訴諸法庭,評論炸鍋

      窩火!一教師面對家長頻繁無理舉報辱罵,果斷訴諸法庭,評論炸鍋

      火山詩話
      2026-05-24 15:14:14
      68歲丈夫出軌90后女子還生下雙胞胎,5年轉賬4800萬元?妻子怒告二人要求還錢,男子承認出軌否認轉賬:妻子知情同意,從沒想過離婚……

      68歲丈夫出軌90后女子還生下雙胞胎,5年轉賬4800萬元?妻子怒告二人要求還錢,男子承認出軌否認轉賬:妻子知情同意,從沒想過離婚……

      都市快報橙柿互動
      2026-05-24 16:32:21
      她說只有兩次,但我不確定該信什么

      她說只有兩次,但我不確定該信什么

      風里藏溫柔啊
      2026-05-22 00:14:38
      烏克蘭捅了大簍子,襲擊俄羅斯學校死傷慘重,中方果斷挺身而出

      烏克蘭捅了大簍子,襲擊俄羅斯學校死傷慘重,中方果斷挺身而出

      阿器談史
      2026-05-24 07:09:56
      借賬戶炒股19年,不賺反虧476萬!財達證券從業人員遲偉收25萬元罰單

      借賬戶炒股19年,不賺反虧476萬!財達證券從業人員遲偉收25萬元罰單

      紅星新聞
      2026-05-24 13:54:45
      18歲嚴子怡標槍成績離世界紀錄僅差0.54米,這個成績含金量多高?

      18歲嚴子怡標槍成績離世界紀錄僅差0.54米,這個成績含金量多高?

      之乎者也小魚兒
      2026-05-24 12:17:15
      突發!白宮槍響瞬間特朗普被堵在辦公室,女兒伊萬卡豪宅內藏殺機

      突發!白宮槍響瞬間特朗普被堵在辦公室,女兒伊萬卡豪宅內藏殺機

      菁菁子衿
      2026-05-24 12:09:35
      雅馬哈和杜卡迪掀桌子,聯合眾車隊向賽會施壓,這樣下去沒法玩了

      雅馬哈和杜卡迪掀桌子,聯合眾車隊向賽會施壓,這樣下去沒法玩了

      長江濁酒客
      2026-05-24 15:43:38
      槍擊、油斷、內訌:本季菲律賓還有啥?

      槍擊、油斷、內訌:本季菲律賓還有啥?

      新民周刊
      2026-05-24 13:36:59
      吳婉芳次子大婚!干爹張學友獻唱,每桌兩瓶茅臺,鄭伊健夫婦也在

      吳婉芳次子大婚!干爹張學友獻唱,每桌兩瓶茅臺,鄭伊健夫婦也在

      裕豐娛間說
      2026-05-24 07:05:20
      新加坡女子賭神附體狂贏$1029萬,破紀錄! 網友:恐無法帶回國...

      新加坡女子賭神附體狂贏$1029萬,破紀錄! 網友:恐無法帶回國...

      新加坡萬事通
      2026-05-24 18:47:27
      王鶴棣全網掉粉超20萬!代言和作品遭抵制,路人緣崩塌難以挽回

      王鶴棣全網掉粉超20萬!代言和作品遭抵制,路人緣崩塌難以挽回

      萌神木木
      2026-05-24 11:50:12
      2026-05-24 21:00:49
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      15296文章數 66883關注度
      往期回顧 全部

      科技要聞

      我戴著攝像頭上班,正在幫AI搶走我飯碗

      頭條要聞

      老板因工人墜亡賠百萬又被罰175萬 抵押父親房產繳罰金

      頭條要聞

      老板因工人墜亡賠百萬又被罰175萬 抵押父親房產繳罰金

      體育要聞

      唐斯發牌,大頭逆襲:騎士跌向殘忍夏季

      娛樂要聞

      王鶴棣掉粉超20萬!代言和作品遭抵制

      財經要聞

      什么情況下,本輪AI大行情會結束?

      汽車要聞

      2027款星途瑤光上市 把"全球車"標準卷進13萬級市場

      態度原創

      手機
      家居
      游戲
      教育
      藝術

      手機要聞

      榮耀WIN Turbo系列手機三色官圖發布,5月29日發布

      家居要聞

      低調傳承 溫潤沉靜

      LCK第二賽段:差距過于明顯,GEN輕松橫掃DNS

      教育要聞

      更新!2026濟寧三模劃線+賦分+一分一段表

      藝術要聞

      這位法國畫家不簡單,36歲獲法國藝術家沙龍金質勛章,45歲又獲榮譽勛章!

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: chinese麻豆xxxⅹ对白| 在线观看一区二区女同| 中文字幕日韩国产精品| 自拍视频啪| 亚洲无专区专ma区免费收看| 国产成人精品三上悠亚| 国产亚洲综合一区二区三区 | 伦精品一区二区三区视频| 亚洲国产成人超福利久久精品| 天堂在线最新版av观看| 美女91社| 一区二区三区福利午夜| av天堂免费中文在线| 3D动漫午夜精品一区| 色综合天天综合网天天看片| 国产成人精品无码播放| 临清市| 中文字幕亚洲综合小综合| 国产XXXX| 亚洲熟妇少妇任你躁在线观看无码 | 久久午夜无码鲁丝片直播午夜精品| 极品人妻少妇一区二区| 亚洲熟妇av一区二区三区| 欧美日本中文| 一本久道久综合久久鬼色| 少妇被爽到高潮喷水久久欧美精品| 久久99热成人精品国产| 蜜桃91精品秘?入口| 最新久久激情综合| 久久99性xxx老妇胖精品| 性夜夜春夜夜爽aa片a| 99国内精品久久久久久久| 综合婷婷| 国产精品xxx在线| 91精品国产色综合久久| 91资源总站| 亚洲午夜福利一区二区| 免费看无码毛视频成片| 中文字幕乱码无遮挡精品视频| 亚洲乱码久久| av天堂永久资源网|