AI能改10萬行代碼，卻讓你走路去洗車！Karpathy戳破「鋸齒狀智能」

2026-05-01 17:08:00　來源: 新智元

北京舉報

分享至

新智元報道

編輯：元宇

【新智元導(dǎo)讀】能重構(gòu)10萬行代碼的頂尖模型，卻會建議你走路去洗車店洗車？最近，Karpathy把這件怪事講透了：AI能力是鋸齒狀的，背后是一門經(jīng)濟學(xué)。他還提到Vibe Coding抬高了編程的地板，但專業(yè)開發(fā)者還需要智能體工程。智能體時代，你可以外包思考，卻不能外包理解。

今天最先進的大模型，可以一口氣重構(gòu)一個10萬行的代碼庫，也會在你想要洗車的時候，建議你走路去50米外的洗車店。

為什么同一個模型，一會兒它表現(xiàn)得像一位超級工程師，一會兒卻又像一個剛畢業(yè)的實習(xí)生？

這是Karpathy近日在Sequoia AI Ascent 2026爐邊談話中拋出的一個畫面，他用鋸齒狀智能（jaggedness）來概括這種能力分布。

2026年4月29日，Karpathy在Sequoia AI Ascent 2026爐邊談話現(xiàn)場

談話結(jié)束后，他在X上發(fā)帖復(fù)盤整場對話的亮點。

他想講的第一件事是，大模型根本不只是在加速已有的東西，它還在打開幾條全新的地平線：有些事第一次變得可能，有些事開始顯得不必要。

第二件事，就是鋸齒狀智能。為什么模型一邊能干超人的活，一邊在常識題上翻車？Karpathy把鋸齒狀能力解釋為可驗證性與經(jīng)濟激勵共同影響的結(jié)果。

第三件事，一個面向原生智能體（agent-native）的新經(jīng)濟正在長出來。所有今天為人類寫的軟件、文檔、流程，都要被重寫為「為agent寫」。

這三件事共同指向同一個判斷：AI已經(jīng)不是「寫代碼更快」那么簡單。它在重寫軟件本身，也在重寫人類在系統(tǒng)里的位置。

Karpathy自己就是最鮮明的例子。

這位OpenAI創(chuàng)始成員、前Tesla AI負責(zé)人、Vibe Coding詞語的發(fā)明者，前不久還公開撂下一句話：「我從未感覺作為程序員這么落后過。」

Sequoia的主持人正是把這句話拎出來，作為爐邊談的開場白。

這并不是謙虛。

一年前發(fā)明「氛圍編程」（vibe coding）的人，親口承認自己跟不上AI時代的浪潮，只能說明一點：AI發(fā)展的速度實在太快了。

能改10萬行代碼

卻讓你走路去洗車

「太離譜了。」

Karpathy在Sequoia現(xiàn)場講了這個洗車的段子：最先進的模型，可以重構(gòu)10萬行代碼庫，也會建議你走路去50米外的洗車店洗車。

10萬行代碼已經(jīng)足以構(gòu)成一個相當(dāng)復(fù)雜的軟件項目，而「走路去洗車店」呢？這是一個三歲孩子都能搞清楚的常識題。

你想洗的是車，車不能走路，所以人走路去洗車店是一個毫無意義的建議。一個能改10萬行代碼的模型，就在這種小學(xué)生級別的常識題上崩了。

Karpathy用這個例子來說明大模型的鋸齒狀智能，他認為AI的能力并非均勻進步的，而是參差不齊，就像一塊凹凸不平的鋸齒板。

因此今天理解AI最危險的事，就是用「它行/它不行」二分法去判斷。

新地平線

當(dāng)軟件可以「直接做到」

Karpathy在爐邊談里講了一個讓他自己有點尷尬的故事。

他寫過一個App，叫MenuGen。在餐廳拍下看不懂的菜單，App幫你把每道菜畫出來。OCR加圖像生成，這是一個標(biāo)準(zhǔn)的軟件1.0項目。

然后有一天他看到了一個軟件3.0的版本。

那個版本只有一句話：把菜單照片發(fā)給Gemini，然后說「用Nanobanana把菜品貼到菜單上」。

Gemini直接吐出一張圖。還是那張菜單，但每一道菜旁邊都貼上了圖。

那一刻，Karpathy感覺到自己寫的MenuGen是多余的，因為它還活在舊范式里。

這是Karpathy想說的第一個新地平線，不只是把舊軟件做得更快，而是把許多原本要靠一整個工程才能完成的事，壓縮成模型的一次輸出。

第二個地平線，是.md而不是.sh。

過去你裝一個軟件，用bash腳本，寫得密密麻麻，環(huán)境一變就崩。Karpathy提到OpenClaw的安裝方式：不是腳本，是一段Markdown文字，寫著「把這段復(fù)制粘貼給你的agent」。

Agent查看你的環(huán)境、debug并完成調(diào)試。Markdown不再是給人看的說明書，而是給agent看的指令。

第三個地平線，是LLM Wiki。

這是Karpathy 2026年4月在GitHub Gist上發(fā)布的一個新理念。普通RAG（檢索增強生成）是你每問一次，模型就從零開始重新拆解一次文檔，知識不累積。

LLM Wiki不一樣，它讓模型在一個Markdown文件夾里持續(xù)維護知識庫，你用Obsidian瀏覽：新文檔進來，模型自動更新已有條目、修訂摘要、補足鏈接、標(biāo)記矛盾。

在那份Gist里，Karpathy用了一個比喻：Obsidian是IDE（集成開發(fā)環(huán)境），LLM是程序員，wiki是代碼庫。

在LLM Wiki里，知識被進一步組織成一個像代碼庫一樣可積累、可維護、可版本控制的工程產(chǎn)物。

三個例子，指向同一件事：軟件1.0你寫代碼，軟件2.0你訓(xùn)權(quán)重，軟件3.0你寫提示詞（prompt）、控上下文窗口（context window）、調(diào)智能體。

鋸齒狀的背后

可驗證性和經(jīng)濟學(xué)

講了新范式，Karpathy詳細解釋了那個讓全場最困惑的問題：為什么模型智能有時會表現(xiàn)得這么「鋸齒」？

他認為這主要不是一個技術(shù)問題，而是一個經(jīng)濟學(xué)問題。

是收入和市場規(guī)模（revenue/TAM），決定了前沿實驗室在強化學(xué)習(xí)階段把什么打包進訓(xùn)練數(shù)據(jù)分布。

Karpathy在解釋鋸齒狀能力時，特別強調(diào)了強化學(xué)習(xí)（ RL ）環(huán)境的作用。

強化學(xué)習(xí)要獎勵信號（reward），獎勵信號要可驗證。一個領(lǐng)域只要可以被驗證（代碼能不能跑、數(shù)學(xué)題答案對不對、漏洞能不能復(fù)現(xiàn)），就可以構(gòu)建強化學(xué)習(xí)環(huán)境，模型就在這個領(lǐng)域飛速進化。

但「可驗證」還不夠，還要有錢賺。

OpenAI、Anthropic、Google選什么進訓(xùn)練分布，背后是收入和市場規(guī)模的考量。

市場大、付費意愿強、能形成商業(yè)閉環(huán)的領(lǐng)域，會被打包進RL；反之就沒人投入。

Karpathy給了一個畫面感很強的比喻：在RL的軌道上，你在飛；離開數(shù)據(jù)分布，你拿著砍刀進叢林。

所以今天看到的所謂鋸齒狀，不是缺陷，是結(jié)構(gòu)。是「可驗證 + 有錢賺」這兩條線把模型能力雕成的形狀。

這件事對創(chuàng)業(yè)者特別重要。

Karpathy在爐邊談里直接給了建議：如果你想做AI創(chuàng)業(yè)，找一個可驗證、但前沿實驗室還沒顧上的領(lǐng)域，自己去構(gòu)建RL環(huán)境，自己去微調(diào)（fine-tune）模型。這是當(dāng)下最有可能跑出護城河的方向。

換句話說，下一波AI-native公司，可能會是驗證環(huán)境本身。誰能定義可驗證任務(wù)、構(gòu)建獎勵循環(huán)（reward loop）、積累邊緣案例（edge cases），誰就握有底牌。

Karpathy在爐邊談話中，將神秘的AI鋸齒狀智能，還原成一個可以被分析的工程經(jīng)濟問題。

Vibe Coding的發(fā)明人

又造出新詞

2025年2月，Karpathy在X上發(fā)明了一個詞：Vibe Coding，以此形容一種高度依賴AI、幾乎不親手寫代碼的開發(fā)方式。

這個詞后來火到被Collins字典選為2025年度詞匯。Cursor、Lovable、Replit這一批公司估值飆到幾十億美金，背后都是這股風(fēng)。

一年后，在這次對話中，Karpathy給這個詞又升了級，叫智能體工程（Agentic Engineering）。

他對這兩個詞的看法是：Vibe Coding是「把地板抬高」（raising the floor），讓所有人都能寫軟件。

智能體工程是「把天花板保住」（preserving the ceiling），讓專業(yè)軟件不因為AI而掉到不該掉的水準(zhǔn)。

因為今天AI寫出來的代碼，在Karpathy眼中顯得很臃腫（bloaty），一堆復(fù)制粘貼，抽象很怪很脆弱，能跑，但真的很糟。

他還講了一個真實案例。

他的智能體在MenuGen里，居然試圖用Stripe和Google返回的email地址去做用戶匹配，而不是用一個持久化的用戶ID（user ID）。

這是任何一個有經(jīng)驗的工程師都不會犯的錯，但智能體卻犯了。

因此，Karpathy給了智能體一個非常準(zhǔn)確的定位：智能體就是一群實習(xí)生（intern entities）。

實習(xí)生有用，但你不能讓他們獨自上線生產(chǎn)代碼。你得管需求定義、管系統(tǒng)架構(gòu)、管安全、管審美、管驗證。這些事，智能體干不了。

Vibe Coding的爽感區(qū)，屬于業(yè)余項目和原型，而智能體工程才是專業(yè)開發(fā)的下一站。前者降低門檻，后者抬高要求，兩件事不能混為一談。

這也是今天行業(yè)最容易踩的坑。

Vibe Coding浪潮下，所有人都在喊AI讓人人都是程序員，但Karpathy卻說：能在智能體時代活下來的工程師，不是寫得快的，是管得住智能體的。

你能外包思考

但不能外包理解

爐邊談話中，主持人還問了一個所有人都在焦慮的問題：當(dāng)智能體能寫代碼、能調(diào)度、能自己裝軟件，人類還剩什么？

Karpathy引用了一條讓他打開腦洞的推文：

你可以外包你的思考，但你不能外包你的理解。

他對此的理解是：我仍然是瓶頸，因為只有我才知道我們到底要建什么、為什么要建。

Karpathy將人類在智能體流程里的角色定位為工程管理/工程導(dǎo)演職能。

第一是需求定義（spec），寫清楚要做什么；

第二是拆解計劃（plan），拆清楚怎么做；

第三是系統(tǒng)架構(gòu)（architecture），決定系統(tǒng)長什么樣；

第四是品味判斷（taste），判斷哪個方案是好的；

第五是過程監(jiān)督（oversight），盯著智能體別跑偏；

第六是結(jié)果驗證（verification），驗證智能體的產(chǎn)出是否真的正確。

這六件事，智能體可以輔助，但不能獨立承擔(dān)最終責(zé)任。

Karpathy重提了他此前提到的「動物與幽靈」（animals versus ghosts）比喻。

2025年10月，Karpathy曾系統(tǒng)闡述過這個比喻：幽靈之于動物，正如飛機之于鳥類。

他認為今天的前沿大模型研究不是在造動物，而是在「召喚幽靈」。

動物有內(nèi)在動機，幽靈沒有，它只是被數(shù)據(jù)和獎勵塑形出來的智能模擬，是一個全新的物種：你不能像對待人一樣對待智能體，也不能像對待傳統(tǒng)軟件一樣對待智能體。

而人類的位置，是導(dǎo)演。

導(dǎo)演雖然不親自演戲，但導(dǎo)演要懂戲。你不親手寫每一行代碼，但你要知道這個產(chǎn)品該長什么樣、為什么這樣比那樣好、上線之后會出什么事。

Sequoia在2026年給出的判斷是：AI應(yīng)用的滲透速度還在加快，「0到1億美金」的俱樂部，正在升級成「0到10億美金」。

最好的AI創(chuàng)業(yè)公司，每個員工的年產(chǎn)出已經(jīng)過百萬美金。這背后是智能體在干活，但能讓智能體真正干出百萬產(chǎn)出的，是那些懂得當(dāng)導(dǎo)演的創(chuàng)始人。

Karpathy在爐邊談話尾聲，描述了他的更遠愿景：未來某一天，神經(jīng)網(wǎng)絡(luò)會變成主進程，CPU反過來淪為協(xié)處理器。

但就算這條路真的走通，導(dǎo)演的位置也不會消失。因為幽靈永遠不會替你想清楚，你到底要什么。那些不能外包的部分，就是你的位置。

參考資料：

https://x.com/karpathy/status/2049903821095354523

https://www.youtube.com/watch?v=96jN2OCOfLs

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.