![]()
“如果你在讀博士,別去研究LLM。毫無意義。你做不出什么貢獻。”
編譯 | 王啟隆
出品丨AI 科技大本營(ID:rgznai100)
今年年初,圖靈獎得主、深度學習先驅楊立昆(Yann LeCun)做出了最決絕的選擇。在一手締造了 Meta FAIR 實驗室的輝煌后,他選擇剝離巨頭光環,創立了專注“世界模型”的新陣地——AMI Labs。此后他在很多公開場合都分享了大大小小的 Meta AI 內幕,包括離開的原因、和華人小將 Alex Wang 的“宮斗”以及未來的計劃等等。
在五月份最新的這場萬字深度對話中,楊立昆系統性地闡述了他的“逆行”邏輯,并以前所未有的坦誠,對當前 AI 生態拋出了極具穿透力的底層剖析:如果今天幾乎所有大公司都在押注同一種技術范式,而這套范式又已經肉眼可見地開始撞上邊界,那么下一步到底在哪里?
![]()
過去兩年,大語言模型幾乎重寫了整個 AI 行業的敘事。它讓代碼生成、數學推理、內容生產、搜索和 Agent 重新變成一門顯學,也讓 OpenAI、Anthropic、Google、Meta 這些公司被拖進一場越來越重的軍備競賽里。但與此同時,另一組現實也開始變得越來越刺眼,高質量公共語料在枯竭,模型越來越貴,閉源越來越重,整個硅谷越來越像在同一條戰壕里做同一件事。
楊立昆最不買賬的,就是這條路線被過度神化這件事。
以下為本次極具思想密度的對談實錄精校版:
要點速覽
LLM 是“有用的產品”,但不是通往人類級智能的道路。原因不在于它不夠強,而在于它缺乏預測行動后果、形成計劃和建模真實世界的能力。
主流 LLM 路線最大的問題,不只是貴,而是天然更適合語言、代碼、數學這些符號系統,不適合處理高維、連續、充滿噪聲的真實物理世界。
硅谷正在出現明顯的羊群效應,幾乎所有公司都在追同一條路線,而高質量公共數據的枯竭、訓練成本的暴漲和閉源加劇,都在讓這條路的邊界越來越清晰。
楊立昆承認對 Llama 沒有技術貢獻,真正推動的是 Llama 2 的開源;而他離開的深層原因,則是 Meta 已不再適合推進 JEPA 和世界模型這類長期研究。
研究、開發和產品之間本來應該有連續的接力機制,但當短期 KPI 和競爭壓力壓下來以后,探索性研究往往會最先失去優先級。
Tapestry 項目這套構想試圖為美國和中國之外的國家提供另一種 AI 主權路徑,通過聯邦式協作訓練開放基礎模型,再讓不同文化、語言和價值體系在其上做本地化微調。
![]()
LLM 并非通向人類智能的道路
主持人:楊,這真是我的榮幸。您是AI界的教父之一。我覺得幾年前我剛開始做這個播客時,就一直盼著有一天能邀請到像您這樣的人物。
楊立昆:我不太喜歡“教父”這個詞,因為我住在新澤西。在新澤西,當你被稱為“教父”時,那可不是同一個意思。(注:暗指黑手黨)
主持人:說得很對。顯然,當年在所有人都對神經網絡持懷疑態度時,您依然選擇押注于此,這本身就是一個傳奇。我覺得今天您在很多方面也做出了類似的押注——您在逆勢看衰LLM和許多人深信不疑的主流生成式架構。最近,您圍繞這個主題創立了一家新公司。我們今天對話的目標,是讓聽眾對AMI這家公司、你們在做的事情、您在Tapestry項目上的工作有更多的了解;探討為什么您認為該領域的其他人對生成式模型的方向走偏了;同時,也聽聽您對該領域發展歷程以及您在Meta時光的回顧。對于單集播客來說,這算是些“微小”的目標吧。
我想最好直接切入正題,因為這家公司似乎是您未來技術理念最清晰的宣言。您最近創辦了這家專注于世界模型和擴展JEPA(聯合嵌入預測架構)的公司,而JEPA顯然是您在Meta時開創的。我想請您談談這個架構的起源,以及它在多大程度上是從人類大腦及其運作方式中汲取了靈感?
楊立昆:首先,我想聲明,LLM本身并沒有什么問題。從某種意義上說,LLM是我們所有人(包括我)都在使用的大量非常實用的AI產品的基礎。在它們擅長的領域,它們表現得非常出色。我只是說,它們并非通向人類級別或類人智能的路徑,甚至連動物級別的智能都達不到。這就是我的主張。我不是說它們毫無用處,我只是說它們不是通向人類智能的道路。
主持人:畢竟,您也參與構建了一些最早的主流開源LLM,對吧?
楊立昆:絕對是的。那么,AMI是什么?AMI代表“高級機器智能”(Advanced Machine Intelligence),它的副標題,或者說座右銘,是“為真實世界打造的AI”。基本上,人們今天所熟知的許多AI技術都擅長處理語言操作。無論是人類語言、計算機代碼、數學,還是法律術語——雖然法律術語勉強算得上人類語言。
語言在某種程度上是非常特殊的,它特別適合最近大獲成功的這類架構,也就是大型語言模型、GPT風格的架構。但是真實世界呢?理解物理世界又該怎么做?事實證明,現實比語言要復雜得多,因為它是高維的、連續的、充滿噪音且雜亂無章的。
訓練一個系統去理解真實世界要困難得多。這正是我們正在追求的目標。這也是我職業生涯大部分時間都在追求的東西,并且在過去五六年里加速推進,在過去兩年里取得了重大進展。因此,圍繞它創辦一家初創公司,并全力以赴地推動它,是順理成章的。到了去年年底,情況變得很明顯:Meta確實不再是推進這件事的合適地點。這就是我離開并創立AMI Labs的原因。
主持人:我認為我們在整個行業都看到了一個有趣的趨勢:許多人從大公司或研究實驗室分離出來,去追求他們特別看好的某個研究方向。通過您在FAIR的經歷,您對這種現象有著非常獨特的觀察視角。在這些公司里,似乎存在著一種張力:一邊是“去探索盡可能多的不同研究方向”,另一邊是“嘿,有個東西真的很奏效,這是我們未來6到12個月要賣的產品,去專注于那個”。我很好奇您對這種現象的看法,以及您在整個行業中觀察到了什么。
楊立昆:這是一種很奇怪的權衡。研發實際上有兩種模式。一種是大量的探索性研究,包含許多不同的研究方向。而有時候,某個東西似乎奏效了,你需要進一步推動它,這時它就不再是純粹的研究了。從事這項工作的人可能還被稱為研究員,或者至少在新聞報道中被稱為研究員,但實際上它變得更偏向于工程化,是為了推動產品落地。
這種情況在Meta發生過好幾次,起因都是FAIR發起的項目。在2023年初就發生了這樣的事,當時在FAIR開發的Llama 1非常有前景。于是Meta創建了一個完整的組織——GenAI(生成式AI部門),來把它變成真正的東西和一系列產品,并推出了Llama 2、Llama 3以及令人有些失望的Llama 4。因為馬克·扎克伯格(Mark Zuckerberg)對它感到失望,他有點像重啟了整個組織,進行了重組,雇傭了新人等等。
但在過去一年里還發生了一件事,公司意識到自己有點落后了,所以將戰略重心重新集中在試圖追趕行業步伐上。這帶來的一個令人遺憾的副作用是,許多探索性研究基本上不再被賦予高優先級。這其實并沒有影響我正在從事的工作——也就是所有關于JEPA和世界模型的研究,因為馬克本人、首席技術官博茲(Boz Bosworth)以及公司里的其他一些人都對這個項目非常感興趣,并真正相信它的長期影響力。但公司的其他部門完全將注意力集中在LLM上,并向我明確表示,Meta真的不再是繼續推進那個項目的合適場所了。
就在那時,我們開始取得很好的成果,我們清楚地意識到,必須完成從研究到實際開發技術、擴大規模并將其轉化為產品的過渡。我們也意識到,我們所從事的這種技術的應用場景,大多是Meta并不特別感興趣的領域。這類技術的很多應用都在工業界,比如制造業之類的地方。
主持人:顯然,您正在追求世界模型。我覺得還有其他人從更偏向生成式的角度來切入世界模型領域。比如谷歌團隊在Genie和視頻模型上的工作;還有在機器人領域構建VLA(視覺-語言-動作模型)的人;以及李飛飛團隊在3D空間模型上的探索。當您審視那些讓您對JEPA模型感到興奮的證據,并將其與生成式流派所做的工作進行比較時,您認為在對比這些架構和方法方面,我們今天處于什么位置?
楊立昆:“世界模型”現在正迅速成為一個流行詞,在研究界肯定是這樣,在工業界也在一定程度上如此。如果你愿意這么分的話,這里面有兩個陣營。我不想談論VLA,因為現在人們已經清楚地看到VLA走進了死胡同。它真的行不通。VLA指的是視覺-語言-動作模型。基本上,就是利用LLM技術來訓練一個系統,使其產生控制機器人的動作。你有視覺輸入、語言輸入、動作輸出,也許還有語言輸出。這現在幾乎被視為一種失敗。它不夠可靠,需要太多的訓練數據,諸如此類。
然后就是世界模型。什么是世界模型?從非常宏觀的層面來說,世界模型是讓一個具身智能系統能夠預見自身行動后果的東西。預測自己行動的后果。在我看來,我無法想象你怎么能去構建一個智能系統,而這個系統卻不具備預測自身行動后果的能力。這是極其基礎的。
當我們在世界上行動時,我們具備這種能力。當我們不考慮后果就采取行動時,我們是在冒很大的風險。很多時候,別人會覺得我們是個白癡。在目前的國際政治舞臺上,我們有大量這樣的例子——有些人完全喪失了預測自身行動后果的能力。
所以這就是世界模型。它僅僅是預測你自己行動后果的能力。如果你擁有這種能力,你就可以規劃一系列行動來完成一項任務,實現一個目標。你通過規劃、推理,通過搜索和優化的過程來做到這一點。你不是通過自回歸地預測一個接一個的動作來做這件事的。你是通過搜索一系列能夠完成你設定任務的動作來實現的。
這套藍圖與LLM目前能做的事情截然不同。LLM不具備預測其行動后果的能力,它們也不具備任何規劃能力,因為它們的推理方式僅僅是預測下一個標記(token)。這不是通過搜索來實現的。
就在這幾點上,你看到了我認為構成智能行為所必需的兩個特征:預測行動后果的能力,以及通過優化、搜索來進行規劃,從而找到能夠產生正確結果的良好行動序列的能力。
然后還有第三個特征,那就是你如何預測行動的后果?如果我面前有一個打開的、沒蓋蓋子的水瓶。如果我推它的底部,它會在桌子上滑動。如果我推靠近頂部的地方,它很可能會翻倒。我們無法精確預測瓶子會怎么倒,倒向哪個方向。我們無法精確預測它會怎么滑動,水會怎么灑出來,桌子是不是往一邊傾斜導致水流向某個特定方向。我們絕不可能在像素級別上預測這些。因此,我們對世界的心智模型是在一個抽象的表征層面上進行預測的。
AI 開發者計劃開放申請,免費領 50 小時云算力券
支持主流 AI 框架與模型部署
![]()
預測像素注定是一場敗局
主持人:當您在研發這種架構時,它在很大程度上是受到了人類大腦的啟發嗎?顯然,您闡述這些事物的方式正是我們人類做事的方式。
楊立昆:至少受到了認知科學的啟發。至于你是否能將這轉化為一種神經網絡架構,中間還有巨大的鴻溝。認知科學算是一個動機。心理學家所說的“系統2”(System 2),即這種深思熟慮、反思性行為的理念,是指你確實會想象并預測你行動的后果,然后據此進行規劃,這與你僅僅依靠反應和本能行事的“系統1”截然相反。
所以,是的,這里面有啟發,但同時也有大量的經驗證據表明,你根本不想去生成像素。很長一段時間以來,我一直對“通過預測來學習世界模型”這個問題非常感興趣。大約五年前,我頓悟了,我意識到所有成功學習圖像和視頻表征的架構都是非生成式的架構,而所有生成式的架構基本上都失敗了。
比如VAE(變分自編碼器),或者更廣泛的自編碼器。這是一種思考學習輸入抽象表征的自然方式。你把一張圖片放到神經網絡的輸入端,然后訓練它在輸出端重現這個輸入。現在,如果你用一個大型神經網絡就這樣做,你的神經網絡不會做任何有趣的事情。它只會學到一個恒等函數。完全沒有意義。行不通。如果你訓練一個VAE來學習圖像的表征,你會得到一些東西,但真的沒那么好。稀疏自編碼器也是如此。
然后你還有另一套技術,是從一種叫做去噪自編碼器的東西衍生出來的。掩碼自編碼器(MAE)就是它的一個版本。在自然語言處理領域,BERT也是它的一個版本。你拿一張圖片,以某種方式破壞它,然后訓練這個大型神經網絡去恢復原始圖片。FAIR曾經有一個關于這個的巨大項目,就叫MAE。結果非常令人失望。耗費了大量的計算資源,卻沒有得到真正出色、令人滿意的結果。
與此同時,一些參與MAE項目的人,以及巴黎和紐約的其他一些人,正在研究使用非生成式架構、聯合嵌入架構的其他技術。拿一張圖片,以某種方式破壞它,讓這兩張圖片通過編碼器,然后試圖用一個預測器,從被破壞圖片的表征中去預測原始圖片的表征。這就是JEPA。
主持人:明白了。
楊立昆:JEPA的意思是聯合嵌入預測架構(Joint Embedding Predictive Architecture)。你有一個編碼器進行一次觀察,另一個編碼器進行另一次不同的觀察。你試圖用一個預測器從第二個編碼器的表征中預測第一個編碼器的表征。事實證明,這些技術在表征圖像和視頻方面,比預測像素要有效得多。比如DINO,DINOv1、v2、v3,這是一個在巴黎FAIR仍在進行的項目,還有像I-JEPA,以及后來的V-JEPA等項目。在此之前,還有SimCLR和MoCo,以及一大批大多來自Meta的不同技術。其他團隊也提出了一些技術。但事實證明,這是比預測像素更好的學習圖像表征的方法。
所以,不僅是我,很多人都恍然大悟:這才是正確的道路,而預測像素注定是一場敗局。
主持人:感覺現在一些大模型公司發布了各種機器人演示,看起來越來越令人驚嘆。它們似乎展現出了類似規劃和推理的能力,即便它們以前沒有見過某個房間或某個特定版本的任務,仍然能夠執行該任務。對于那些觀看了這些演示并覺得“啊,感覺生成式方法正在取得真正進展”的聽眾,您會怎么說?
楊立昆:確實有真正的進展,其中一些演示真的令人印象深刻。但它們是用大量數據訓練出來的,這些數據要么是從實際操作中收集的,要么只是人類用手中拿著的類似機械爪的東西做動作收集來的。或者僅僅是追蹤人的手和手指,然后將其轉化為機器人的指令。這些系統主要是通過模仿學習(imitation learning)訓練出來的,并在模擬環境中使用了一點強化學習來進行微調。
這種方法的問題在于,你需要大量的數據來通過模仿訓練這些系統,這變得非常昂貴。而且它有點脆弱,這意味著你需要為你希望機器人解決的每一項任務收集大量數據。相比之下,如果系統擁有一個世界模型,能夠讓它預測行動的結果,它就可以直接規劃行動來解決新任務,而實際上無需專門針對完成這項任務進行訓練。
基于世界模型的系統所能達到的泛化程度要大得多,它能覆蓋更廣泛的任務,且所需訓練數據比使用模仿學習和微調訓練的系統要少。
主持人:毫無疑問,那些方法需要更多數據,而泛化性問題確實是最大的懸念。有些人展示了“在任務A上變得更好有助于完成任務B”的結果,但這顯然仍然是圍繞這些架構的巨大未解之謎。
楊立昆:你確實會在任務之間獲得這種協同效應。你訓練系統解決的任務越多,它用少量數據就能掌握的任務也就越多,無論你使用什么技術。但世界模型的希望在于,系統可以零樣本(zero-shot)地解決它們,這是人類完全有能力做到的,許多動物也是如此。這才是真正的希望所在。用很少的訓練數據甚至根本不需要訓練數據,只需一點點類似強化學習的微調,就能解決更多的問題。
為什么一個17歲的孩子能在十幾或二十個小時內學會開車?我們擁有數百萬小時人類駕駛汽車的訓練數據,卻依然沒有實現L5級別的自動駕駛汽車。顯然,即便是對于自動駕駛這項任務,模仿學習也是行不通的。
主持人:我猜這將是一場競賽:一邊是開發這些能力(可能需要時間和大量數據),另一邊是您說的這種新架構。我覺得現在有一種愿景,就是利用視頻模型為模擬環境生成海量的合成數據,即便它并不完美,但從物理學的角度來看,這些視頻模型足以幫助改進機器人和底層的物理世界。您如何看待這些方法?顯然,視頻一直是那里的重點。谷歌似乎正在走這條路。
楊立昆:我又要問這個問題了:為什么一個17歲的孩子能在20小時內學會開車?你不需要數百萬小時的示范,也不需要合成數據。你完全不需要這些。我想要一個學習速度能像那樣快的系統。如果我們破解了這個難題,那我們就不需要生成數據了。我們可能需要在模擬環境中訓練系統,但不需要當前系統所需的那么多時間或嘗試次數。這本質上是一個數據效率的問題。
主持人:我曾在播客中采訪過杰瑞·特沃雷克(Jerry Tworek),當時他剛離開OpenAI創立自己的實驗室。你能感覺到一種類似的張力,我覺得他甚至可能同意,如果你繼續按照我們現在的方式擴展強化學習(RL),你會繼續得到非常令人印象深刻的結果。但我認為他覺得,“天哪,一定有比這高效得多的方法。”這是一種有趣的張力,因為你可以想象,如果你是OpenAI,并且你知道某件事會繼續擴展并變得越來越好,那么從商業角度來看,你并沒有太大的動力去尋找數據效率更高的方法。
楊立昆:沒錯。其他公司也沒有動力去做任何不同的事情,因為他們都在追逐同一個目標。他們承受不起落后于其他人的代價。所以他們都在做同樣的事情。這有點像硅谷的羊群效應,每個人都在挖同一條戰壕。
所以我特意把AMI Labs的總部設在了巴黎。美國的辦公室設在紐約,而不是硅谷。
主持人:這真的很有趣,因為它指出了當今更廣泛生態系統中存在的一種張力。你可以想象另一方的觀點是:“當然,也許存在數據效率更高的方法,但那又怎樣呢?既然我們可以通過不斷擴展現有的東西來獲得越來越好的結果。”而且顯然,無論是從這些模型能實現的新功能,還是作為一個研究員發現新事物的樂趣來看,我完全理解為什么這些現有架構同樣具有如此大的吸引力。
楊立昆:這是一場押注,但我們非常自信,因為我們已經有成果了。
主持人:當您思考AMI技術最初最讓您興奮的應用領域時,您認為這項技術會走向何方,您最期待什么?
楊立昆:為真實世界打造的AI。你的家用機器人在哪?你的L5級別自動駕駛汽車在哪?
主持人:我什么時候能擁有一個家用機器人?我對此非常期待。
楊立昆:那還得是幾年后的事了。盡管有大量的公司在制造機器人,但這些公司中沒有一家真正知道如何讓它們變得足夠聰明以至于實用,或者說讓人放心把它放在有嬰兒的家里之類的。絕對做不到。甚至對于相對狹窄的制造任務,除了通過模仿學習解決少數任務外,他們中也沒有人真正知道如何可靠地做到這一點。
我們如何讓這些東西變得有用?這是一個相對長期的目標。在短期內,工業界有海量的應用場景,你需要一個智能系統,它有能力預測“如果我改變這個復雜系統上的某個控制變量,會發生什么”。無論是一臺噴氣式發動機、一個化工廠、一個發電廠、一條生產線、一個病人,還是一個人類細胞。這些系統都極其復雜,你無法用少數幾個方程式來模擬它們的行為。
傳統的建模方式行不通。你需要做的是訓練一個神經網絡,一個深度學習系統,從數據中模擬該系統的動態過程。你最終得到的是該過程、該系統的一個唯象模型(phenomenological model)。如果它是以動作為條件的,那么你基本上就得到了該系統的一個世界模型,它能讓你為了你的任何目的對其進行最優控制。我認為這在工業界的潛在應用數量是令人震驚的。
主持人:您認為在接下來的幾年里,JEPA模型會發展到什么程度?有什么您可以指出的里程碑嗎,或者您如何看待這里的發展路徑?
楊立昆:幾年有點短。五年吧,基本實現對世界的完全統治。
主持人:好的,所以在通往五年統治世界的路上。
楊立昆:這顯然是個玩笑,但這是引用了林納斯·托瓦茲(Linus Torvalds)的一句話。當人們問他“你做Linux的目標是什么?”時,他說,“完全統治世界。”而他實際上做到了。
主持人:說得極是。
楊立昆:粗略地說,世界上幾乎每臺計算機都在運行Linux。所以這算是個玩笑,但歸根結底,我認為這是未來智能系統的藍圖。LLM仍然會有其一席之地,基本上是作為語言接口。但我們正在設計的是能夠思考的系統。它們最初可能不會說話或傾聽,但它們會進行思考,然后你可以在此基礎上加上說話和傾聽的功能。
主持人:我相信您和團隊正急切地努力獲取早期的證明點,顯然你們已經在所做的工作中取得了一些成果。您如何設想在通往“五年統治世界”的道路上,你們能夠展示哪些過渡性的成果?
楊立昆:在一年左右的時間里,我們將擁有一套通用的方法論,可以在非常廣泛的模態上訓練分層模型。我們知道我們在視頻方面可以做得很好,雖然目前使用的一些技術我們還不完全滿意,因為它們存在一些缺陷,但我們已經有了小規模的演示,證明這種方法論正是我們想要的。我們需要擴大它的規模,讓它在視頻等任務上達到與那些不那么令人滿意的技術相同的性能水平,同時也應用于我們將從工業界合作伙伴那里獲得的其他類型的數據集。
我們將展示我們能夠訓練世界模型,也許是以動作為條件的世界模型,讓我們能夠針對許多不同的用例進行規劃。其中一些將是機器人技術,一些將是各種類型的工業過程控制。也許還有一些在醫療保健領域,因為我們在該領域有合作伙伴。這應該在一年到18個月內實現。然后,我們將與合作伙伴(其中一些已經是我們公司的投資者)一起,將這種方法論和這些模型推向這些實際用例中,并積累如何構建一個某種程度上通用的世界模型的經驗。
主持人:顯然,您以前就有過這種經歷:對神經網絡做出了極具爭議的逆勢押注,并在歷史書上被證明是絕對正確的。當您思考這次的押注時——如果您去和AI各個前沿領域的大多數人交談,他們會說這在今天依然是逆勢而為的。您認為需要多長時間,人們才會清楚地認識到您是對的?
楊立昆:我認為這發生的速度會比預期的要快。也許因為你可以看到,“世界模型”已經成為一個流行詞,至少在研究層面是這樣,而且它開始滲透到工業界。很多人意識到VLA很糟糕,而LLM在處理真實世界數據時行不通。工業界已經意識到了這一點,至少在用戶端是這樣。而且由于機器人行業的重要性,很多人都在試圖弄清楚,“我們該怎么達到目標?你怎么讓這些機器人變得有用?”
我認為,人們對于“需要改變范式”的認知正在發生,到2027年初,這將對人們來說變得完全顯而易見。當然,這并不意味著到那時我們就會有一個完美的解決方案。我們希望能有,但我們拭目以待。
![]()
今天的OpenAI就是昨天的Sun Microsystems
主持人:轉換話題到LLM這邊,您提到了您在Tapestry上做的一些工作,我覺得這對我們的聽眾來說會非常有趣。所以也許可以談談這個。
楊立昆:這與AMI Labs的事情有點不沾邊。
主持人:就好像光是AMI還不夠讓您忙的一樣。
楊立昆:這是我在過去三年左右形成的一個想法。人們越來越多地使用AI助手來做各種事情。你會看到傳統搜索引擎的使用量在下降,你只需向你最喜歡的AI助手提問即可。如果Meta和其他公司開發的智能設備(如智能眼鏡等)的計劃得以實現,基本上你只需通過語音、通過你的智能眼鏡或其他智能設備與你的AI助手交談。你所有的信息攝取都將由AI助手作為中介。
如果你是世界上某個地方的人,假設在美國或中國之外,你有一個AI助手,而那個AI助手是在加州、北京、上海或深圳制造的,這對你來說并不好。你說的語言,這些系統可能并沒有受過特別好的訓練去處理。你的文化,硅谷和中國的人可能并不特別了解,互聯網上公開可用的訓練數據也不能很好地代表它。你的價值體系,絕對不代表構建這些模型的人的價值體系。而且可以肯定的是,你幾乎肯定會有一些政治觀點,是你從西海岸科技公司或中國公司那里能得到的少數幾個AI助手絕對無法代表的。
那么解決辦法是什么?你如何為一個印度的農民,甚至一個法國或德國的哲學家提供服務?你需要的是一個平臺,它基本上是一個開放的、免費的、類似LLM風格的基礎模型,任何人都可以對其進行微調,以迎合說特定語言、擁有特定文化、特定價值體系、政治偏見、信仰或任何特征的人群的興趣。
你需要具有廣泛多樣性的AI助手。世界上有很多既不是美國也不是中國的國家,他們絕對希望獲得某種程度的AI主權,不僅是為了他們的工業,也是為了他們的公民。他們不希望自己的公民被中國模型或加州模型洗腦。所以他們想要主權。
你如何獲得這個?你讓這樣一個開放平臺達到最前沿水平的方法,就是用比專有系統更多、質量更高的數據來訓練它。如果你和印度、法國、越南、摩洛哥、瑞士、韓國、日本、哈薩克斯坦的人交談,每個人基本上都想要主權。你告訴他們,“你們在本地訓練你們的模型,你們不需要分享你們的數據。”
所以這就是Tapestry的核心環節。Tapestry的國際貢獻者將共同訓練一個全球模型,該模型基本上將構成全人類知識和文化的寶庫。但貢獻者提供的是數據和計算資源,同時他們將保留對自身數據的控制權。他們不需要與其他貢獻者共享數據。
他們貢獻的是參數向量。這將是一種類似聯邦學習的模式:你有很多數據中心,它們從一個模型的全球共識中獲取參數向量。你可以把它想象成所有貢獻者參數向量的平均值。所有的貢獻者定期通過可能是中央服務器的方式告訴其他人:“這是我的參數向量,你的是什么?”你們像這樣交換參數向量,一個本地工作節點基本上在每次更新它的參數向量時,也會試圖讓它盡可能接近全球共識向量。
隨著這個系統訓練的推進,所有這些參數向量本質上會收斂到一個共識模型,這是一個全人類知識的寶庫。現在你有了一個開放模型,它就像是在世界上所有數據上訓練過一樣優秀,現在你可以為了你自己的目的,為了你自己的政治、文化和語言偏見,或者你關心的焦點,對它進行微調。
我認為有一股自然的力量在推動這件事發生,因為大多數既不是美國也不是中國的國家都想要主權,但也因為AI正在迅速成為一個平臺,而平臺有一種走向開放的自然趨勢。這就是Linux發生的事情,也是互聯網軟件基礎設施或無線網絡發生的事情。它們都是開源的。最初它們是專有的,但這完全被抹平了。
主持人:這是一種繞過開源減少趨勢的非常巧妙的方法。顯然,很多人擔心隨著閉源模型變得更好,它們會被保留在內部,用于訓練下一代模型,閉源模型將出現一種“逃逸”現象,它們會比開源對手好得多。
楊立昆:回想一下1996年互聯網基礎設施的巨頭是誰。Sun Microsystems、惠普、戴爾和其他幾家。Sun Microsystems向你推銷他們的專有硬件和Solaris系統,惠普推銷HP-UX。他們聲稱:“Unix比Windows可靠得多。你不可能在Windows上運行網絡服務器。” 戴爾用Windows NT做同樣的事,但現在誰還在用Windows NT作為網絡服務器?
所有這一切都被Linux徹底抹平了。整個互聯網都運行在Linux上。甚至Azure,甚至微軟,都在運行Linux。
所以今天的OpenAI、Anthropic等,就是昨天的Sun Microsystems和HP-UX。
主持人:我想這其中暗含了您對這些模型能力局限性的看法。它們只能變得這么好,所以隨著時間的推移,開源陣營是有可能趕上的。
楊立昆:它們的數據已經耗盡了。公開可用的、互聯網上的文本數據已經全被用光了。沒有更多了。所以那些公司正在做的是授權商業版權數據,或者在合成數據上進行訓練。
主持人:我很好奇,因為顯然在過去幾年里,他們在這些大規模預訓練之后,確實能夠推動一些令人印象深刻的結果。像IMO(國際數學奧林匹克)金牌水平,MMLU和MATH的基準測試成績一直在上升。
楊立昆:好,這非常有趣。現在想想那兩個領域。數學和代碼。在這兩個領域,語言本身就是推理的底層基石。它不是推理的唯一基石,但當你在紙上用正式的方式做數學,而不是憑直覺的時候,你是在操縱語言。LLM非常擅長這個。證明定理之類的事情,這就是LLM真正擅長的。
但它們不太擅長提出好的概念和定義之類的東西。它們更像是:“這是一個問題,解決它。”它們是問題解決者。數學不僅僅是解決問題。它的大部分實際上是一種創造性的行為,而那些東西做不到。
代碼也是如此。LLM是優秀的程序員。它們不是軟件架構師。它們不是計算機科學家。但它們可以為我們編程。所以它們還沒有達到可以完全取代人類的狀態。它改變了人類的世界。人類現在在抽象層級上往上走了一層,我們的角色是決定要構建什么。但在構建它時,你可以從LLM那里獲得幫助。
重要的一點是,LLM在語言本身就是推理底層基石的領域特別成功,但在其他任何領域并非如此。
主持人:LLM需要做到什么才能讓您改變看法?
楊立昆:一個零樣本(zero-shot)的具身智能系統。你有一個智能體系統,給它一個新問題。它沒有受過解決那個特定問題的訓練,沒有現成的腳本。它能完成這個它從未被訓練去解決的任務嗎?除非這個系統有能力預測其行動的后果,然后利用這一點進行規劃,否則它無法做到。而且你不可能用一個LLM來做到這一點。你也許可以通過一個大幅增強的、能夠進行搜索和規劃的LLM來做到。
目前,做數學和代碼的LLM實際上就在做這個。因為它們在搜索能夠實際完成特定任務的標記(token)序列,而且它們可以運行代碼或驗證證明是否正確。所以你有一種方法來檢查產生的東西是否正確。但那不是一種非常高效的規劃方式,而且它只在可以在標記空間中執行這種搜索的領域有效。我所說的JEPA,你不是在標記空間中做這個。你是在抽象的思維空間中做這個。
主持人:我相信有些聽眾可能會想:“就算它效率低下但只要管用,而且在標記空間中完成的事情管用,那依然占據了經濟的很大一部分。”
楊立昆:如果它管用,那就沒問題。重申一遍,把它們用在它們擅長的地方完全沒問題。只是它不是通向人類智能的道路。你遺漏了一個巨大的領域。
主持人:聽起來您的觀點是,“嘿,它在成為軟件架構師之前就會觸及天花板。”但我相信它不會就此停滯。
楊立昆:只是它在部署到越來越多用例時的能力將受到限制,因為你必須為每一個用例收集大量的訓練數據。你無法讓這些系統變得完全可靠,無法消除幻覺或危險行為,除非這些系統具備預測自身行動后果的能力,這意味著它們必須擁有顯式的世界模型。
![]()
我沒有改變看法,是他們改變了看法
主持人:我覺得,質疑它們能達到100%的準確率,以及跨不同任務的泛化能力,是合理的。這個領域發展歷程中非常有趣的一點是,您和另外兩位學者分享了圖靈獎,而我感覺他們似乎對LLM的力量、潛在威脅或長期安全風險要確信得多。我很好奇,您的觀點是從什么時候開始出現分歧的?
楊立昆:在2023年。
主持人:是什么促使您產生了這種想法?
楊立昆:我沒有改變看法。是他們改變了看法。而且幾乎是在同一時間,基本上是因為GPT-4。杰夫(Geoff Hinton)基本上沒有接觸過那些東西。他從未真正對LLM感興趣,而在2023年GPT-4問世時發現了它,并基本上產生了一種頓悟,他說:“天哪,這些系統真的非常接近人類級別的智能,可能它們擁有主觀體驗。”
他做了一個快速的計算,說:“好吧,人類大腦皮層大約有160億個神經元。如果你想做類似反向傳播的事情——當然,大腦并不直接做反向傳播,但如果它做了類似反向傳播的事情,比如某種目標函數的某種梯度估計,你可能需要幾個神經元組成的回路來重現神經網絡中一個虛擬神經元的功能。假設你需要一個由10個實際神經元組成的回路來重現一個反向傳播神經元所做的事情。那么突然之間,你的大腦皮層就只相當于16億個神經元了。天哪,GPT-4真的非常接近這個規模。所以也許它會變得和人類一樣聰明。”
我完全不相信這個說法。這有點像是杰夫在說:“好吧,基本上我可以退休了。我可以宣布勝利了。我整個職業生涯都在尋找大腦皮層的學習算法。也許我沒有發現它到底是什么,但反向傳播似乎是它的一個很好的替代品,而且效果非常好,所以也許這就是我們所需要的。所以我可以退休了,去世界各地發表演講,談論AI的潛在前景和危險。”
我認為這基本上就是他的思想軌跡。他現在對潛在危險的表態比一兩年前要溫和得多了。他有點意識到,這可能是一種設計真正智能系統的方法。首先,他可能意識到目前的LLM并沒有那么聰明。其次,在達到類人智能之前,可能還需要幾個概念上的突破。第三,那些系統的藍圖將與LLM截然不同,而且我們可能有辦法讓它們變得可控之類的事情。
這些話我已經說了很多年了,但好吧,他(Hinton)算是最近才發現這一點。
約書亞(Yoshua Bengio)也有類似的情況。我認為他們倆都擔心的是社會和政治系統確保AI的利益最大化的能力,防止AI僅僅讓少數富人變得更富,加劇不平等,并因為被惡意使用而導致重大災難。
這不是AI接管世界的末日論調。它更多的是關于糟糕的使用者,這在今天的LLM看來是可能的。這確實是一種危險,但我并不認為它像某些人聲稱的那樣具有末日色彩。肯定不像Anthropic聲稱的那樣極具末日色彩,他們甚至試圖游說政府,恐嚇政府去監管AI。我完全不認同這一點。
主持人:他們似乎真的相信這一點。
楊立昆:我認為他們是真的相信,但同時我也認為,他們有某種商業上的好理由去相信這一點,并給一些人和政府洗腦,讓他們認為自己的系統很危險。
主持人:聽起來,對于這些新架構,盡管您極度不看好LLM會成為一切的終局,但您對這些新架構的時間表也有著相當雄心勃勃的預期。聽起來您認為我們距離一些非常引人注目的能力并不遙遠。如果這些突破最終來自于較新的架構,您如何看待圍繞它們的安全性問題?這是否應該讓我們睡得更踏實?
楊立昆:我要說一些可能又會引起爭議的話,我Meta的一些同事肯定不喜歡我這么說,但我認為LLM本質上是不安全的(intrinsically unsafe)。我認為它們無法變得可靠和安全。它們無法變得可靠,因為你無法阻止它們產生幻覺。如果它們具有智能體屬性(agentic),你無法保證它們不會采取它們沒有預測到結果的行動。
主持人:鑒于人們對可靠性的擔憂,它們能完成15小時的編碼測試,這讓您感到驚訝嗎?
楊立昆:編碼是你實際上可以驗證生成的代碼是否符合你設定規范的事情。但并非所有事情都是編碼,也有編碼智能體清空了你的硬盤的例子。或者做了一些愚蠢的事情,讓你損失了大量的金錢或數據什么的。
我認為LLM在目前的形式下本質上是不安全的,因為它們無法預測自己行動的后果,而且因為它們完成任務的方式是由它們的訓練決定的。你給它們一個提示詞,它們就會完成與該提示詞對應的任務,但前提是它們的訓練已經條件化它們去實際執行與該提示詞對應的正確任務。但是沒有硬性約束能迫使它們完成這項任務,然后預測該任務會被妥善完成。
主持人:我想在早期,經常有這樣的笑話:你問它們一個問題,它們就會一直重復問這個問題。
楊立昆:是的。比如這個。或者它們也沒有常識。一個月前流傳著一個笑話:“我需要洗車,洗車店離我家100碼。我應該走著去嗎?”大概兩周前我又試了一次。它們都說“是的,你應該走著去”,除了Gemini。Gemini說……
主持人:所以它們是用您以前講過這個段子的視頻訓練的。
楊立昆:那不是我的視頻,因為這不是我想出來的。不知道是誰想出來的。但有幾次我說一個LLM做不到某件事,然后六個月后它就能做到了。這僅僅是因為一旦人們看了我說LLM做不到這件事的播客,他們當然會把它輸入ChatGPT。所以現在它成了訓練集的一部分。當然,下一個版本的微調集里就有了那個東西。它當然能回答這個問題,但這并不是因為它突然變聰明了。只是因為它被專門用那個問題訓練過。
所以LLM本質上是不安全的。我認為在當前的范式下沒有任何辦法修復這一點。我一直提倡的是我剛才談到的架構,即目標驅動的AI(Objective-driven AI)。基本上,你給一個AI系統設定一個目標,即“完成這項任務”。那么系統怎么知道它將完成這項任務呢?它有一個世界模型,它預測自己想象中采取的一系列行動的結果。如果這個結果滿足了一個成本函數(該函數描述了任務在多大程度上被完成或未被完成),那么如果系統的工作方式是通過優化——即尋找一系列能夠完成這項任務、根據其模型最小化該成本的行動——它就只能做這件事。
當然,這中間有很多環節可能會出錯。特別值得一提的是,成本函數可能不準確。可能你認為正在衡量任務完成程度的成本函數實際上并不準確。世界模型可能不準確。所以系統做出的預測實際上并不是正確的。它對自己行動后果的預測不正確。系統仍然會犯錯,但它可以在一定程度上預測其行動的后果,我認為這對于任何具身智能系統來說都是不可或缺的。
現在你可以添加到那個系統中的,不僅僅是保證任務完成的成本函數,你還可以添加一堆其他的目標函數、其他的成本函數,甚至是安全約束,比如“在執行過程中不要傷害任何人”。你不能在一個抽象層面上指定這個,但你可以有底層的目標函數,把它們放在一起,就能保證系統不會變得危險。而且系統在構造上無法違反這些東西。它必須滿足這些條件。LLM就不是這樣。LLM總是可以逃脫。你的訓練誤差和測試誤差之間總會存在差距。總會有一個提示詞讓系統做出極其愚蠢的事情。
主持人:聊聊一個關于LLM的具體領域,我想您顯然對AMI在醫療保健領域的應用非常興奮。人們一直在醫療保健領域使用LLM做各種事情。我很好奇,您如何看待在醫療保健領域中,哪些事情是LLM根本行不通的,從而需要一個更了解世界的模型?
楊立昆:比如為一種慢性病設計療程,甚至為某個特定病人設計非慢性病的療程,這些情況可能并不完全符合你以前觀察到的模板。但如果你對病人生理動力學有一個很好的心智模型,你就有可能設計出一個真正能讓病人恢復到良好狀態的療程。
當我說“一個病人”時,它可以是一個細胞。你如何告訴一個干細胞變成一個產生胰島素的胰島β細胞?對于一個1型糖尿病患者,他們的免疫系統基本上吃掉了自己的β細胞。這是一種自身免疫疾病。你如何不斷制造β細胞?你能發送信號嗎?你是否有一個人類細胞的模型,能讓你弄清楚你需要向干細胞發送什么樣的信號序列,才能讓它變成β細胞?
主持人:挺LLM派和不挺LLM派似乎總是在各說各話。我認為實際上這兩種情況都很有可能發生:一方面是LLM能做的事情,這也許是規模化頂尖醫生的能力——你在頂尖醫院得到的治療,將其推廣到全世界,如果你能做到這一點,其潛在影響力將是難以置信的;另一方面是您所說的,這在很多事情上確實還在探索階段,即“好吧,那如何比頂尖醫生做得更好?”
楊立昆:但這不僅僅是成為一個頂尖醫生的問題。LLM能做好的事情是,它可以反芻你主要在書本上能讀到的知識。但如果醫學僅僅是積累書本上存在的陳述性知識,你只要看書就能當醫生了。可是你不能光看書就當醫生。你必須做住院醫師,實際上去聽心跳、按壓肚子之類的事情,來診斷盲腸炎或其他疾病。
主持人:這很有趣。我非常好奇LLM本身是否能在全球范圍內提供高質量的醫療保健。我們以后得再回顧一下這個問題。看起來它們已經很接近了。
獲得突破性研究的最好方法,就是別去礙事
主持人:我絕對還想談談您在Meta的時光,因為您花了十多年的時間打造了世界上最受尊敬的研究實驗室之一。顯然,您最近離開了。當您回首在那里的時光時,您認為在管理FAIR期間,您做得最正確和最錯誤的事情是什么?
楊立昆:我們做對的事情是建立了一個頂尖的研究實驗室,它真正進行了創新,產出了大量的基礎方法、科學和工具,比如PyTorch,這些對整個行業都很有用。除了谷歌的少數人之外,整個行業基本上都是建立在PyTorch之上的。我認為還有一種開放和遵循科學過程的文化,我認為這對于突破性創新是必不可少的。
因為有一整條創新鏈。你有藍天研究,產生新概念。這其中很多發生在大學里。有些發生在工業界的高級研究實驗室里,這種實驗室一只手就能數得過來。谷歌是一個很好的例子。FAIR曾經是一個很好的例子,希望未來還是,我不確定。還有其他幾個。
然后你會進入下一個階段:“這是一個好主意。讓我們推動它,看看它是否能變得實用。”但這仍然是在研究層面,意思是,“我們不會自欺欺人。我們不會試圖僅僅找一個只對這個問題有效的解決方案。我們要看看我們想象出的、或者從社區其他人那里學到的這項技術,是否真的能被推動并變得實用。”不是作為一個產品,而是說我們可以證明它在某些任務或基準測試上打破了記錄。
再下一個階段,就是主辦這個研究實驗室的公司要說:“好,現在我們要按下按鈕,將大規模的工程力量投入到這個愿景中,然后向前推進。”這正是許多項目失敗的地方。這也是許多公司未能接力的地方。Meta在這方面其實做得相當不錯,但遠非完美。它不像施樂帕克研究中心(Xerox PARC)那樣是一個完全錯過GUI界面、鼠標和視窗系統的反面教材。Meta只是錯過了一些步驟。
這部分是組織架構的問題。部分原因是,你需要一個相當貼近研究、但不完全是產品組織的機構,來接力將技術推得更遠。不是做一個有三個月期限的產品,而是推動事物發展。我們在Facebook和Meta曾經一度擁有這樣的機制。但后來我們失去了它,FAIR在公司內部基本上被孤立了。有很多想法,但沒人接手。
然后在2023年,生成式AI部門(GenAI)成立了,最初基本上是從FAIR抽調了大約60或70名科學家和工程師,然后建立起來。但隨后它承受了太大的短期壓力,以至于GenAI組織根本沒有時間與FAIR溝通。因此,GenAI沒有在LLM方面處于最前沿并進行創新,而是不得不專注于短期目標,變得非常保守。所以研究和開發之間出現了阻抗失配……
主持人:這就是Llama 4發生的情況嗎?
楊立昆:其實從Llama 3就開始了。Llama 1是2022年FAIR內部的一個小項目。2023年初,GenAI成立了。做Llama的人基本上被轉移到了GenAI。他們開始研發Llama 2,然后他們中的一群人意識到,“我可以去創業。”這就是Mistral的起源。Llama的兩位作者基本上和另一個來自谷歌的人一起創立了Mistral,還有一些人離開去做其他事情了。
因為各種原因,那在Meta并不是一段快樂的時光。所以一群人離開了,然后接手Llama 2在一定程度上還有Llama 3和4的GenAI組織,承受了太大的短期壓力,以至于他們變得非常保守。這是團隊差異、領導層壓力以及各種可能出錯的方式的結合。你不能把責任歸咎于任何特定的人。但是的,這就是大致發生的事情。
主持人:感覺現在很多這些組織顯然都面臨著短期壓力,因為正在進行一場令人難以置信的競賽。我很好奇,顯然您曾經有過FAIR這樣的建制,谷歌多年來也有類似的建制,而且肯定有很多研究人員在OpenAI和Anthropic里跑來跑去嘗試很多不同的東西。您認為這種模式在未來還有可能存在嗎?還是說離開并創辦自己的公司是唯一的出路?或者您認為在當前的競賽動態中,行業內仍然有保留FAIR最初精神的地方嗎?
楊立昆:我認為在谷歌研究部門和DeepMind里,還是有幾個地方人們真的在做研究。但整個行業日益變得更加封閉。谷歌肯定閉口不言了,Meta甚至FAIR也有點走向同樣的方向。現在對發表論文有了限制,更多的限制。所以這對那些真正想做突破性研究的人來說吸引力下降了。如果他們做一些在中期有意義的事情,他們得不到那么多資源。他們被告知不要談論它。所以我認為這種氛圍對于取得突破是不好的。它不具建設性。
基本上,獲得突破性研究的最好方法——就像我們在FAIR早期、在貝爾實驗室鼎盛時期以及施樂PARC所獲得的那樣——就是你雇傭最優秀的人,這些人有敏銳的嗅覺,知道該研究什么,該攻克什么項目。你給他們成功的資源,然后你別去礙事。原諒我的粗口。
主持人:我很好奇這最終對更廣泛的研究社區產生了什么影響。顯然,FAIR的遺產之一是您培養了如此多的研究人員,他們遍布整個生態系統。感覺現在相當于那些在職業生涯早期加入FAIR的人,他們加入的實驗室可能有著更短期的優先級和焦點。我想知道,在當前的生態系統中,許多剛進入這個領域的年輕人更多地被卷入這些短期動態中,這會改變生態系統演變的方式嗎?
楊立昆:那些傾向于想和我一起工作的人,通常是那些足夠瘋狂、敢于吃螃蟹的人。
主持人:說得好。
楊立昆:或者他們認同這樣一種理念:在學術界和攻讀博士學位期間,你應該研究下一代AI系統。你不應該研究當前一代。如果你現在在學術界研究LLM,那是極其無聊的。至少對我來說是無聊的。它基本上是在研究LLM如何以及為什么起作用,并解釋它們為什么起作用或局限性是什么。這就像是描述性科學。這真的不是很有創造性。我不覺得那特別有趣。它是有用的。但如果你真的想展示如何用LLM做新事情,你又沒有你需要的GPU。
主持人:完全同意。
楊立昆:所以忘了它吧。如果你在讀博士,別去研究LLM。毫無意義。你做不出什么貢獻。
主持人:您是怎么知道離開Meta的時機已經成熟的?聽起來您在很長一段時間里都在反復思考這些事情。有沒有一個具體的時刻讓這一切變得清晰起來?
楊立昆:這是多種因素結合的結果。首先,你必須明白,很多人對我在Facebook的角色有一個完全錯誤的認識。我是2013年底加入的,真正開始工作是在2014年初。前四年半,我是FAIR的負責人。所以我建立了FAIR這個組織,確立了文化,雇傭了關鍵人員,并管理它。四年半后,我辭去了那個職務,原因有很多,我成為了首席AI科學家。
原因是我快到60歲了,首先是58歲,我就是不想做管理工作了。為了讓組織啟動,我愿意做一段時間,但我真的不擅長這個。我更像是一個科學或技術上的遠見者、工程師和科學家。其他人在管理方面比我強得多。所以我基本上退下來了。喬爾·皮諾(Joelle Pineau)和安托萬·博爾德(Antoine Bordes)接管了FAIR的領導權,我成為了首席AI科學家。
所以我向CTO匯報,我的目標基本上是重啟一個我認為必要的科研項目,因為FAIR的雄心始終是構建智能系統。我想,你知道,我在管理FAIR的時候把自己的研究擱置了。我就是沒有時間,我認為設計人類級別、類人AI系統的架構是很重要的。
我提出了這樣一個概念:這將基于自監督學習(self-supervised learning),以及從視頻等感官信號中進行預測。我是說,這些都是老想法了,還有世界模型。實際上,我在2016年的NIPS(神經信息處理系統大會)上做了一次主題演講,我在那里說:“這是AI研究應該走的方向:世界模型、預測行動后果并進行規劃。”我說:“強化學習(RL)不會帶我們到達那里,因為它太低效了。監督學習已經顯示出了它的局限性。所以未來是自監督學習和世界模型。”
那么我們如何做自監督學習和世界模型呢?我啟動了幾個關于這個的項目,有幾條路徑沒有走通,比如一些關于視頻預測的項目。然后提出了這樣一個概念:你可以從視頻中訓練自監督學習,但你必須訓練系統在表征空間(representation space)進行預測。這就是JEPA的想法。如果你有了JEPA,你可以通過讓它以動作為條件,把它變成一個世界模型,然后你可以用它進行規劃。
我在2020年左右有了這個想法,在2022年我寫了一篇長篇愿景論文。我說:“我干脆把我的整個愿景寫成一篇論文。把我的秘密全抖出來,我不在乎。但也許它們能把一群人聚集到這個愿景周圍。”天哪,這招真管用。因為這不僅聚集了一群想在紐約大學或巴黎和我一起工作的學生,因為他們想研究這個,而且FAIR內部的整個團隊也說:“這聽起來太棒了。這就是我們想研究的東西。”
然后喬爾·皮諾說:“嗯,也許這應該成為FAIR的一個主要使命。”我們稱之為高級機器智能(Advanced Machine Intelligence)。那是該項目的內部名稱。
主持人:有意思。好的。然后他們讓您帶著這個名字離開了,現在它成了公司的名字。
楊立昆:馬克·扎克伯格讀了那篇論文,知道它是關于什么的,并認同了這個項目。CTO安德魯·博斯沃思(Andrew Bosworth,我們叫他Boz),前任CTO邁克·施羅普弗(Mike Schroepfer),還有我的直接主管、首席產品官克里斯·考克斯(Chris Cox),也都非常喜歡這個想法。所以領導層對這個我們內部稱為AMI的項目給予了很大的支持。
它在視頻領域真的開始起效了,但公司將所有的精力都重新集中在了LLM上。盡管有馬克和博茲的支持,但我認為下面的所有層級都看不到意義,所以在公司政治上變得有些困難。JEPA和世界模型的應用在于可穿戴智能體之類的東西,以及機器人技術。但Meta選擇解散了整個由吉滕德拉·馬利克(Jitendra Malik)領導的機器人AI團隊。
所以很顯然,那里不再是合適的環境了。大部分應用都在Meta不感興趣的工業界。FAIR也面臨著越來越大的壓力,基本上被要求去幫助Mistral搞LLM的時代。所以是的,事情變得很清楚了。而且這種直言不諱的理念灌輸在投資者那里也起到了很好的作用,因為當我必須為AMI籌集資金時,每個人都知道我的故事。許多風險投資公司的員工讀過我的論文或聽過我的演講,并買賬了我的故事,他們意識到LLM有局限性,并對構建下一代AI系統的想法感興趣。
主持人:收購Scale是促使內部完全聚焦LLM的催化劑之一嗎?
楊立昆:是的,絕對是。我是說,可能還有一些其他原因。我沒有任何內部信息來評論這個,但馬克可能在亞歷克斯身上看到了一個潛在的繼任者,就像一個年輕版的他自己。
主持人:我覺得媒體上很多流行的說法是,“哦,當亞歷克斯進來后,運營一個研究機構就變得更難了。”我不知道您在多大程度上感覺到了這一點。
楊立昆:好的,這里有一個關于我的角色、我與亞歷克斯的關系,以及Meta內部是如何運作AI的巨大誤解。我對Llama沒有任何技術上的貢獻。完全沒有。我對Llama的唯一貢獻,就是力排眾議主張開源Llama 2。因為關于我們是否應該開源,內部有很大的爭論。法務部門反對,政策部門有點反對,公關部門支持,所有的工程方面都支持,博茲也支持。所以內部進行了極其高規格的討論,從馬克·扎克伯格往下的40個人,每周開會兩個小時,持續了幾個月。
那是內部一場激烈的辯論,我真的極力推動并主張——博茲對此也非常直言不諱——安全風險基本上被夸大了,創造一個行業的機會極其強大,我們將通過開源Llama 2來啟動AI行業。事實上,這正是后來發生的事情。
但我對Llama沒有任何正面或負面的技術貢獻。我沒有做任何事情去阻止它或放慢它的速度。FAIR內部有很多人在研究LLM,這很好。我從未說過任何反對它的話,除了說“這不是通向人類智能的道路”。但這很好。它很有用。語音識別、翻譯也是一樣。
特別是從2018年我卸任FAIR負責人以來,我沒有對人們研究什么產生任何直接影響,除了發表我的愿景,然后把人們聚集到我的項目周圍。但他們和我一起工作是因為他們想這么做,而不是因為我是他們的老板。我沒有命令他們和我一起工作。
所以我對Meta內部的LLM沒有任何正面或負面的影響。我對戰略有一些影響,但更多的是著眼于長期,以及如何維持一個研究實驗室之類的事情。在過去的一年里,大概從24年初開始,肯定是在25年,FAIR被推動和管理的方向,基本上不符合我認為保護創新、研究和突破,以及留住優秀人才所必需的條件。很多優秀的人才已經離開了。
主持人:我猜在內部讓人參與您正在研究的東西可能變得更難了,而且我相信您自己也面臨著去研究很多LLM相關內容的壓力。
楊立昆:是的。不過,也有很多其他人離開了,對吧?
![]()
LLM是自監督學習極其成功的一個盲目案例
主持人:這太吸引人了。在我們的整個對話中,讓我印象深刻的一點是,我覺得您在很長一段時間里對這個領域有著極其一致的觀點,這可以追溯到您提到的很多早期的演講。顯然,這是一個快速發展的領域,過去一年里發生了很多有趣的事情。在過去的一年里,有一件讓您改變看法的事情是什么?
楊立昆:整個關于我們過去稱之為無監督學習,現在稱之為自監督學習的理念。直到2003年左右,整個無監督預訓練的理念——即你為輸入數據獲得一個好的表征,然后用一點點帶標簽的監督數據來微調模型——給了我們一些證據,證明這整套技術是行得通的。
我試圖將此應用于視頻,因為最終我想做的是訓練一個系統,僅僅通過看著世界運轉來理解世界是如何運作的。這就是基本的想法。我在2010年代初開始主張這一點,在簡單的視頻預測上做了一些工作。當時我們還沒有GPU。然后在FAIR成立后更認真地做這件事,做像素級別的視頻預測,意識到那行不通,然后轉而主張自監督學習。
這個理念是:不是為了解決特定任務而訓練系統,而是基本上只訓練它去預測,然后使用以這種方式學到的表征作為下游任務的輸入,你可以用監督學習或強化學習等方法來訓練下游任務。那是我在2016年NIPS主題演講后半部分的有點像主題的內容。當時那個會議還叫NIPS。
主持人:當然。
楊立昆:在2016年。然后我繼續推動這個想法,并試圖發現一些方法讓它奏效。讓我驚訝的是,它取得了令人難以置信的成功,但不是在視頻領域,而是在語言領域。LLM基本上就是自監督學習極其成功的一個盲目案例。
主持人:確實如此。嗯,我覺得這幾乎是結束對話的完美音符,但我想確保把最后的話語權留給您。我們所有的聽眾對您都非常熟悉,但我至少想把麥克風交給您,向他們推薦任何您認為他們應該去看看的您正在做的新東西,或者您想指出的任何工作。麥克風交給您。
楊立昆:好的。讓我告訴你一件事。LLM之所以奏效,是因為當你有一系列離散的符號時,進行預測是很容易的,因為在你的語言中只有有限數量的可能符號,比如10萬個可能的標記(token)。你可以讓你的神經網絡產生一個涵蓋所有可能標記的概率分布。然后你可以從該分布中采樣,將該標記移入輸入端,然后產生下一個標記。你可以進行自回歸預測。
所以這是一個特例。如果面對的是真實世界,你不能使用生成式模型。所以現在你必須訓練一個系統,它學習一種表征,并在表征空間中進行預測。這帶來了一個大問題,直到大約五年前我都不認為這個問題很容易解決,盡管我在幾十年前發明了一項技術來解決它。
這個問題就是,如果你接受兩個輸入,比如說一段視頻的初始片段和該視頻的后續片段,或者你接受一張圖片和它的被破壞版本,你讓它們都通過一個編碼器,然后你訓練一個預測器,從其中一個的表征去預測另一個的表征。這里有一個非常簡單的解決方案,系統基本上會預測出一個恒定的表征。預測問題變得微不足道了。這叫做坍塌(collapse)。表征坍塌。
所以自監督學習對于JEPA(聯合嵌入架構)來說,最大的問題是:你如何防止坍塌?我很多年前在1993年想出的解決方案是對比學習(contrastive learning)。基本上,你有一些應該能互相預測的例子,還有一些不應該能互相預測的例子。事實證明這種方法有效,但它不能隨維度很好地擴展。它的擴展性不是很好。
還有另一種技術,實際上是杰夫·辛頓(Geoff Hinton)和蘇·貝克爾(Sue Becker)在80年代末發明的,你有那兩個網絡,你試圖最大化它們之間的互信息。尤爾根(Juergen Schmidhuber)對我很生氣,因為他也在1992年提出了這個的一個版本,他說那就是JEPA。那不是JEPA。那只是一種防止聯合嵌入架構坍塌的方法。這沒問題,但這是實現它的一種特定方式,我不認為它特別好。
所以現在你有了這個JEPA架構。你必須想出一個防止坍塌的好方法。正如我已經說過的,我認為對比方法不是一個好途徑。還有另一組被稱為知識蒸餾(distillation methods)的方法,它們確實能防止坍塌。我們不知道為什么。DINO就是一個很好的例子。這是一種使用蒸餾方法的聯合嵌入方法。基本上,其中一個編碼器訓練另一個,被用作另一個編碼器的老師。正在被訓練的那個編碼器,你對它進行反向傳播。沒有被訓練的那個,你不做反向傳播,但你通過某種指數移動平均與另一個共享權重。這是一種策略的集合。
DeepMind有一篇關于此的論文叫做“Bootstrap Your Own Latent”,它使用了這個技巧。這個技巧源于強化學習的一些直覺,不知何故它防止了坍塌,但我們不知道為什么。有幾篇關于它的理論論文,解釋了為什么它在某些簡單情況下可能會起作用,但這并不令人滿意。你認為你正在最小化的成本函數,實際上你并沒有在最小化它,所以你無法監控它。它實際上在訓練時會上升。所以我們不喜歡這種方法,但它管用。我們訓練的一些模型,大規模視頻表征學習系統,如V-JEPA、V-JEPA 2、V-JEPA 2.1,它們就是用這種方法訓練的。I-JEPA也是。
但我們正在擺脫這種方法。現在我們有幾篇最近發表的論文,關于一種顯式的正則化器來防止這種坍塌,它基本上試圖最大化從編碼器輸出的信息內容。所以它和89年的貝克爾與辛頓,以及1992年的施密德胡伯(Schmidhuber)屬于同一個家族,此后還有一堆其他人,在某種程度上也包括對比技術,盡管它不是樣本對比。
接下來的問題是,你如何測量信息內容?你如何最大化從神經網絡輸出的信息內容?問題在于,如果你想最大化這個量,你要么需要能夠測量它,要么需要有它的下界。對于信息內容,我們只有上界。我們無法測量它。我們只能得出上界。所以我們采用一個上界,然后祈禱它管用。結果它確實有點用。
最新的一個叫做SIGReg。意思是草圖化各向同性高斯正則化(Sketched Isotropic Gaussian Regularization)。我們之前有一個叫做VICReg,方差-不變性-協方差正則化(Variance-Invariance-Covariance Regularization)。而SIGReg的東西真的很酷。這是由蘭德爾·巴萊斯特里耶羅(Randall Balestriero)做的一些工作,他曾是我的博士后,現在是布朗大學的助理教授。它基本上在于迫使從編碼器輸出的變量分布本質上是聯合高斯分布,從而在某種程度上最大化信息。這只是與尤爾根·施密德胡伯、蘇·貝克爾和杰夫·辛頓所做的非常不同的一種方式。
所以在我看來,這非常有前景,我們有它的變體。一種可以產生稀疏表征,另一種可以產生各向同性但不一定是高斯分布的表征。我們和蘭德爾以及Mila(蒙特利爾學習算法研究所)的一名學生有一篇論文,我們在其中用這個訓練了一個世界模型。雖然規模還很小,但我認為超級有前景。所以如果你想讀一篇論文,去讀那篇。它叫L-World Model。
主持人:太不可思議了。楊,說真的,非常感謝您。能和您共度這段時光真是一種特權,非常感謝您來參加播客。
免費領取 50 小時 AI 算力|限時開放
加入 AI 開發者計劃
獲取:
? AI 算力資源
? 官方技術社群
? Workshop 與 AI Academy
? 開發者專屬福利
完成認證后,額外領取:
? 9.9 元瑞幸咖啡券
立即加入
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.