他的論文,啟發(fā)了OpenAI GPT的誕生。
在谷歌研究AI 14年,Andrew Dai推動數(shù)項重要論文、輾轉(zhuǎn)數(shù)個產(chǎn)品,最后成為帶領(lǐng)Gemini打下翻身之戰(zhàn)的核心人物之一。
Andrew長期處在谷歌AI研發(fā)的中樞:從早期sequence learning(序列學(xué)習(xí))、文本生成、對抗訓(xùn)練,到 PaLM、FLAN、Gemini、多模態(tài)和長上下文等等。與他合作論文的,都是谷歌的眾多傳奇大佬人物,包括Quoc Le、Ian Goodfellow、Liam Fedus、Jeff Dean等人。Andrew的職業(yè)軌跡可以說就是一部谷歌AI大模型的編年史。
![]()
然而在將Gemini 3順利上線之后,Andrew Dai決定離開待了近14年的谷歌。原因是他看到了一條大公司“不敢走”、或者是“走得太慢”的路——不是純語言模型,也不是世界模型,而是語言與視覺推理的結(jié)合。
今年4月,Andrew創(chuàng)立的Elorian AI宣布融資5500萬美元,估值3億美元,正式從保密階段走向公眾視野。投資方包括Menlo Ventures,Altimeter Capital等主流硅谷基金,還包括英偉達(dá)和以個人身份參與的Jeff Dean。
2026年的Google I/O正在召開,我們此次與Andrew一起回顧了谷歌過去14年的AI發(fā)展史:如何錯過,如何落后,如何追趕,又如何重回巔峰的。這背后究竟有一些什么樣的故事?Andrew Dai現(xiàn)在要做的多模態(tài)視覺推理模型又是什么?
硅谷沒有秘密,但有一群信仰不一樣未來的科學(xué)家們。在巨頭們押注SOTA LLM之際,眾多科技領(lǐng)軍人物都開始紛紛創(chuàng)建自己的AI前沿新實驗室(Neolabs),他們不拼算力和參數(shù),而是希望找到一條真正達(dá)到智能的路徑。此次,硅谷101也開啟了Neolabs特輯,想和這群科學(xué)家們深度聊聊,他們眼中的AGI之路。今天這期,是此次特輯的第一期視頻播客。
(本文為視頻改寫,歡迎大家收看以下視頻)
01
從倫敦到硅谷
一位谷歌AI核心科學(xué)家的14年
陳茜:非常感謝Andrew,歡迎你來做客硅谷101。我覺得你們的新辦公室這邊采光很好,這個房間你們以后準(zhǔn)備用來做什么?
Andrew Dai:這個房間以后會讓研究員和工程師坐在這里。我們租辦公室至少要租兩年,所以已經(jīng)預(yù)估好兩年后會有多少人了。
陳茜:兩年后你會有多少人?
Andrew Dai:可能是50到70人。
![]()
陳茜:現(xiàn)在多少人?
Andrew Dai:現(xiàn)在是14個人,還有兩個人在辦簽證,很快就16個人了。
陳茜:我在來之前聽了你的一個英文播客,發(fā)現(xiàn)你有一點British accent(英式口音),是因為你之前在英國念書嗎?
Andrew Dai:對,我在中國出生,但五歲就去了英國,因為我父親去英國讀博士,帶著我一起過去。本科我在劍橋讀,然后去愛丁堡讀博士。
陳茜:你的中文其實還是講得挺好的。
Andrew Dai:我的家人一直督促我練中文,我也認(rèn)識一些來自中國的朋友,所以一直在堅持學(xué)。
陳茜:你是什么時候來到硅谷的?
Andrew Dai:14年前,就是2012年,為了在谷歌工作。
陳茜:當(dāng)時為什么想來谷歌?
Andrew Dai:我讀博士研究的是人工智能,從中學(xué)起就一直想做AI。那時候Google Brain(谷歌大腦)團隊比較有名,所以我就想加入谷歌大腦。而DeepMind那時候還是一家很小的初創(chuàng)公司,我甚至不知道有DeepMind這家公司,所以就直接想來人工智能的中心,就是硅谷。
陳茜:如果你留在倫敦的話,是不是也有可能加入DeepMind,然后最后也來到谷歌?
Andrew Dai:很可能。后來我才知道,我們實驗室的很多同學(xué)都去了DeepMind,就我一個人來到了Google Brain。當(dāng)然來這里還有另一個原因,因為硅谷很容易創(chuàng)業(yè),很多新公司都從這里誕生。所以我當(dāng)初打算來這里待幾年,然后就創(chuàng)業(yè)。
陳茜:沒想到一待就是14年。
Andrew Dai:對,沒想到待那么久。
![]()
陳茜:我們來講講你進(jìn)入谷歌后的工作。你的第一份工作是去到了Google Now,那個團隊是當(dāng)時Larry Page希望Android和Search團隊搭建一個能結(jié)合用戶數(shù)據(jù),來主動給用戶推送提醒信息的功能。那時候背后已經(jīng)有一定的AI研究,你在Google Now里在做什么?
Andrew Dai:那個經(jīng)歷比較有意思。他們招我去Google Now是為了做AI,但我到了團隊才發(fā)現(xiàn),工程上有很多基礎(chǔ)設(shè)施的工作要做,比如有新聞出來,他們想個性化地推送給用戶,我就編寫了一套系統(tǒng),能在15分鐘內(nèi)把新聞推送到所有人的手機上。有一次我們發(fā)現(xiàn)推送新聞很慢,要100毫秒,大家在想為什么這么慢?我發(fā)現(xiàn)數(shù)據(jù)在東海岸,而我要把數(shù)據(jù)送到西海岸,按照光速就需要這么多時間,沒有辦法更快,我從中學(xué)到了很多end-to-end(端到端)的東西。后來快離開的時候,我也開始做更多AI、更多個性化的工作。再之后就去Google Brain了。
02
兩次收購、兩種哲學(xué)
Hinton與DeepMind如何改變谷歌
陳茜:谷歌在2013、2014年有幾個重要節(jié)點。第一個是2013年收購了Geoffrey Hinton的公司DNNresearch,Hinton之后加入谷歌工作。你覺得Hinton來到谷歌之后產(chǎn)生了什么樣的影響?
![]()
Andrew Dai:Hinton來了之后,谷歌就更加重視AI。那幾年我記得CEO也說了,Google是一家AI公司。Larry Page和Sergey Brin當(dāng)初創(chuàng)造算法,目標(biāo)本就是讓機器運用AI幫助人們理解網(wǎng)絡(luò)上的內(nèi)容,所以他們一直非常重視AI。但2012年之后開始了Deep Learning(深度學(xué)習(xí))新階段,谷歌覺得如果不投這個方向就會落后,所以收購了Geoffrey Hinton的公司。從那以后,深度學(xué)習(xí)對谷歌就非常重要,它們的模型也越來越多地轉(zhuǎn)向Neural Network(神經(jīng)網(wǎng)絡(luò))。
陳茜:2014年谷歌又收購了DeepMind,你覺得DeepMind團隊的加入,包括Demis Hassabis的加入,在多大程度上改變了谷歌?
Andrew Dai:DeepMind和DNNresearch的收購方式很不一樣。DeepMind在收購時簽了一份協(xié)議,要求保持獨立、團隊可以繼續(xù)留在倫敦,不用來美國,附帶很多這樣的條件,所以基本上是一個獨立的研究實驗室。這跟Google Brain的定位不同,Google Brain的目標(biāo)是做研究,然后和產(chǎn)品合作、將模型推向產(chǎn)品,DeepMind更像是你想做什么就做什么,只要你覺得重要,像AlphaGo這樣的項目都可以做,兩邊的理念有一定差異。
陳茜:所以DeepMind是非常獨立的,Hassabis說了算,谷歌也不太會管他們。
Andrew Dai:對,他們的招聘也有自己的方式,內(nèi)部包括代碼等很多東西都跟谷歌是分開的。
陳茜:那當(dāng)時Google Brain的AI研究員,比如你,會跟DeepMind的人有合作嗎?
Andrew Dai:會,但比較少。合作時會有credit assignment(功勞分配)的問題,這個項目到底是DeepMind主導(dǎo)還是Google Brain主導(dǎo)。在大公司里,ownership(所有權(quán))很重要,所以這類項目就更復(fù)雜了。
03
半監(jiān)督序列學(xué)習(xí)
谷歌錯過的“GPT時刻”
陳茜:我看到你在2015年開始研究語言模型的預(yù)訓(xùn)練與微調(diào),當(dāng)時就應(yīng)該是在Google Brain部門了。這一輪GenAI(生成式AI)的奠基石Transformer論文是2017年發(fā)布的,但在此之前,你和Google Brain聯(lián)合創(chuàng)始人之一Quoc Le共同主導(dǎo)了一篇文章《Semi-supervised Sequence Learning》(半監(jiān)督序列學(xué)習(xí)),可以幫我們解釋一下,這篇論文主要解決了什么問題么?
![]()
Andrew Dai:那篇文章其實不是我們一開始就計劃好的。我們本來是在做一種叫paragraph vectors(段落向量)的技術(shù)。那時候有Word2Vec,也就是Word Embedding(詞嵌入),大家可能聽說過,LLM出現(xiàn)之前大家都在用這些東西。我們想做一個更好的版本,做了很多很多實驗,但都失敗了。
有一天我跑了一個實驗,發(fā)現(xiàn)結(jié)果非常好,比其他論文的分?jǐn)?shù)都高。但當(dāng)我想復(fù)現(xiàn)它重跑一次,卻跑不出之前的結(jié)果,我就覺得肯定哪里有bug。于是我繼續(xù)挖,發(fā)現(xiàn)是因為訓(xùn)練這個模型的時候,我是從另一個目錄,也就是另一個checkpoint(檢查點)開始的,而那個checkpoint屬于一個別的做語言模型的項目。這時候我就發(fā)現(xiàn)了:如果先做語言模型,再用監(jiān)督數(shù)據(jù)進(jìn)行微調(diào),就可以得到一個很好的模型。這就是我們發(fā)現(xiàn)的東西,然后就把它寫成了論文。
之前大家是把這兩部分分開的,沒有想過用語言模型來做語言理解。我們的核心想法是:把語言模型和fine-tuning(微調(diào))結(jié)合到一起,就可以做出一個很好的模型。所以我們是第一個把這兩部分放在一起的團隊。
陳茜:這篇論文現(xiàn)在回看,很像是“大規(guī)模預(yù)訓(xùn)練+下游微調(diào)”的范式。當(dāng)然那時候Transformer還沒出來,你們用的還是LSTM(長短期記憶網(wǎng)絡(luò)),但你當(dāng)時有沒有意識到,它可能會引領(lǐng)出一個更大的東西?
Andrew Dai:那時候我們的卡很少,大家都沒有用很多顯卡做訓(xùn)練,所以模型規(guī)模也比較小。我記得那年我們在NeurIPS(神經(jīng)信息處理系統(tǒng)大會)上發(fā)表了這篇文章,LSTM的主要作者Sepp Hochreiter來看了我們的海報,說他已經(jīng)試過我們這個方法,結(jié)果很好。從那時候我們就知道,以后應(yīng)該會有很多人用這個方法,但我們沒想到過了十年還在用,而且模型規(guī)模擴大了這么多倍。
![]()
陳茜:那Transformer出來的時候,你有意識到這兩個東西可以融合起來,變成一個更大的突破嗎?
Andrew Dai:Transformer出來的時候,我就覺得它很適合和我們做的預(yù)訓(xùn)練結(jié)合。所以Transformer論文發(fā)布第二天,我就找了我的朋友,Transformer論文的一作Ashish Vaswani,對他說:“我們兩年前有這篇預(yù)訓(xùn)練的文章,結(jié)果很好,你要不要在Transformer上也試試預(yù)訓(xùn)練?”但那時候他很忙,在做一些圖像處理的東西,所以沒有時間,后來就是OpenAI做了。
陳茜:那OpenAI是誰主導(dǎo)這件事,發(fā)現(xiàn)了Transformer可以和你們這篇文章結(jié)合?
![]()
Andrew Dai:是Alec Radford。他寫了GPT-1、GPT-2、GPT-3的論文,引用了我們那篇文章,看出了scaling的潛力:模型越來越大,產(chǎn)出的語言就越來越好。
陳茜:谷歌是什么時候意識到這兩個東西都是從自己這里出來的,結(jié)果被OpenAI結(jié)合在一起用了?
Andrew Dai:我覺得是GPT-3出來的時候才意識到。GPT-3是整個世界的轉(zhuǎn)折點,不只是谷歌,Meta等很多公司都發(fā)現(xiàn)GPT-3的語言能力相當(dāng)驚人,可能scaling才是正確方向。之前大家都不愿意把那么多顯卡都押在一個實驗上,但GPT-3之后,谷歌就開始愿意這樣投入了。
陳茜:在GPT-3出來之前,Google Brain的聯(lián)合創(chuàng)始人Jeff Dean、Andrew Ng(吳恩達(dá))、Quoc Le,還有DeepMind的Hassabis,他們那時候分別在做什么?
Andrew Dai:Hassabis那段時間我記得好像是在做AlphaGo,他們相信把游戲做好就可以產(chǎn)生intelligence(智能),比如Atari(雅達(dá)利)游戲和圍棋。
Google Brain是另一個方向,包括Geoffrey Hinton也是這個想法:如果做一個什么都能做的AI,那才是真正的intelligence(智能),不要只專注一個小領(lǐng)域。那時候Google Brain的文化以自由著稱,你想做什么都可以做。Jeff Dean在領(lǐng)導(dǎo)Brain團隊,但下面的研究員什么都在做,有的在做音樂生成,做語言的人其實很少,基本上就是Quoc和我還有幾個人,大部分人都在做視覺或視頻處理。
![]()
陳茜:就是沒有一個人強有力地站出來說:我們要集合所有資源押注在同一個賽道上,直到他們看到GPT-3出來。
Andrew Dai:對,后來就變了。
陳茜:所以你覺得OpenAI為什么能看到Semi-supervised Sequence Learning(半監(jiān)督序列學(xué)習(xí))的能力,而谷歌看不到呢?你當(dāng)時跟Transformer作者說了這個想法,他沒理你,之后你就沒有再推進(jìn)了嗎?
Andrew Dai:那是2017年,時間節(jié)點很特別。那時候Google Brain開始成立谷歌健康部門,覺得health(醫(yī)療健康)是一個很熱門的領(lǐng)域,大家都想進(jìn)入這個方向,包括蘋果和微軟。谷歌也覺得應(yīng)該把AI放進(jìn)健康里,所以讓我選擇:是要進(jìn)入這個新的谷歌健康部門,讓AI可以治病,還是留在Brain。我選擇去了Health,因此就沒有機會去做GPT這類模型了。
陳茜:那有沒有其他人繼續(xù)往這個方向深推呢?
Andrew Dai:后來沒有繼續(xù)往上scale(擴展),但有人把它用到了產(chǎn)品上,像Smart Compose、Smart Reply就是用了預(yù)訓(xùn)練的方法。
04
谷歌落地為何總是慢半拍
PaLM 2、FLAN、RL與MoE
陳茜:了解了。我們接著說說你在Health部門在研究什么? 是去做產(chǎn)品了是嗎?
Andrew Dai:對,在Health部門,我做的是幫助產(chǎn)品落地的研究,主要負(fù)責(zé)用醫(yī)療記錄來預(yù)測一個人以后可能患什么病,或者需要服什么藥,從而幫助醫(yī)院節(jié)省成本或輔助醫(yī)生決策。因為預(yù)訓(xùn)練很成功,所以我們也在醫(yī)療領(lǐng)域用了預(yù)訓(xùn)練,但那時候模型還很小,最后沒有做出預(yù)訓(xùn)練的成果,不過發(fā)表了其他論文。那時候有Google Brain Residency Program(谷歌大腦住院醫(yī)項目),是一個比較好的時代,招了很多類似實習(xí)生的人待一年,后來創(chuàng)業(yè)的Liam Fedus、Demi Guo和David Ha,都是我當(dāng)時的實習(xí)生。
陳茜:在2018年,也就是你去Health部門一年后,我看到你和Ian Goodfellow等人合作了一篇有分量的論文叫MaskGAN,用于改善文本生成的質(zhì)量。這篇論文的底層技術(shù)進(jìn)步給你帶來了哪些收獲?因為我看到其中一些技術(shù)探索,比如in-filling(填空任務(wù))等,在后來的BERT和Gemini多模態(tài)預(yù)訓(xùn)練中都有一定程度的啟發(fā)和影響。這篇論文對你意味著什么?
![]()
Andrew Dai:這篇文章是我和Liam Fedus、Ian Goodfellow一起寫的。我們覺得“填空”是一個很好的任務(wù),可以讓模型學(xué)到很復(fù)雜的東西。我認(rèn)為這篇論文有一個比較突出的地方,就是在RL(強化學(xué)習(xí))方面,那時候基本上沒有其他人在做預(yù)訓(xùn)練之后再做RL,我們可能是最早幾篇把RL用在預(yù)訓(xùn)練之后的論文,而現(xiàn)在這已經(jīng)是業(yè)界通用的方法了。
陳茜:相當(dāng)于你們是最早一批把RL用在語言模型上的團隊。
Andrew Dai:對。我們那時候就覺得光做預(yù)訓(xùn)練還不夠,因為預(yù)訓(xùn)練的模型不會學(xué)到它自己寫出來的內(nèi)容哪里好、哪里不好,也不會學(xué)到該怎么改。有了RL,模型可以看到自己寫的這一段不像自然語言,RL就可以把它改好。
陳茜:在很多大家都認(rèn)為有共識的技術(shù)范式上,你們也都是第一批團隊去做的,包括MoE(混合專家模型)。你研究MoE是在2021年左右,聯(lián)合主導(dǎo)了GLaM(Generalist Language Model) MoE LLM(大語言模型)的開發(fā)。現(xiàn)在MoE架構(gòu)我們都很熟悉了,不過真正把MoE帶到大眾視野的,可能還是去年DeepSeek V3發(fā)布的時候,但我沒想到谷歌內(nèi)部在2021年就已經(jīng)在研發(fā)這條路線了。
Andrew Dai:GPT-3出來之后,Google Brain團隊有些人感到有點著急,覺得一定要做出一個比它更好、功能更多的模型。那時候我們意識到,這些模型越來越大,通過API提供服務(wù)會非常貴,因為參數(shù)太多,耗電量很大。如果每次只用模型的一部分,耗電就少很多。幾年前Noam Shazeer發(fā)表過一篇關(guān)于MoE的文章,但那時候沒有做預(yù)訓(xùn)練。所以我們就把MoE加上預(yù)訓(xùn)練、再加上fine-tuning(微調(diào)),最終做出了一個比GPT-3更好的模型,這就是我們的成就。
陳茜:2021年GPT-3出來后,你說谷歌內(nèi)部開始感到壓力了?當(dāng)時是什么情況?
![]()
Andrew Dai:當(dāng)時我在Google Health的經(jīng)理Claire回到了Google Brain,我就和她談,想離開Google Health。她說他們在做一個模型,但達(dá)不到GPT-3的水平,就問我能不能幫他們解決這個問題。我覺得是數(shù)據(jù)的問題,所以我就過去了,處理了一段時間數(shù)據(jù),最終做出了一個比GPT-3更好的模型,并發(fā)表了論文。那時候DeepMind也發(fā)表了一篇文章,競爭從那時候就開始了,那時候因為兩邊都看到了GPT-3,DeepMind覺得要競爭,Brain也覺得要競爭,否則大家都會認(rèn)為谷歌做不出這樣的模型。
陳茜:你當(dāng)時為什么想離開Health?
Andrew Dai:我覺得對一家大型科技公司來說,做醫(yī)療健康非常難,而且難度不在于技術(shù),而在于文化。
因為醫(yī)生有自己傳承了數(shù)百代的文化和做事方式。這個行業(yè)本身對資源和認(rèn)知的要求就更高,很多醫(yī)生按照自己的直覺做決定,如果我們要推AI,他們就會問:為什么AI要我做這個?我做了幾十年,肯定比這個AI懂。所以那時候讓醫(yī)生接受AI就非常難。
陳茜:是不是說,在實際產(chǎn)品落地上,大型科技公司比不上那些跟醫(yī)院、醫(yī)生或藥企關(guān)系緊密的公司?
Andrew Dai:對。而且大公司可能還會讓醫(yī)生覺得“他們是來搶我們工作、搶醫(yī)院的錢的”。如果是初創(chuàng)公司,他們就不會那么感受到威脅,這也是一個因素。
陳茜:是不是當(dāng)時技術(shù)也沒有好到讓大家覺得非用不可?
Andrew Dai:對,那時候的時機還不對。就像現(xiàn)在,因為ChatGPT,很多醫(yī)生覺得“我也可以用AI了,大家都在用”。但那時候不是這樣,那時候醫(yī)生對AI是相對陌生的用戶群體。現(xiàn)在他們已經(jīng)不陌生了,所以顧慮也就沒那么多了。
陳茜:時機不對,技術(shù)可能也比較粗糙,產(chǎn)品也沒有那么完善,而且美國醫(yī)療產(chǎn)業(yè)本就是一個很難打入的市場。
Andrew Dai:It's a big lesson.(這是一個很大的教訓(xùn)。)
陳茜:所以你的take-away(收獲)就是:要在正確的時間做正確的事,研究正確的技術(shù)。
Andrew Dai:對,這對創(chuàng)業(yè)來說尤其重要。
![]()
陳茜:你從Health出來之后,在2022年主導(dǎo)了谷歌PaLM 2模型的預(yù)訓(xùn)練。這個模型對谷歌非常重要,因為那時候谷歌和OpenAI已經(jīng)存在模型層面的競爭壓力了。PaLM 2出來的時候,你們滿意嗎?
Andrew Dai:PaLM 2大約在2023年初就訓(xùn)練完成了,我那時候覺得這是一個很好的模型。我們那時候從來沒有見過跑得那么順暢的預(yù)訓(xùn)練:從頭到底,一次都沒有停,一次都不需要rewind(回退)。不像Meta那段時間發(fā)布的OPT模型,可以看到他們的日志,重啟了很多次,做了很久。PaLM 2就非常順,從立項到訓(xùn)練完成不到一年,特別順暢。
陳茜:為什么能這么順?你們做了什么事情?
Andrew Dai:我們那時候有訓(xùn)練GLaM和PaLM 1積累下來的經(jīng)驗,在架構(gòu)上做了很多測試和實驗,知道這個方案穩(wěn)定、不會出問題。正式開始大規(guī)模訓(xùn)練之前,我們也做了一些pilot runs(試運行),所以就有high confidence(高置信度)這個會成功。
陳茜:在2022年你還寫了一篇重要論文——FLAN(Scaling Instruction-Finetuned Language Models),探索了任務(wù)數(shù)量、模型大小以及加入了Chain-of-Thought(思維鏈/CoT)的數(shù)據(jù),能給我們講一下FLAN的重要性在哪里嗎?
Andrew Dai:FLAN之前,大家都是用few-shot prompting(少樣本提示)來使用模型,如果你要讓它做某件事,你要先給它舉幾個例子,比如數(shù)學(xué)題,你先給它一道題和答案,再問它新的問題。FLAN的核心思想是:其實你不需要在每次對話里給例子,只要在微調(diào)數(shù)據(jù)里放入這些示例就夠了,模型就會學(xué)會“你給我什么問題,我就必須給出答案”。好處是你不再需要每次都提供few-shot(少樣本)例子,但壞處就是,如果你問它不知道的問題,它也會假裝知道。正是有了這種方式,ChatGPT這樣的聊天機器人才成為可能,因為你可以直接問它問題。
陳茜:PaLM 2你們還是比較滿意的,但你們的風(fēng)頭還是被GPT-4給搶了,是嗎?
Andrew Dai:對,我們做完得比較早,2023年初就完成了。但谷歌內(nèi)部的官僚體制和龐大的組織系統(tǒng),讓他們決定要等到Google I/O統(tǒng)一發(fā)布。OpenAI當(dāng)然知道Google I/O是什么,知道我們要發(fā)布模型,谷歌那么大,內(nèi)部沒有什么秘密。所以他們恰好在Google I/O之前發(fā)布了GPT-4,GPT-4的結(jié)果比PaLM 2更好。我們發(fā)布PaLM 2的時候,我就覺得晚了一步,如果早點發(fā)布,我們就可以說我們是世界上最好的模型。
陳茜:你覺得可惜嗎?
Andrew Dai:有點可惜。
陳茜:但PaLM 2還是很重要,雖然GPT-4在benchmark(基準(zhǔn)測試)上可能比你們好,但至少谷歌向大家證明了:我們站穩(wěn)了,我們沒有落后太多。
Andrew Dai:對,而且沒有PaLM 2的話,當(dāng)時那個叫Bard、后來叫Gemini的產(chǎn)品也會比較危險,因為Bard就是用PaLM 2做出來的聊天機器人,如果沒有PaLM 2,谷歌就沒有聊天機器人了。
05
拉響紅色警報
DeepMind與Google Brain的整合與碰撞
陳茜:2022年底OpenAI上線了ChatGPT,把整個AI市場引爆了,谷歌內(nèi)部拉響了Code Red(紅色警戒)。之后Sergey Brin也回歸了谷歌,當(dāng)時做出的一個決定,就是把DeepMind和Google Brain合并起來。跟我們講講這次整合順利嗎?還是有很多摩擦?
![]()
Andrew Dai:這個整合大家有個preview(預(yù)期),其中Gemini就是一個整合后的預(yù)期產(chǎn)品代表。因為在官方合并的幾個月之前,DeepMind和Brain的人就已經(jīng)開始一起做Gemini了,但是不是 official(官方的),那段時間就已經(jīng)感受到一些摩擦。后來領(lǐng)導(dǎo)層認(rèn)為時間線要更快,不能繼續(xù)落后于ChatGPT,就決定加快把兩個團隊整合在一起,摩擦也隨之更加明顯。
因為兩邊有對等的團隊:DeepMind有基礎(chǔ)設(shè)施團隊,Brain也有;DeepMind有多模態(tài)團隊,Brain也有;數(shù)據(jù)方面,DeepMind有數(shù)據(jù)團隊,我就代表Brain的數(shù)據(jù)團隊。所以一開始確實關(guān)系比較緊張,他們決定每個部門由DeepMind出一個負(fù)責(zé)人、Brain出一個負(fù)責(zé)人來聯(lián)合領(lǐng)導(dǎo),這就比較復(fù)雜了。
陳茜:所以比如數(shù)據(jù)部門,你是一個co-lead(聯(lián)合負(fù)責(zé)人),DeepMind那邊也出一個co-lead,其他的每個部門也是同樣的設(shè)置,是嗎?
Andrew Dai:對,而且還需要進(jìn)一步劃分。比如在數(shù)據(jù)部門里,哪部分由倫敦做,哪部分由Mountain View(山景城)的Brain團隊來做?這非常復(fù)雜,浪費了很多時間。
陳茜:為什么一定要設(shè)置這樣的機制呢?
Andrew Dai:這樣更公平一些。
陳茜:也就是Google Brain跟DeepMind誰都不服誰,這是一個兩邊都同時給糖的安排。
Andrew Dai:對,是一個對等的設(shè)置。
陳茜:你覺得這樣的設(shè)置會拖累模型的研發(fā)速度嗎?
Andrew Dai:我覺得一開始可能出模型的節(jié)奏會慢一些。兩個之前從未合作、甚至有一定緊張關(guān)系的團隊突然被放在一起,肯定有些事情會變慢、會有人換組,這些都發(fā)生了。
陳茜:整個磨合過程你覺得經(jīng)歷了多長時間?還是說到現(xiàn)在還在磨合?
Andrew Dai:可能現(xiàn)在還在磨合。不同部門的速度不一樣,比如基礎(chǔ)設(shè)施方向磨合得較快,多模態(tài)也是。
陳茜:兩邊整合的結(jié)果,就是很多人離職,對吧?
Andrew Dai:是的,有不少人離職,兩邊都有,Brain這邊有,DeepMind那邊也有。
![]()
陳茜:這兩個誰都看不上誰的部門整合在一起,同心協(xié)力做Gemini。2023年底,Gemini 1.0出來了,這個模型你們滿意嗎?
Andrew Dai:那個模型有點倉促。我們剛剛開始合作,很多事情都是拼命趕deadline(截止日期)。那時候有一個圣誕節(jié)的截止日期,5月份Google I/O剛發(fā)布了PaLM 2,我們想要每6個月出一個新模型,所以大家都在趕。這些人之前都沒有合作過,模型又基本上是從頭開始做,所以有些地方?jīng)]有做好,比如一些小眾的語言的就沒有做好。那時候媒體報道了Gemini 1.0在某些語言上表現(xiàn)欠佳,所以我們隨即就開始趕做Gemini 1.5了。
陳茜:我看到Gemini 1.5才用到了MoE(混合專家模型)架構(gòu),但這是你在2021年就已經(jīng)在研發(fā)的東西,為什么這么晚呢?
Andrew Dai:這也是一個速度的問題。1.0要趕快推出來,所以就沒有時間做MoE的模型,只能做dense(稠密)模型,因為MoE還需要額外的調(diào)優(yōu)和優(yōu)化時間。ChatGPT出來之后,整件事變成了一場競賽,我們在跟OpenAI比賽,如果MoE會拖慢我們的進(jìn)度,就不能做,所以……
陳茜:所以優(yōu)先級變成了先追上進(jìn)度,而不是創(chuàng)新,谷歌這時候變成了追趕者。是不是也因為GPT-4用了MoE,所以Gemini 1.5才決定一定要用MoE了?
Andrew Dai:其實我們本來就打算用MoE,只是時間問題。我們從那篇2021年的論文就已經(jīng)知道MoE效果更好。但我們不知道OpenAI會那么快用MoE,不知道GPT-4會是一個MoE的模型,當(dāng)時有些人認(rèn)為還會是dense模型。我的實習(xí)生Liam Fedus去了OpenAI之后,他們就開始做MoE了。
陳茜:所以他和你一起研究了這件事,然后把它帶去了OpenAI。硅谷其實沒有什么秘密可言,因為沒有競業(yè)協(xié)議。
Andrew Dai:對,特別是大模型領(lǐng)域。大公司里肯定會有人去OpenAI、Anthropic,所以大公司很難保持秘密。
06
Gemini翻身仗
“大模型最大的差異點是數(shù)據(jù)”
陳茜:Gemini 2.0對你們來說是比較大的翻身仗嗎?
Andrew Dai:Gemini 2.0像是一種進(jìn)化,各種方法都更成熟了,包括MoE、長上下文等。總體來說,是一個更好的模型。
陳茜:我聽說在數(shù)據(jù)方面,你在Gemini 2.0上也有一些創(chuàng)新。能跟我們解釋一下,你做了什么讓Gemini 2.0變得更好?
Andrew Dai:在數(shù)據(jù)上有一個很大的變化,我們用了新的方法來處理數(shù)據(jù)質(zhì)量,檢測質(zhì)量的標(biāo)準(zhǔn)也更嚴(yán)格了。有些公司可能認(rèn)為架構(gòu)和卡夠了就能做出好模型,但數(shù)據(jù)其實非常重要。你看那些論文,一般都不會說數(shù)據(jù)是什么、來自哪里,這是一個秘方,所以我們發(fā)表了新的方法。
陳茜:所以你覺得數(shù)據(jù)是大模型之間很大的差異點嗎?看起來模型架構(gòu)大家都在用類似的東西,算力大公司都不缺,基礎(chǔ)設(shè)施也都差不多,差異點是否就在數(shù)據(jù)上?
Andrew Dai:對,我覺得最大的差異就是數(shù)據(jù)。
陳茜:但數(shù)據(jù)不只是來源的問題,因為大家基本上把互聯(lián)網(wǎng)數(shù)據(jù)都窮盡了,而是如何優(yōu)化和篩選更高質(zhì)量的數(shù)據(jù)用于訓(xùn)練,是嗎?
Andrew Dai:對,你選用什么數(shù)據(jù)很重要。網(wǎng)絡(luò)上有大量數(shù)據(jù),但也有很多垃圾信息和對模型沒有幫助的內(nèi)容,所以需要找到那些好的數(shù)據(jù),讓模型能學(xué)到新東西。就像人一樣,每天只讓他讀廣告,他什么都學(xué)不到,要給他有信息、有知識的數(shù)據(jù)才行。來源也有一些區(qū)別,因為谷歌有搜索的經(jīng)驗,知道怎么爬取網(wǎng)絡(luò),其他公司也有自己的優(yōu)勢。
陳茜:所以你在Gemini 2.0數(shù)據(jù)上的主要提升,就是把垃圾信息的數(shù)據(jù)剔除掉?
Andrew Dai:對,垃圾信息以及其他一些低質(zhì)量的數(shù)據(jù),還有更多不方便透露的內(nèi)容。
陳茜:在合成數(shù)據(jù)方面,你也參與了對嗎?
Andrew Dai:對,我也聯(lián)合主導(dǎo)了合成數(shù)據(jù)這塊。合成數(shù)據(jù)用不好會導(dǎo)致一個很差的模型,但用得好,就像GPT-5,可以把模型做得非常好。
陳茜:“用得好”和“用得不好”有什么區(qū)別?
Andrew Dai:用得不好就是指,如果處理得不好,模型就會頻繁輸出合成數(shù)據(jù)里的特定詞匯。比如合成數(shù)據(jù)里有很多“delve”這個詞,訓(xùn)練完的模型也會更多地說“delve”這個詞。所以合成數(shù)據(jù)同樣需要高質(zhì)量,否則模型會學(xué)到錯誤的東西。比如合成數(shù)據(jù)里有錯誤的數(shù)學(xué),那模型的數(shù)學(xué)能力也會變差。
陳茜:Gemini 2.5大約在去年年中發(fā)布,年底發(fā)布了Gemini 3.0,那時候真的是短暫地超過了GPT,驚艷了整個市場,大家都在歡呼谷歌回來了,谷歌股價也漲得非常快。但你在Gemini 3.0之后就離開了,能跟我們講講為什么嗎?
![]()
Andrew Dai:我先講一下Gemini 2.5。2.5是因為Noam Shazeer從Character.AI回到谷歌,他幫助了2.5,讓2.5成為了一個比較好的模型。
陳茜:Shazeer帶來了什么讓2.5變得更好?
Andrew Dai:他帶來了他的能力。舉個例子:有一次我跟Noam討論Transformer的架構(gòu),我說在這里加一個connection(連接)會不會更好?他說不會好,因為gradient(梯度)就會從這里移到那里,他連模型都不用跑,就知道訓(xùn)練之后會是什么結(jié)果。他真的是一個天才,一看代碼就知道這是不是一個好的模型,憑直覺就能理解模型是如何工作的。
陳茜:所以acqui-hire(收購式招聘)是合理的,一個人的能力就能幫公司省很多錢和時間。
Andrew Dai:這確實是一筆劃算的交易,他非常厲害。
陳茜:那在3.0上你們做了哪些優(yōu)化?
Andrew Dai:3.0我們繼續(xù)在數(shù)據(jù)方法上做了新的創(chuàng)新。但我離開的原因是:我能感覺到我們用的方法和取得的進(jìn)展都比較保守,因為有幾千個人在這個項目上,用那么多GPU做預(yù)訓(xùn)練,就不能用太激進(jìn)、太有風(fēng)險的新想法。所以我覺得那是一個比較好的離開時機,去創(chuàng)業(yè)。
陳茜:所以你覺得在數(shù)據(jù)上還可以更快地提升優(yōu)化,用更大膽、更激進(jìn)的方式去做事情。但在谷歌,你覺得這方面的速度被拖慢了。
Andrew Dai:對,對谷歌來說可能有點危險,因為這種方法會大量改變數(shù)據(jù)。
陳茜:那你的新方法是什么?
Andrew Dai:這個我不能說。(笑)
07
Neolab爆發(fā)
創(chuàng)立Elorian AI,探索視覺推理路線
陳茜:你的新方法就是你自己創(chuàng)業(yè)。你想做的是視覺推理模型,在你能說的范圍內(nèi),能解釋一下你想用什么技術(shù)路徑實現(xiàn)什么目標(biāo)嗎?
![]()
Andrew Dai:我們的團隊是一個full-stack(全棧)團隊,有非常了解數(shù)據(jù)、預(yù)訓(xùn)練、多模態(tài)、RL(強化學(xué)習(xí))、post-training(后訓(xùn)練)、infer(推理)的人。所以我們不只是想在數(shù)據(jù)上做改變,去做一個更好的多模態(tài)推理模型,我們是整個full-stack approach(全棧方法)。我覺得Anthropic就是這樣的,它是一個專注于編程的全棧公司,每個部分都聚焦在編程上。我們則是在數(shù)據(jù)、架構(gòu)、RL算法的每個環(huán)節(jié)都聚焦在多模態(tài)上,包括vision encoder(視覺編碼器)都會有新的方法。
陳茜:為什么你們現(xiàn)在做的事情谷歌做不了?
Andrew Dai:可以對比Anthropic。Anthropic的編程模型做得很好,但它不做多模態(tài)的東西,不會生成圖片或視頻,因為他們專注于編程。而Gemini和ChatGPT,他們的模型什么都可以做,在我們行業(yè)叫g(shù)eneralist models(通用模型),Claude這個模型可能叫specialist model(專用模型)。我們這個公司也是同樣的想法:如果你做一個specialist model(專用模型),generalist model(通用模型)就很難超越它。因為我們會有更多多模態(tài)數(shù)據(jù),我們會把數(shù)據(jù)調(diào)整好,去掉對多模態(tài)沒有幫助的數(shù)據(jù),比如“二戰(zhàn)是誰贏的、在哪里打”這類信息對多模態(tài)其實沒什么幫助,我們就可以減少這類數(shù)據(jù),把更多資源留給多模態(tài)數(shù)據(jù)、視頻和圖片,這種方式其他公司很難追上來。
陳茜:現(xiàn)在的視覺模型,比如Google的Veo系列或者OpenAI的Sora系列,你覺得它們還不夠好,因為視覺里面它們還不夠理解自己在生成的東西,是嗎?能給我們解釋一下,視覺理解模型是什么?它跟Sora和Veo這樣的視頻生成模型有什么區(qū)別?
Andrew Dai:生成、理解和推理是非常不同的三件事。以語言模型舉例:5年前這些模型已經(jīng)會寫代碼,讓GPT-3寫代碼,普通人看了會覺得寫得很好,像是工程師寫的,但工程師看了肯定會說:這個不對,根本跑不了,這就是生成和理解的區(qū)別。這些大模型都很容易生成內(nèi)容,一眼看上去挺好,但仔細(xì)看就會發(fā)現(xiàn)問題,比如圖片里字寫錯了、人有三只手、動物有五條腿。導(dǎo)演看了視頻也會說:這個地方不對,明顯是AI生成的,拍攝風(fēng)格很AI。所以我們在視覺理解能力上,可能相當(dāng)于5年前的GPT-3、GPT-2在語言理解上的水平。
陳茜:我記得我們在前采的時候,你提到了一個老鷹抓兔子的比喻,我覺得很形象。
Andrew Dai:對,那是在談世界模型。你可以想象一只老鷹,很多老鷹都捕食鳥類,但要抓住一只鳥,你肯定需要理解重力、風(fēng)和氣流,知道翅膀需要以什么角度才能追上另一只鳥,還要預(yù)測那只鳥會往哪個方向飛,計算需要多快的速度才能在同一個點截住它。老鷹的大腦可以處理這些非常復(fù)雜的計算,也可以計算出兔子跑到橋下會從哪里出來,或者老鼠跑進(jìn)草叢會從哪里出來。這些動物對自然世界、物理世界有深刻的理解。
但如果我們能把老鷹的大腦取出來問它:萬有引力定律是什么?萬有引力常數(shù)是多少?需要拍打什么角度才能飛行?它不會知道這些,因為這些概念都是人類發(fā)明的,如果我們是有4只手或者有 20 個手指,那我們數(shù)學(xué)可能就很不一樣。因此,老鷹自己的世界模型,幫不了其他領(lǐng)域,這就是我覺得世界模型和語言模型的區(qū)別。
陳茜:現(xiàn)在很多neolab出來,嘗試不同的模型研發(fā)思路。一派是大語言模型,一派是世界模型,但你相信存在一個中間點,也是目前你們在做的這一派:既需要語言模型,又需要視覺模型。能不能幫我們梳理一下這三派各自的信仰,以及他們押注的AGI路徑?
Andrew Dai:我們現(xiàn)在看語言模型,它們的思維鏈都是用語言來完成的,包括Gemini、ChatGPT、Claude,他們認(rèn)為思維鏈越來越長、越來越多樣,模型就越來越聰明,可以做越來越多的事情,最終達(dá)到AGI。通過更強的編程能力,從而做出更好的模型。但如果你看這些模型在處理視覺問題上的表現(xiàn),它們現(xiàn)在都不會“數(shù)”東西,比如桌子上放幾個杯子,它們經(jīng)常會產(chǎn)生幻覺、說錯數(shù)量。所以我覺得,光scale(擴展)語言部分,還是不夠理解我們的世界,不夠理解圖片和視頻。
另一個方向是世界模型,很多做這個的實驗室來自計算機視覺領(lǐng)域,比如李飛飛和Yann LeCun,他們的想法更偏學(xué)術(shù)。學(xué)術(shù)界強調(diào)novelty(新穎性),因為你必須要有novel的東西才能發(fā)表論文,所以他們傾向于做與眾不同的新東西。他們相信視覺是intelligence(智能)的關(guān)鍵,就是因為人類有視覺,所以人很聰明。這也有歷史背景,NeurIPS以前大部分文章都是視覺方向,做語言理解的人很少,包括我和Quoc,都算少數(shù)。但從語言角度看,光靠視覺是不夠的。動物能用視覺做我們的機器人還做不到的事,就像老鷹可以抓住那只鳥。但就算我們做出一個很好的虛擬老鷹,我們還是沒有intelligence,還達(dá)不到AGI。視覺領(lǐng)域的人會覺得vision is the key to intelligence(視覺是智能的關(guān)鍵),所以他們更傾向于靠視覺和圖像數(shù)據(jù),靠世界模型。但這樣就無法和數(shù)學(xué)、物理、化學(xué)這些人類創(chuàng)造的概念體系結(jié)合,因為這些都是人為的東西,和世界模型還是比較遠(yuǎn)。
所以我們公司的想法是:要把視覺推理和語言推理結(jié)合起來,才能做出一個可以幫助所有行業(yè)的模型。
陳茜:就相當(dāng)于把重力公式輸?shù)嚼销椀哪X子里?
Andrew Dai:對,哈哈,用老鷹的眼睛,用一部分老鷹的大腦,但還是要用人的推理。
陳茜:世界模型這個概念這兩年很火,你覺得這些公司的發(fā)展能達(dá)到AGI嗎?
Andrew Dai:可能五年后再問我這個問題,我覺得它們現(xiàn)在還非常早期,可能相當(dāng)于大模型最早期的階段:訓(xùn)練的時候還是在一塊顯卡上跑。就像我們2015年做最初的預(yù)訓(xùn)練時也是一塊顯卡開始,但需要很多年才能做成一個大模型。
陳茜:所以你覺得世界模型還沒有到它的Transformer時刻?
Andrew Dai:還沒有。他們可能需要一種新的結(jié)構(gòu),像JEPA,我覺得還需要再走幾步才能到一個有用的模型。
陳茜:你覺得在視覺推理領(lǐng)域,其他公司的競爭優(yōu)勢是什么?谷歌內(nèi)部可能也看到了這個方向,Meta、OpenAI也會做。我看到DeepSeek之前好像也發(fā)布了一篇類似的文章,后來把那篇文章刪掉了。你覺得現(xiàn)在的競爭格局是什么樣的?
![]()
Andrew Dai:DeepSeek那篇文章很有意思,發(fā)出來之后又刪了,但在網(wǎng)絡(luò)上什么都刪不了,大家都已經(jīng)讀過了。其實DeepSeek的想法和我們的路徑很像。但其他前沿實驗室,像OpenAI、DeepMind和Anthropic,我覺得他們越來越偏向編程方向,因為編程市場很大,而且他們認(rèn)為做好編程模型可以實現(xiàn)self-improvement,也就是所謂的recursive self-improvement(遞歸自我提升,RSI)。誰先突破,誰就先達(dá)到AGI,這些前沿實驗室都不想成為第二,所以有很大壓力去做更好的編程模型。正因為這種壓力,他們對多模態(tài)視覺推理這個方向關(guān)注不夠。我在Gemini的時候就感受到了這一點,所以覺得現(xiàn)在是做多模態(tài)推理模型的好時機。
陳茜:所以你覺得DeepSeek會是你們比較大的競爭對手嗎?
Andrew Dai:可能吧,但我不知道他們?yōu)槭裁窗涯瞧恼聞h了,是不是又換了方向?
陳茜:如果你們是一個非常research-driven(研究驅(qū)動)的團隊,距離達(dá)到AGI還有一段時間。那投資人肯定也會問:中間你用什么來養(yǎng)活自己?除了VC的錢,你們的產(chǎn)品商業(yè)化落地是怎么規(guī)劃的?
Andrew Dai:我們是一個研究與產(chǎn)品并重的實驗室,也做frontier research(前沿研究)。但我有Google Brain的背景,Google Brain當(dāng)時也有一個目標(biāo):把這些模型放到產(chǎn)品里,讓幾十億人使用。現(xiàn)在Gemini就有很多人在用了,那是比較成功的。我們這家公司也有同樣的目標(biāo):做一個APII(應(yīng)用程序接口),讓大家使用,幫助企業(yè)解決視覺問題。
陳茜:就是通過模型API的方式變現(xiàn)。但你的ultimate goal(終極目標(biāo))還是幫助大語言模型和視覺模型一起達(dá)到AGI?
Andrew Dai:對,至少達(dá)到視覺AGI。
陳茜:怎么定義視覺AGI?
Andrew Dai:我覺得“視覺AGI”比“AGI”表達(dá)得更準(zhǔn)確。AGI的門檻每天都在變,有些人說我們已經(jīng)達(dá)到AGI,有些人說沒有。但“視覺”這件事,大部分人都能看到東西,在最基本的層面上能力差不多,比如你看到一個方向盤就知道怎么用,看到系鞋帶的動作就知道怎么做,拼樂高或宜家家具也都是視覺問題,但這些現(xiàn)有的模型都做不好。如果有了一個可以做這些最基本視覺任務(wù)的模型,那距離AGI就不遠(yuǎn)了。
08
“最重要的資源是時間”
谷歌14年的研究品味與引路人
陳茜:你覺得自己出來做公司跟在谷歌有什么不一樣?在谷歌14年,你有無限的資源、資金和人才,出來之后什么都要自己搞,需要找人、找錢、找方向,這中間的差異對你來說是什么樣的體驗?
Andrew Dai:很多地方不一樣,卡方面當(dāng)然少很多。但有一個優(yōu)點,在谷歌或大公司,優(yōu)先級可能每周都變,今天有卡,下周可能就沒了。在新公司則更穩(wěn)定,我們買了卡,沒有人會拿走。
另外,我突然需要學(xué)很多新東西,比如怎么用PyTorch(因為DeepMind都用JAX)、怎么用Megatron、怎么用AWS、怎么用Slurm。谷歌基本上不用開源的東西,所以學(xué)習(xí)曲線對我來說很陡峭。
還有一個比較難的是招聘,DeepMind的Gemini團隊很多人都想加入,發(fā)了offer候選人一般會接受。但在小公司不一樣,我們現(xiàn)在還沒有太大的名氣,候選人知道小公司風(fēng)險更大。所以招聘更難,有的人喜歡大公司的安全感,但也有人想嘗試新的地方,覺得我們可能會成為下一個OpenAI或Anthropic,所以會加入我們。
陳茜:出來之后,你說會有更多的research freedom(研究自由)。但研究自由的代價是什么?
Andrew Dai:代價是支持會少一些。在谷歌,如果一個研究想法不成功,沒關(guān)系,還可以做下一個項目,公司有很多資源支持你。但在初創(chuàng)公司,一個失敗的研究想法風(fēng)險更高,因為那些資源已經(jīng)消耗了,不會回來。因此我做研究的壓力會稍微大一些,我們現(xiàn)在就是尋找世界上最好的研究員,靠他們做出很好的成果。
陳茜:你覺得谷歌這14年帶給你最大的是什么?
Andrew Dai:我這幾年運氣很好,能待在世界一流的研究室,看著AI發(fā)展到今天這個程度。10年前沒有人會想到AI會發(fā)展得這么快,這是不可能的。我本來一直覺得世界變化比較慢,登月都已經(jīng)是快六十年前的事了,但AI出現(xiàn)之后,突然感覺科技發(fā)展又重新提速了。
陳茜:你之前跟我提到過一個詞叫research taste(研究品味),說neolab的這些人,都是因為他們所看重的研究方向在大公司里不被重視,但這很考驗一個研究員的研究品味。能跟我們說一下,研究品味為什么重要嗎?你在谷歌的14年是如何養(yǎng)成這種研究品味的?
Andrew Dai:對,研究品味很重要,不只是因為跑實驗需要卡和資源,我覺得最重要的資源是時間。如果你跑了一個錯誤的實驗或者走了一條錯誤的路,時間不會回來。你要知道什么時候繼續(xù)追一個方向,也要知道什么時候放棄,研究品味就能幫助你做出這些判斷。
我的研究品味很大程度上來自Geoffrey Hinton。他一直認(rèn)為,做AI要根據(jù)大腦的工作方式來,如果大腦用某種方式處理視覺,那我們的模型也應(yīng)該用類似的方式。就像CNN(卷積神經(jīng)網(wǎng)絡(luò)),這些神經(jīng)網(wǎng)絡(luò)模型是參照大腦的神經(jīng)元設(shè)計的,也是從數(shù)據(jù)中學(xué)習(xí)的。我們現(xiàn)在的模型也都是從數(shù)據(jù)學(xué)習(xí),一個全新的Transformer什么都不知道,給了數(shù)據(jù)才能做事。這也契合神經(jīng)科學(xué)的想法:大腦一開始什么都不懂,通過成長才慢慢學(xué)會很多東西。所以我做研究的時候,也按照這個思路來判斷:如果某個新方向和人類神經(jīng)認(rèn)知的方式相差很遠(yuǎn),我可能就不會追那個方向。
陳茜:你的新公司Jeff Dean也有投資,你覺得在整個谷歌生涯中,Jeff Dean對你來說是怎樣的存在?
Andrew Dai:Jeff Dean是一個很好的advisor(導(dǎo)師)。我剛進(jìn)Brain團隊就認(rèn)識了他,那時候我們的模型跑得很慢,我的經(jīng)理說如果有速度問題,直接去問Jeff Dean,他什么都知道。他來到我的電腦旁邊,不光看代碼,還看machine code(機器碼),比C++和Python還要深層的代碼,然后說“噢,這個地方不對”,然后他就給改了。
從那時候我就知道Jeff Dean是很親力親為的人,什么都懂、什么都學(xué),包括自學(xué)了深度學(xué)習(xí),才能做出Google Brain。所以他是我比較重要的榜樣。他現(xiàn)在是Gemini的負(fù)責(zé)人,做得很好。
陳茜:在谷歌里面還有沒有其他對你影響很大的人?
![]()
Andrew Dai:Quoc Le的影響也比較大,我跟他合作了好幾個項目,也一起帶了好幾個實習(xí)生。谷歌厲害的人太多了,我覺得Google Brain和DeepMind就是這一代的Bell Labs(貝爾實驗室),聚集了非常多聰明的人。包括Noam Shazeer,他真的非常厲害。還有Demis Hassabis,他是很獨特的人,致力于用AI幫助整個世界,這個目標(biāo)我覺得很了不起。
陳茜:最后可以聊聊你想招什么樣的人才?對于好的人才,你跟他們喊幾句話,告訴大家為什么他們應(yīng)該來你的公司,和你一起實現(xiàn)視覺AGI?
Andrew Dai:我們現(xiàn)在在招世界一流的團隊。我們認(rèn)為人才密度越高,進(jìn)步就越快。我看到DeepSeek這些中國研究機構(gòu),正是因為規(guī)模小、人才密集,才能做出很好的東西。我們在招有多模態(tài)經(jīng)驗、RL經(jīng)驗的研究員,也在招管理過GPU集群、training kernels(訓(xùn)練算子)、CUDA kernel(CUDA算子)、optimization(優(yōu)化)這些方向的基礎(chǔ)設(shè)施工程師。
為什么要加入我們?因為我覺得我們這個團隊屬于是neolab里的頂尖梯隊,能找到有這么多數(shù)據(jù)經(jīng)驗、預(yù)訓(xùn)練經(jīng)驗、前沿模型經(jīng)驗的地方可能只有三四個,大部分其他的neolab都沒有這么豐富的積累。我們的方向也是一個比較新的方向,我們認(rèn)為會帶來下一代的推理,一種更接近人類推理方式的reasoning(推理)。我們希望大家來跟我們一起成長,成為下一個Anthropic或下一個OpenAI。
陳茜:好的,謝謝Andrew。
Andrew Dai:謝謝。
09
Office tour
AI科學(xué)家需要綠植和白天蒸桑拿?
陳茜:你們也是剛搬進(jìn)來,對吧?
Andrew Dai:對,剛搬進(jìn)來,我們還在用鑰匙開門。
陳茜:現(xiàn)在是周五下午,員工都差不多離開了。你們現(xiàn)在有多少人?
Andrew Dai:差不多15個人。
陳茜:你們現(xiàn)在的比例是怎樣的?多少人在做研究,多少人在做基礎(chǔ)設(shè)施?
Andrew Dai:可能是12個人在做研究,1個人在做基礎(chǔ)設(shè)施,2個人在做運營,我們是非常重研究的團隊。
我們之所以選擇這個辦公室,就是因為這個院子。就像大學(xué)里的Quad(四方院)。我們午飯、happy hour都來這里,有客人也在這里接待。
![]()
陳茜:你們還需要多一點綠植。
Andrew Dai:對,還有一個噴泉,可以讓人放松。
陳茜:這個院子你打算再加什么東西嗎?
Andrew Dai:我們有一個研究員想加一個桑拿,累了就去泡。可能在桑拿的時候能想到一些東西。就像我洗澡的時候會thinking(思考)。
陳茜:所以你會用視覺模型去玩桌游嗎?
Andrew Dai:我試過了,但它們太差了,連象棋都不太會玩。可能等我們的模型做完之后,就可以用它打桌游了。
陳茜:你最愛的辦公室是哪一間?
Andrew Dai:就是角落那間。
陳茜:這間嗎?光線很好,還有一個站立式辦公桌。所以你經(jīng)常會在這邊看著外面,想一想?
Andrew Dai:對,或者坐在這里打電話。
![]()
陳茜:你現(xiàn)在大概一天的時間分配是怎樣的?有多少時間在做運營工作,多少時間在做research(研究) 跟thinking(思考)?
Andrew Dai:我白天大部分時間都在做運營,比如面試、搭建IT架構(gòu)、搭建AWS。Research(研究)基本上是周末和晚上,在家里很安靜,可以思考新的方法。
陳茜:經(jīng)常在洗澡的時候有新想法。
Andrew Dai:是的,很多idea都是洗澡時冒出來的。
陳茜:我也是。然后idea來了之后,馬上用Claude Code就可以實現(xiàn)了。
Andrew Dai:對,現(xiàn)在因為編程模型很好,我們可以很快套進(jìn)去看看,這個idea好不好,快很多。
陳茜:這個idea是來自研究員還是你自己?你們公司的idea是怎么產(chǎn)生的?
Andrew Dai:都有。比如一些新的vision encoder(視覺編碼器)的想法是我提出的,一些SFT(監(jiān)督微調(diào))和數(shù)據(jù)的想法是團隊里的人提出的,現(xiàn)在正在跑。但我們總體覺得,自動化研究工具產(chǎn)生的想法太平庸了,沒有創(chuàng)造力,做研究一定需要創(chuàng)造力。
以前ideas很便宜,因為編程很難、執(zhí)行很難。但有了Claude Code、GPT Codex之后,執(zhí)行容易了很多,ideas的價值就上漲了。
陳茜:所以這些有創(chuàng)造力的研究員,現(xiàn)在是大家爭搶的寶貴資產(chǎn)。
Andrew Dai:對,creative researchers(有創(chuàng)造力的研究員)非常重要。
陳茜:最近neolab出來了很多人和創(chuàng)業(yè)公司,你覺得這個趨勢還會持續(xù)嗎?
Andrew Dai:我覺得還會,因為現(xiàn)在機會很多,開源模型很多,融資也變得容易了一些,很多公司都在IPO。所以這段時間我覺得還會有更多。但這也是一個窗口,過了一段時間,我們這一代neolab都成長壯大了,再新起來的就會更難了。
陳茜:你覺得這個窗口的截止日期是什么時候?
Andrew Dai:很難說,可能是這兩年吧。然后等一段時間,又會有下一代實驗室。
陳茜:下一代實驗室會是什么樣子的?
![]()
Andrew Dai:我不知道。可能是AGI之后的實驗室,那我就不知道了,可能都是AI在跑,但現(xiàn)在它們的創(chuàng)造力離人類的創(chuàng)造力還太遠(yuǎn)了,所以還不適合。
陳茜:好的,謝謝Andrew。
Andrew Dai:謝謝。
以上就是我們與Andrew Dai的全部訪談和辦公室探訪了。Neolab是如今在硅谷非常重要的一個支線,也是今年在硅谷101著重關(guān)注的方向。接下來我們還會有更多Neo Labs創(chuàng)始人的深度訪談。
如今VC的大量資金涌入這樣的新型AI實驗室,是因為這些大基金們在OpenAI等前沿模型上的賭注已經(jīng)太重了,他們需要一些對沖:萬一大語言模型無法走到最后呢?那么接下來AI怎么發(fā)展,可能就是要看這些neolab的研究的成果。
就像AI靈魂領(lǐng)袖Ilya Sutskever說的那樣:我們正在重新回到“研究時代”。
注:部分圖片來源于網(wǎng)絡(luò)
【本期節(jié)目不構(gòu)成任何投資建議】
【視頻播放渠道】
國內(nèi):B站|視頻號
海外:Youtube
聯(lián)系我們:video@sv101.net
【創(chuàng)作團隊】
監(jiān)制|泓君 陳茜
撰稿/采訪 |陳茜
剪輯|Frentee 橘子
運營|孫澤平 王梓沁 13
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.