谷歌AI的14年、Gemini翻身之戰(zhàn)，與視覺理解模型：專訪DeepMind前核心科學(xué)家Andrew Dai｜Neolabs特輯

2026-05-20 15:27:17　來源: 硅谷101

上海舉報

分享至

他的論文，啟發(fā)了OpenAI GPT的誕生。

在谷歌研究AI 14年，Andrew Dai推動數(shù)項重要論文、輾轉(zhuǎn)數(shù)個產(chǎn)品，最后成為帶領(lǐng)Gemini打下翻身之戰(zhàn)的核心人物之一。

Andrew長期處在谷歌AI研發(fā)的中樞：從早期sequence learning（序列學(xué)習(xí)）、文本生成、對抗訓(xùn)練，到 PaLM、FLAN、Gemini、多模態(tài)和長上下文等等。與他合作論文的，都是谷歌的眾多傳奇大佬人物，包括Quoc Le、Ian Goodfellow、Liam Fedus、Jeff Dean等人。Andrew的職業(yè)軌跡可以說就是一部谷歌AI大模型的編年史。

然而在將Gemini 3順利上線之后，Andrew Dai決定離開待了近14年的谷歌。原因是他看到了一條大公司“不敢走”、或者是“走得太慢”的路——不是純語言模型，也不是世界模型，而是語言與視覺推理的結(jié)合。

今年4月，Andrew創(chuàng)立的Elorian AI宣布融資5500萬美元，估值3億美元，正式從保密階段走向公眾視野。投資方包括Menlo Ventures，Altimeter Capital等主流硅谷基金，還包括英偉達(dá)和以個人身份參與的Jeff Dean。

2026年的Google I/O正在召開，我們此次與Andrew一起回顧了谷歌過去14年的AI發(fā)展史：如何錯過，如何落后，如何追趕，又如何重回巔峰的。這背后究竟有一些什么樣的故事？Andrew Dai現(xiàn)在要做的多模態(tài)視覺推理模型又是什么？

硅谷沒有秘密，但有一群信仰不一樣未來的科學(xué)家們。在巨頭們押注SOTA LLM之際，眾多科技領(lǐng)軍人物都開始紛紛創(chuàng)建自己的AI前沿新實驗室（Neolabs），他們不拼算力和參數(shù)，而是希望找到一條真正達(dá)到智能的路徑。此次，硅谷101也開啟了Neolabs特輯，想和這群科學(xué)家們深度聊聊，他們眼中的AGI之路。今天這期，是此次特輯的第一期視頻播客。

（本文為視頻改寫，歡迎大家收看以下視頻）

從倫敦到硅谷

一位谷歌AI核心科學(xué)家的14年

陳茜：非常感謝Andrew，歡迎你來做客硅谷101。我覺得你們的新辦公室這邊采光很好，這個房間你們以后準(zhǔn)備用來做什么？

Andrew Dai：這個房間以后會讓研究員和工程師坐在這里。我們租辦公室至少要租兩年，所以已經(jīng)預(yù)估好兩年后會有多少人了。

陳茜：兩年后你會有多少人？

Andrew Dai：可能是50到70人。

陳茜：現(xiàn)在多少人？

Andrew Dai：現(xiàn)在是14個人，還有兩個人在辦簽證，很快就16個人了。

陳茜：我在來之前聽了你的一個英文播客，發(fā)現(xiàn)你有一點British accent（英式口音），是因為你之前在英國念書嗎？

Andrew Dai：對，我在中國出生，但五歲就去了英國，因為我父親去英國讀博士，帶著我一起過去。本科我在劍橋讀，然后去愛丁堡讀博士。

陳茜：你的中文其實還是講得挺好的。

Andrew Dai：我的家人一直督促我練中文，我也認(rèn)識一些來自中國的朋友，所以一直在堅持學(xué)。

陳茜：你是什么時候來到硅谷的？

Andrew Dai：14年前，就是2012年，為了在谷歌工作。

陳茜：當(dāng)時為什么想來谷歌？

Andrew Dai：我讀博士研究的是人工智能，從中學(xué)起就一直想做AI。那時候Google Brain（谷歌大腦）團隊比較有名，所以我就想加入谷歌大腦。而DeepMind那時候還是一家很小的初創(chuàng)公司，我甚至不知道有DeepMind這家公司，所以就直接想來人工智能的中心，就是硅谷。

陳茜：如果你留在倫敦的話，是不是也有可能加入DeepMind，然后最后也來到谷歌？

Andrew Dai：很可能。后來我才知道，我們實驗室的很多同學(xué)都去了DeepMind，就我一個人來到了Google Brain。當(dāng)然來這里還有另一個原因，因為硅谷很容易創(chuàng)業(yè)，很多新公司都從這里誕生。所以我當(dāng)初打算來這里待幾年，然后就創(chuàng)業(yè)。

陳茜：沒想到一待就是14年。

Andrew Dai：對，沒想到待那么久。

陳茜：我們來講講你進(jìn)入谷歌后的工作。你的第一份工作是去到了Google Now，那個團隊是當(dāng)時Larry Page希望Android和Search團隊搭建一個能結(jié)合用戶數(shù)據(jù)，來主動給用戶推送提醒信息的功能。那時候背后已經(jīng)有一定的AI研究，你在Google Now里在做什么？

Andrew Dai：那個經(jīng)歷比較有意思。他們招我去Google Now是為了做AI，但我到了團隊才發(fā)現(xiàn)，工程上有很多基礎(chǔ)設(shè)施的工作要做，比如有新聞出來，他們想個性化地推送給用戶，我就編寫了一套系統(tǒng)，能在15分鐘內(nèi)把新聞推送到所有人的手機上。有一次我們發(fā)現(xiàn)推送新聞很慢，要100毫秒，大家在想為什么這么慢？我發(fā)現(xiàn)數(shù)據(jù)在東海岸，而我要把數(shù)據(jù)送到西海岸，按照光速就需要這么多時間，沒有辦法更快，我從中學(xué)到了很多end-to-end（端到端）的東西。后來快離開的時候，我也開始做更多AI、更多個性化的工作。再之后就去Google Brain了。

兩次收購、兩種哲學(xué)

Hinton與DeepMind如何改變谷歌

陳茜：谷歌在2013、2014年有幾個重要節(jié)點。第一個是2013年收購了Geoffrey Hinton的公司DNNresearch，Hinton之后加入谷歌工作。你覺得Hinton來到谷歌之后產(chǎn)生了什么樣的影響？

Andrew Dai：Hinton來了之后，谷歌就更加重視AI。那幾年我記得CEO也說了，Google是一家AI公司。Larry Page和Sergey Brin當(dāng)初創(chuàng)造算法，目標(biāo)本就是讓機器運用AI幫助人們理解網(wǎng)絡(luò)上的內(nèi)容，所以他們一直非常重視AI。但2012年之后開始了Deep Learning（深度學(xué)習(xí)）新階段，谷歌覺得如果不投這個方向就會落后，所以收購了Geoffrey Hinton的公司。從那以后，深度學(xué)習(xí)對谷歌就非常重要，它們的模型也越來越多地轉(zhuǎn)向Neural Network（神經(jīng)網(wǎng)絡(luò)）。

陳茜：2014年谷歌又收購了DeepMind，你覺得DeepMind團隊的加入，包括Demis Hassabis的加入，在多大程度上改變了谷歌？

Andrew Dai：DeepMind和DNNresearch的收購方式很不一樣。DeepMind在收購時簽了一份協(xié)議，要求保持獨立、團隊可以繼續(xù)留在倫敦，不用來美國，附帶很多這樣的條件，所以基本上是一個獨立的研究實驗室。這跟Google Brain的定位不同，Google Brain的目標(biāo)是做研究，然后和產(chǎn)品合作、將模型推向產(chǎn)品，DeepMind更像是你想做什么就做什么，只要你覺得重要，像AlphaGo這樣的項目都可以做，兩邊的理念有一定差異。

陳茜：所以DeepMind是非常獨立的，Hassabis說了算，谷歌也不太會管他們。

Andrew Dai：對，他們的招聘也有自己的方式，內(nèi)部包括代碼等很多東西都跟谷歌是分開的。

陳茜：那當(dāng)時Google Brain的AI研究員，比如你，會跟DeepMind的人有合作嗎？

Andrew Dai：會，但比較少。合作時會有credit assignment（功勞分配）的問題，這個項目到底是DeepMind主導(dǎo)還是Google Brain主導(dǎo)。在大公司里，ownership（所有權(quán)）很重要，所以這類項目就更復(fù)雜了。

半監(jiān)督序列學(xué)習(xí)

谷歌錯過的“GPT時刻”

陳茜：我看到你在2015年開始研究語言模型的預(yù)訓(xùn)練與微調(diào)，當(dāng)時就應(yīng)該是在Google Brain部門了。這一輪GenAI（生成式AI）的奠基石Transformer論文是2017年發(fā)布的，但在此之前，你和Google Brain聯(lián)合創(chuàng)始人之一Quoc Le共同主導(dǎo)了一篇文章《Semi-supervised Sequence Learning》（半監(jiān)督序列學(xué)習(xí)），可以幫我們解釋一下，這篇論文主要解決了什么問題么？

Andrew Dai：那篇文章其實不是我們一開始就計劃好的。我們本來是在做一種叫paragraph vectors（段落向量）的技術(shù)。那時候有Word2Vec，也就是Word Embedding（詞嵌入），大家可能聽說過，LLM出現(xiàn)之前大家都在用這些東西。我們想做一個更好的版本，做了很多很多實驗，但都失敗了。

有一天我跑了一個實驗，發(fā)現(xiàn)結(jié)果非常好，比其他論文的分?jǐn)?shù)都高。但當(dāng)我想復(fù)現(xiàn)它重跑一次，卻跑不出之前的結(jié)果，我就覺得肯定哪里有bug。于是我繼續(xù)挖，發(fā)現(xiàn)是因為訓(xùn)練這個模型的時候，我是從另一個目錄，也就是另一個checkpoint（檢查點）開始的，而那個checkpoint屬于一個別的做語言模型的項目。這時候我就發(fā)現(xiàn)了：如果先做語言模型，再用監(jiān)督數(shù)據(jù)進(jìn)行微調(diào)，就可以得到一個很好的模型。這就是我們發(fā)現(xiàn)的東西，然后就把它寫成了論文。

之前大家是把這兩部分分開的，沒有想過用語言模型來做語言理解。我們的核心想法是：把語言模型和fine-tuning（微調(diào)）結(jié)合到一起，就可以做出一個很好的模型。所以我們是第一個把這兩部分放在一起的團隊。

陳茜：這篇論文現(xiàn)在回看，很像是“大規(guī)模預(yù)訓(xùn)練+下游微調(diào)”的范式。當(dāng)然那時候Transformer還沒出來，你們用的還是LSTM（長短期記憶網(wǎng)絡(luò)），但你當(dāng)時有沒有意識到，它可能會引領(lǐng)出一個更大的東西？

Andrew Dai：那時候我們的卡很少，大家都沒有用很多顯卡做訓(xùn)練，所以模型規(guī)模也比較小。我記得那年我們在NeurIPS（神經(jīng)信息處理系統(tǒng)大會）上發(fā)表了這篇文章，LSTM的主要作者Sepp Hochreiter來看了我們的海報，說他已經(jīng)試過我們這個方法，結(jié)果很好。從那時候我們就知道，以后應(yīng)該會有很多人用這個方法，但我們沒想到過了十年還在用，而且模型規(guī)模擴大了這么多倍。

陳茜：那Transformer出來的時候，你有意識到這兩個東西可以融合起來，變成一個更大的突破嗎？

Andrew Dai：Transformer出來的時候，我就覺得它很適合和我們做的預(yù)訓(xùn)練結(jié)合。所以Transformer論文發(fā)布第二天，我就找了我的朋友，Transformer論文的一作Ashish Vaswani，對他說：“我們兩年前有這篇預(yù)訓(xùn)練的文章，結(jié)果很好，你要不要在Transformer上也試試預(yù)訓(xùn)練？”但那時候他很忙，在做一些圖像處理的東西，所以沒有時間，后來就是OpenAI做了。

陳茜：那OpenAI是誰主導(dǎo)這件事，發(fā)現(xiàn)了Transformer可以和你們這篇文章結(jié)合？

Andrew Dai：是Alec Radford。他寫了GPT-1、GPT-2、GPT-3的論文，引用了我們那篇文章，看出了scaling的潛力：模型越來越大，產(chǎn)出的語言就越來越好。

陳茜：谷歌是什么時候意識到這兩個東西都是從自己這里出來的，結(jié)果被OpenAI結(jié)合在一起用了？

Andrew Dai：我覺得是GPT-3出來的時候才意識到。GPT-3是整個世界的轉(zhuǎn)折點，不只是谷歌，Meta等很多公司都發(fā)現(xiàn)GPT-3的語言能力相當(dāng)驚人，可能scaling才是正確方向。之前大家都不愿意把那么多顯卡都押在一個實驗上，但GPT-3之后，谷歌就開始愿意這樣投入了。

陳茜：在GPT-3出來之前，Google Brain的聯(lián)合創(chuàng)始人Jeff Dean、Andrew Ng（吳恩達(dá)）、Quoc Le，還有DeepMind的Hassabis，他們那時候分別在做什么？

Andrew Dai：Hassabis那段時間我記得好像是在做AlphaGo，他們相信把游戲做好就可以產(chǎn)生intelligence（智能），比如Atari（雅達(dá)利）游戲和圍棋。

Google Brain是另一個方向，包括Geoffrey Hinton也是這個想法：如果做一個什么都能做的AI，那才是真正的intelligence（智能），不要只專注一個小領(lǐng)域。那時候Google Brain的文化以自由著稱，你想做什么都可以做。Jeff Dean在領(lǐng)導(dǎo)Brain團隊，但下面的研究員什么都在做，有的在做音樂生成，做語言的人其實很少，基本上就是Quoc和我還有幾個人，大部分人都在做視覺或視頻處理。

陳茜：就是沒有一個人強有力地站出來說：我們要集合所有資源押注在同一個賽道上，直到他們看到GPT-3出來。

Andrew Dai：對，后來就變了。

陳茜：所以你覺得OpenAI為什么能看到Semi-supervised Sequence Learning（半監(jiān)督序列學(xué)習(xí)）的能力，而谷歌看不到呢？你當(dāng)時跟Transformer作者說了這個想法，他沒理你，之后你就沒有再推進(jìn)了嗎？

Andrew Dai：那是2017年，時間節(jié)點很特別。那時候Google Brain開始成立谷歌健康部門，覺得health（醫(yī)療健康）是一個很熱門的領(lǐng)域，大家都想進(jìn)入這個方向，包括蘋果和微軟。谷歌也覺得應(yīng)該把AI放進(jìn)健康里，所以讓我選擇：是要進(jìn)入這個新的谷歌健康部門，讓AI可以治病，還是留在Brain。我選擇去了Health，因此就沒有機會去做GPT這類模型了。

陳茜：那有沒有其他人繼續(xù)往這個方向深推呢？

Andrew Dai：后來沒有繼續(xù)往上scale（擴展），但有人把它用到了產(chǎn)品上，像Smart Compose、Smart Reply就是用了預(yù)訓(xùn)練的方法。

谷歌落地為何總是慢半拍

PaLM 2、FLAN、RL與MoE

陳茜：了解了。我們接著說說你在Health部門在研究什么？是去做產(chǎn)品了是嗎？

Andrew Dai：對，在Health部門，我做的是幫助產(chǎn)品落地的研究，主要負(fù)責(zé)用醫(yī)療記錄來預(yù)測一個人以后可能患什么病，或者需要服什么藥，從而幫助醫(yī)院節(jié)省成本或輔助醫(yī)生決策。因為預(yù)訓(xùn)練很成功，所以我們也在醫(yī)療領(lǐng)域用了預(yù)訓(xùn)練，但那時候模型還很小，最后沒有做出預(yù)訓(xùn)練的成果，不過發(fā)表了其他論文。那時候有Google Brain Residency Program（谷歌大腦住院醫(yī)項目），是一個比較好的時代，招了很多類似實習(xí)生的人待一年，后來創(chuàng)業(yè)的Liam Fedus、Demi Guo和David Ha，都是我當(dāng)時的實習(xí)生。

陳茜：在2018年，也就是你去Health部門一年后，我看到你和Ian Goodfellow等人合作了一篇有分量的論文叫MaskGAN，用于改善文本生成的質(zhì)量。這篇論文的底層技術(shù)進(jìn)步給你帶來了哪些收獲？因為我看到其中一些技術(shù)探索，比如in-filling（填空任務(wù)）等，在后來的BERT和Gemini多模態(tài)預(yù)訓(xùn)練中都有一定程度的啟發(fā)和影響。這篇論文對你意味著什么？

Andrew Dai：這篇文章是我和Liam Fedus、Ian Goodfellow一起寫的。我們覺得“填空”是一個很好的任務(wù)，可以讓模型學(xué)到很復(fù)雜的東西。我認(rèn)為這篇論文有一個比較突出的地方，就是在RL（強化學(xué)習(xí)）方面，那時候基本上沒有其他人在做預(yù)訓(xùn)練之后再做RL，我們可能是最早幾篇把RL用在預(yù)訓(xùn)練之后的論文，而現(xiàn)在這已經(jīng)是業(yè)界通用的方法了。

陳茜：相當(dāng)于你們是最早一批把RL用在語言模型上的團隊。

Andrew Dai：對。我們那時候就覺得光做預(yù)訓(xùn)練還不夠，因為預(yù)訓(xùn)練的模型不會學(xué)到它自己寫出來的內(nèi)容哪里好、哪里不好，也不會學(xué)到該怎么改。有了RL，模型可以看到自己寫的這一段不像自然語言，RL就可以把它改好。

陳茜：在很多大家都認(rèn)為有共識的技術(shù)范式上，你們也都是第一批團隊去做的，包括MoE（混合專家模型）。你研究MoE是在2021年左右，聯(lián)合主導(dǎo)了GLaM（Generalist Language Model） MoE LLM（大語言模型）的開發(fā)。現(xiàn)在MoE架構(gòu)我們都很熟悉了，不過真正把MoE帶到大眾視野的，可能還是去年DeepSeek V3發(fā)布的時候，但我沒想到谷歌內(nèi)部在2021年就已經(jīng)在研發(fā)這條路線了。

Andrew Dai：GPT-3出來之后，Google Brain團隊有些人感到有點著急，覺得一定要做出一個比它更好、功能更多的模型。那時候我們意識到，這些模型越來越大，通過API提供服務(wù)會非常貴，因為參數(shù)太多，耗電量很大。如果每次只用模型的一部分，耗電就少很多。幾年前Noam Shazeer發(fā)表過一篇關(guān)于MoE的文章，但那時候沒有做預(yù)訓(xùn)練。所以我們就把MoE加上預(yù)訓(xùn)練、再加上fine-tuning（微調(diào)），最終做出了一個比GPT-3更好的模型，這就是我們的成就。

陳茜：2021年GPT-3出來后，你說谷歌內(nèi)部開始感到壓力了？當(dāng)時是什么情況？

Andrew Dai：當(dāng)時我在Google Health的經(jīng)理Claire回到了Google Brain，我就和她談，想離開Google Health。她說他們在做一個模型，但達(dá)不到GPT-3的水平，就問我能不能幫他們解決這個問題。我覺得是數(shù)據(jù)的問題，所以我就過去了，處理了一段時間數(shù)據(jù)，最終做出了一個比GPT-3更好的模型，并發(fā)表了論文。那時候DeepMind也發(fā)表了一篇文章，競爭從那時候就開始了，那時候因為兩邊都看到了GPT-3，DeepMind覺得要競爭，Brain也覺得要競爭，否則大家都會認(rèn)為谷歌做不出這樣的模型。

陳茜：你當(dāng)時為什么想離開Health？

Andrew Dai：我覺得對一家大型科技公司來說，做醫(yī)療健康非常難，而且難度不在于技術(shù)，而在于文化。

因為醫(yī)生有自己傳承了數(shù)百代的文化和做事方式。這個行業(yè)本身對資源和認(rèn)知的要求就更高，很多醫(yī)生按照自己的直覺做決定，如果我們要推AI，他們就會問：為什么AI要我做這個？我做了幾十年，肯定比這個AI懂。所以那時候讓醫(yī)生接受AI就非常難。

陳茜：是不是說，在實際產(chǎn)品落地上，大型科技公司比不上那些跟醫(yī)院、醫(yī)生或藥企關(guān)系緊密的公司？

Andrew Dai：對。而且大公司可能還會讓醫(yī)生覺得“他們是來搶我們工作、搶醫(yī)院的錢的”。如果是初創(chuàng)公司，他們就不會那么感受到威脅，這也是一個因素。

陳茜：是不是當(dāng)時技術(shù)也沒有好到讓大家覺得非用不可？

Andrew Dai：對，那時候的時機還不對。就像現(xiàn)在，因為ChatGPT，很多醫(yī)生覺得“我也可以用AI了，大家都在用”。但那時候不是這樣，那時候醫(yī)生對AI是相對陌生的用戶群體。現(xiàn)在他們已經(jīng)不陌生了，所以顧慮也就沒那么多了。

陳茜：時機不對，技術(shù)可能也比較粗糙，產(chǎn)品也沒有那么完善，而且美國醫(yī)療產(chǎn)業(yè)本就是一個很難打入的市場。

Andrew Dai：It's a big lesson.（這是一個很大的教訓(xùn)。）

陳茜：所以你的take-away（收獲）就是：要在正確的時間做正確的事，研究正確的技術(shù)。

Andrew Dai：對，這對創(chuàng)業(yè)來說尤其重要。

陳茜：你從Health出來之后，在2022年主導(dǎo)了谷歌PaLM 2模型的預(yù)訓(xùn)練。這個模型對谷歌非常重要，因為那時候谷歌和OpenAI已經(jīng)存在模型層面的競爭壓力了。PaLM 2出來的時候，你們滿意嗎？

Andrew Dai：PaLM 2大約在2023年初就訓(xùn)練完成了，我那時候覺得這是一個很好的模型。我們那時候從來沒有見過跑得那么順暢的預(yù)訓(xùn)練：從頭到底，一次都沒有停，一次都不需要rewind（回退）。不像Meta那段時間發(fā)布的OPT模型，可以看到他們的日志，重啟了很多次，做了很久。PaLM 2就非常順，從立項到訓(xùn)練完成不到一年，特別順暢。

陳茜：為什么能這么順？你們做了什么事情？

Andrew Dai：我們那時候有訓(xùn)練GLaM和PaLM 1積累下來的經(jīng)驗，在架構(gòu)上做了很多測試和實驗，知道這個方案穩(wěn)定、不會出問題。正式開始大規(guī)模訓(xùn)練之前，我們也做了一些pilot runs（試運行），所以就有high confidence（高置信度）這個會成功。

陳茜：在2022年你還寫了一篇重要論文——FLAN（Scaling Instruction-Finetuned Language Models），探索了任務(wù)數(shù)量、模型大小以及加入了Chain-of-Thought（思維鏈/CoT）的數(shù)據(jù)，能給我們講一下FLAN的重要性在哪里嗎？

Andrew Dai：FLAN之前，大家都是用few-shot prompting（少樣本提示）來使用模型，如果你要讓它做某件事，你要先給它舉幾個例子，比如數(shù)學(xué)題，你先給它一道題和答案，再問它新的問題。FLAN的核心思想是：其實你不需要在每次對話里給例子，只要在微調(diào)數(shù)據(jù)里放入這些示例就夠了，模型就會學(xué)會“你給我什么問題，我就必須給出答案”。好處是你不再需要每次都提供few-shot（少樣本）例子，但壞處就是，如果你問它不知道的問題，它也會假裝知道。正是有了這種方式，ChatGPT這樣的聊天機器人才成為可能，因為你可以直接問它問題。

陳茜：PaLM 2你們還是比較滿意的，但你們的風(fēng)頭還是被GPT-4給搶了，是嗎？

Andrew Dai：對，我們做完得比較早，2023年初就完成了。但谷歌內(nèi)部的官僚體制和龐大的組織系統(tǒng)，讓他們決定要等到Google I/O統(tǒng)一發(fā)布。OpenAI當(dāng)然知道Google I/O是什么，知道我們要發(fā)布模型，谷歌那么大，內(nèi)部沒有什么秘密。所以他們恰好在Google I/O之前發(fā)布了GPT-4，GPT-4的結(jié)果比PaLM 2更好。我們發(fā)布PaLM 2的時候，我就覺得晚了一步，如果早點發(fā)布，我們就可以說我們是世界上最好的模型。

陳茜：你覺得可惜嗎？

Andrew Dai：有點可惜。

陳茜：但PaLM 2還是很重要，雖然GPT-4在benchmark（基準(zhǔn)測試）上可能比你們好，但至少谷歌向大家證明了：我們站穩(wěn)了，我們沒有落后太多。

Andrew Dai：對，而且沒有PaLM 2的話，當(dāng)時那個叫Bard、后來叫Gemini的產(chǎn)品也會比較危險，因為Bard就是用PaLM 2做出來的聊天機器人，如果沒有PaLM 2，谷歌就沒有聊天機器人了。

拉響紅色警報

DeepMind與Google Brain的整合與碰撞

陳茜：2022年底OpenAI上線了ChatGPT，把整個AI市場引爆了，谷歌內(nèi)部拉響了Code Red（紅色警戒）。之后Sergey Brin也回歸了谷歌，當(dāng)時做出的一個決定，就是把DeepMind和Google Brain合并起來。跟我們講講這次整合順利嗎？還是有很多摩擦？

Andrew Dai：這個整合大家有個preview（預(yù)期），其中Gemini就是一個整合后的預(yù)期產(chǎn)品代表。因為在官方合并的幾個月之前，DeepMind和Brain的人就已經(jīng)開始一起做Gemini了，但是不是 official（官方的），那段時間就已經(jīng)感受到一些摩擦。后來領(lǐng)導(dǎo)層認(rèn)為時間線要更快，不能繼續(xù)落后于ChatGPT，就決定加快把兩個團隊整合在一起，摩擦也隨之更加明顯。

因為兩邊有對等的團隊：DeepMind有基礎(chǔ)設(shè)施團隊，Brain也有；DeepMind有多模態(tài)團隊，Brain也有；數(shù)據(jù)方面，DeepMind有數(shù)據(jù)團隊，我就代表Brain的數(shù)據(jù)團隊。所以一開始確實關(guān)系比較緊張，他們決定每個部門由DeepMind出一個負(fù)責(zé)人、Brain出一個負(fù)責(zé)人來聯(lián)合領(lǐng)導(dǎo)，這就比較復(fù)雜了。

陳茜：所以比如數(shù)據(jù)部門，你是一個co-lead（聯(lián)合負(fù)責(zé)人），DeepMind那邊也出一個co-lead，其他的每個部門也是同樣的設(shè)置，是嗎？

Andrew Dai：對，而且還需要進(jìn)一步劃分。比如在數(shù)據(jù)部門里，哪部分由倫敦做，哪部分由Mountain View（山景城）的Brain團隊來做？這非常復(fù)雜，浪費了很多時間。

陳茜：為什么一定要設(shè)置這樣的機制呢？

Andrew Dai：這樣更公平一些。

陳茜：也就是Google Brain跟DeepMind誰都不服誰，這是一個兩邊都同時給糖的安排。

Andrew Dai：對，是一個對等的設(shè)置。

陳茜：你覺得這樣的設(shè)置會拖累模型的研發(fā)速度嗎？

Andrew Dai：我覺得一開始可能出模型的節(jié)奏會慢一些。兩個之前從未合作、甚至有一定緊張關(guān)系的團隊突然被放在一起，肯定有些事情會變慢、會有人換組，這些都發(fā)生了。

陳茜：整個磨合過程你覺得經(jīng)歷了多長時間？還是說到現(xiàn)在還在磨合？

Andrew Dai：可能現(xiàn)在還在磨合。不同部門的速度不一樣，比如基礎(chǔ)設(shè)施方向磨合得較快，多模態(tài)也是。

陳茜：兩邊整合的結(jié)果，就是很多人離職，對吧？

Andrew Dai：是的，有不少人離職，兩邊都有，Brain這邊有，DeepMind那邊也有。

陳茜：這兩個誰都看不上誰的部門整合在一起，同心協(xié)力做Gemini。2023年底，Gemini 1.0出來了，這個模型你們滿意嗎？

Andrew Dai：那個模型有點倉促。我們剛剛開始合作，很多事情都是拼命趕deadline（截止日期）。那時候有一個圣誕節(jié)的截止日期，5月份Google I/O剛發(fā)布了PaLM 2，我們想要每6個月出一個新模型，所以大家都在趕。這些人之前都沒有合作過，模型又基本上是從頭開始做，所以有些地方?jīng)]有做好，比如一些小眾的語言的就沒有做好。那時候媒體報道了Gemini 1.0在某些語言上表現(xiàn)欠佳，所以我們隨即就開始趕做Gemini 1.5了。

陳茜：我看到Gemini 1.5才用到了MoE（混合專家模型）架構(gòu)，但這是你在2021年就已經(jīng)在研發(fā)的東西，為什么這么晚呢？

Andrew Dai：這也是一個速度的問題。1.0要趕快推出來，所以就沒有時間做MoE的模型，只能做dense（稠密）模型，因為MoE還需要額外的調(diào)優(yōu)和優(yōu)化時間。ChatGPT出來之后，整件事變成了一場競賽，我們在跟OpenAI比賽，如果MoE會拖慢我們的進(jìn)度，就不能做，所以……

陳茜：所以優(yōu)先級變成了先追上進(jìn)度，而不是創(chuàng)新，谷歌這時候變成了追趕者。是不是也因為GPT-4用了MoE，所以Gemini 1.5才決定一定要用MoE了？

Andrew Dai：其實我們本來就打算用MoE，只是時間問題。我們從那篇2021年的論文就已經(jīng)知道MoE效果更好。但我們不知道OpenAI會那么快用MoE，不知道GPT-4會是一個MoE的模型，當(dāng)時有些人認(rèn)為還會是dense模型。我的實習(xí)生Liam Fedus去了OpenAI之后，他們就開始做MoE了。

陳茜：所以他和你一起研究了這件事，然后把它帶去了OpenAI。硅谷其實沒有什么秘密可言，因為沒有競業(yè)協(xié)議。

Andrew Dai：對，特別是大模型領(lǐng)域。大公司里肯定會有人去OpenAI、Anthropic，所以大公司很難保持秘密。

Gemini翻身仗

“大模型最大的差異點是數(shù)據(jù)”

陳茜：Gemini 2.0對你們來說是比較大的翻身仗嗎？

Andrew Dai：Gemini 2.0像是一種進(jìn)化，各種方法都更成熟了，包括MoE、長上下文等。總體來說，是一個更好的模型。

陳茜：我聽說在數(shù)據(jù)方面，你在Gemini 2.0上也有一些創(chuàng)新。能跟我們解釋一下，你做了什么讓Gemini 2.0變得更好？

Andrew Dai：在數(shù)據(jù)上有一個很大的變化，我們用了新的方法來處理數(shù)據(jù)質(zhì)量，檢測質(zhì)量的標(biāo)準(zhǔn)也更嚴(yán)格了。有些公司可能認(rèn)為架構(gòu)和卡夠了就能做出好模型，但數(shù)據(jù)其實非常重要。你看那些論文，一般都不會說數(shù)據(jù)是什么、來自哪里，這是一個秘方，所以我們發(fā)表了新的方法。

陳茜：所以你覺得數(shù)據(jù)是大模型之間很大的差異點嗎？看起來模型架構(gòu)大家都在用類似的東西，算力大公司都不缺，基礎(chǔ)設(shè)施也都差不多，差異點是否就在數(shù)據(jù)上？

Andrew Dai：對，我覺得最大的差異就是數(shù)據(jù)。

陳茜：但數(shù)據(jù)不只是來源的問題，因為大家基本上把互聯(lián)網(wǎng)數(shù)據(jù)都窮盡了，而是如何優(yōu)化和篩選更高質(zhì)量的數(shù)據(jù)用于訓(xùn)練，是嗎？

Andrew Dai：對，你選用什么數(shù)據(jù)很重要。網(wǎng)絡(luò)上有大量數(shù)據(jù)，但也有很多垃圾信息和對模型沒有幫助的內(nèi)容，所以需要找到那些好的數(shù)據(jù)，讓模型能學(xué)到新東西。就像人一樣，每天只讓他讀廣告，他什么都學(xué)不到，要給他有信息、有知識的數(shù)據(jù)才行。來源也有一些區(qū)別，因為谷歌有搜索的經(jīng)驗，知道怎么爬取網(wǎng)絡(luò)，其他公司也有自己的優(yōu)勢。

陳茜：所以你在Gemini 2.0數(shù)據(jù)上的主要提升，就是把垃圾信息的數(shù)據(jù)剔除掉？

Andrew Dai：對，垃圾信息以及其他一些低質(zhì)量的數(shù)據(jù)，還有更多不方便透露的內(nèi)容。

陳茜：在合成數(shù)據(jù)方面，你也參與了對嗎？

Andrew Dai：對，我也聯(lián)合主導(dǎo)了合成數(shù)據(jù)這塊。合成數(shù)據(jù)用不好會導(dǎo)致一個很差的模型，但用得好，就像GPT-5，可以把模型做得非常好。

陳茜：“用得好”和“用得不好”有什么區(qū)別？

Andrew Dai：用得不好就是指，如果處理得不好，模型就會頻繁輸出合成數(shù)據(jù)里的特定詞匯。比如合成數(shù)據(jù)里有很多“delve”這個詞，訓(xùn)練完的模型也會更多地說“delve”這個詞。所以合成數(shù)據(jù)同樣需要高質(zhì)量，否則模型會學(xué)到錯誤的東西。比如合成數(shù)據(jù)里有錯誤的數(shù)學(xué)，那模型的數(shù)學(xué)能力也會變差。

陳茜：Gemini 2.5大約在去年年中發(fā)布，年底發(fā)布了Gemini 3.0，那時候真的是短暫地超過了GPT，驚艷了整個市場，大家都在歡呼谷歌回來了，谷歌股價也漲得非常快。但你在Gemini 3.0之后就離開了，能跟我們講講為什么嗎？

Andrew Dai：我先講一下Gemini 2.5。2.5是因為Noam Shazeer從Character.AI回到谷歌，他幫助了2.5，讓2.5成為了一個比較好的模型。

陳茜：Shazeer帶來了什么讓2.5變得更好？

Andrew Dai：他帶來了他的能力。舉個例子：有一次我跟Noam討論Transformer的架構(gòu)，我說在這里加一個connection（連接）會不會更好？他說不會好，因為gradient（梯度）就會從這里移到那里，他連模型都不用跑，就知道訓(xùn)練之后會是什么結(jié)果。他真的是一個天才，一看代碼就知道這是不是一個好的模型，憑直覺就能理解模型是如何工作的。

陳茜：所以acqui-hire（收購式招聘）是合理的，一個人的能力就能幫公司省很多錢和時間。

Andrew Dai：這確實是一筆劃算的交易，他非常厲害。

陳茜：那在3.0上你們做了哪些優(yōu)化？

Andrew Dai：3.0我們繼續(xù)在數(shù)據(jù)方法上做了新的創(chuàng)新。但我離開的原因是：我能感覺到我們用的方法和取得的進(jìn)展都比較保守，因為有幾千個人在這個項目上，用那么多GPU做預(yù)訓(xùn)練，就不能用太激進(jìn)、太有風(fēng)險的新想法。所以我覺得那是一個比較好的離開時機，去創(chuàng)業(yè)。

陳茜：所以你覺得在數(shù)據(jù)上還可以更快地提升優(yōu)化，用更大膽、更激進(jìn)的方式去做事情。但在谷歌，你覺得這方面的速度被拖慢了。

Andrew Dai：對，對谷歌來說可能有點危險，因為這種方法會大量改變數(shù)據(jù)。

陳茜：那你的新方法是什么？

Andrew Dai：這個我不能說。（笑）

Neolab爆發(fā)

創(chuàng)立Elorian AI，探索視覺推理路線

陳茜：你的新方法就是你自己創(chuàng)業(yè)。你想做的是視覺推理模型，在你能說的范圍內(nèi)，能解釋一下你想用什么技術(shù)路徑實現(xiàn)什么目標(biāo)嗎？

Andrew Dai：我們的團隊是一個full-stack（全棧）團隊，有非常了解數(shù)據(jù)、預(yù)訓(xùn)練、多模態(tài)、RL（強化學(xué)習(xí)）、post-training（后訓(xùn)練）、infer（推理）的人。所以我們不只是想在數(shù)據(jù)上做改變，去做一個更好的多模態(tài)推理模型，我們是整個full-stack approach（全棧方法）。我覺得Anthropic就是這樣的，它是一個專注于編程的全棧公司，每個部分都聚焦在編程上。我們則是在數(shù)據(jù)、架構(gòu)、RL算法的每個環(huán)節(jié)都聚焦在多模態(tài)上，包括vision encoder（視覺編碼器）都會有新的方法。

陳茜：為什么你們現(xiàn)在做的事情谷歌做不了？

Andrew Dai：可以對比Anthropic。Anthropic的編程模型做得很好，但它不做多模態(tài)的東西，不會生成圖片或視頻，因為他們專注于編程。而Gemini和ChatGPT，他們的模型什么都可以做，在我們行業(yè)叫g(shù)eneralist models（通用模型），Claude這個模型可能叫specialist model（專用模型）。我們這個公司也是同樣的想法：如果你做一個specialist model（專用模型），generalist model（通用模型）就很難超越它。因為我們會有更多多模態(tài)數(shù)據(jù)，我們會把數(shù)據(jù)調(diào)整好，去掉對多模態(tài)沒有幫助的數(shù)據(jù)，比如“二戰(zhàn)是誰贏的、在哪里打”這類信息對多模態(tài)其實沒什么幫助，我們就可以減少這類數(shù)據(jù)，把更多資源留給多模態(tài)數(shù)據(jù)、視頻和圖片，這種方式其他公司很難追上來。

陳茜：現(xiàn)在的視覺模型，比如Google的Veo系列或者OpenAI的Sora系列，你覺得它們還不夠好，因為視覺里面它們還不夠理解自己在生成的東西，是嗎？能給我們解釋一下，視覺理解模型是什么？它跟Sora和Veo這樣的視頻生成模型有什么區(qū)別？

Andrew Dai：生成、理解和推理是非常不同的三件事。以語言模型舉例：5年前這些模型已經(jīng)會寫代碼，讓GPT-3寫代碼，普通人看了會覺得寫得很好，像是工程師寫的，但工程師看了肯定會說：這個不對，根本跑不了，這就是生成和理解的區(qū)別。這些大模型都很容易生成內(nèi)容，一眼看上去挺好，但仔細(xì)看就會發(fā)現(xiàn)問題，比如圖片里字寫錯了、人有三只手、動物有五條腿。導(dǎo)演看了視頻也會說：這個地方不對，明顯是AI生成的，拍攝風(fēng)格很AI。所以我們在視覺理解能力上，可能相當(dāng)于5年前的GPT-3、GPT-2在語言理解上的水平。

陳茜：我記得我們在前采的時候，你提到了一個老鷹抓兔子的比喻，我覺得很形象。

Andrew Dai：對，那是在談世界模型。你可以想象一只老鷹，很多老鷹都捕食鳥類，但要抓住一只鳥，你肯定需要理解重力、風(fēng)和氣流，知道翅膀需要以什么角度才能追上另一只鳥，還要預(yù)測那只鳥會往哪個方向飛，計算需要多快的速度才能在同一個點截住它。老鷹的大腦可以處理這些非常復(fù)雜的計算，也可以計算出兔子跑到橋下會從哪里出來，或者老鼠跑進(jìn)草叢會從哪里出來。這些動物對自然世界、物理世界有深刻的理解。

但如果我們能把老鷹的大腦取出來問它：萬有引力定律是什么？萬有引力常數(shù)是多少？需要拍打什么角度才能飛行？它不會知道這些，因為這些概念都是人類發(fā)明的，如果我們是有4只手或者有 20 個手指，那我們數(shù)學(xué)可能就很不一樣。因此，老鷹自己的世界模型，幫不了其他領(lǐng)域，這就是我覺得世界模型和語言模型的區(qū)別。

陳茜：現(xiàn)在很多neolab出來，嘗試不同的模型研發(fā)思路。一派是大語言模型，一派是世界模型，但你相信存在一個中間點，也是目前你們在做的這一派：既需要語言模型，又需要視覺模型。能不能幫我們梳理一下這三派各自的信仰，以及他們押注的AGI路徑？

Andrew Dai：我們現(xiàn)在看語言模型，它們的思維鏈都是用語言來完成的，包括Gemini、ChatGPT、Claude，他們認(rèn)為思維鏈越來越長、越來越多樣，模型就越來越聰明，可以做越來越多的事情，最終達(dá)到AGI。通過更強的編程能力，從而做出更好的模型。但如果你看這些模型在處理視覺問題上的表現(xiàn)，它們現(xiàn)在都不會“數(shù)”東西，比如桌子上放幾個杯子，它們經(jīng)常會產(chǎn)生幻覺、說錯數(shù)量。所以我覺得，光scale（擴展）語言部分，還是不夠理解我們的世界，不夠理解圖片和視頻。

另一個方向是世界模型，很多做這個的實驗室來自計算機視覺領(lǐng)域，比如李飛飛和Yann LeCun，他們的想法更偏學(xué)術(shù)。學(xué)術(shù)界強調(diào)novelty（新穎性），因為你必須要有novel的東西才能發(fā)表論文，所以他們傾向于做與眾不同的新東西。他們相信視覺是intelligence（智能）的關(guān)鍵，就是因為人類有視覺，所以人很聰明。這也有歷史背景，NeurIPS以前大部分文章都是視覺方向，做語言理解的人很少，包括我和Quoc，都算少數(shù)。但從語言角度看，光靠視覺是不夠的。動物能用視覺做我們的機器人還做不到的事，就像老鷹可以抓住那只鳥。但就算我們做出一個很好的虛擬老鷹，我們還是沒有intelligence，還達(dá)不到AGI。視覺領(lǐng)域的人會覺得vision is the key to intelligence（視覺是智能的關(guān)鍵），所以他們更傾向于靠視覺和圖像數(shù)據(jù)，靠世界模型。但這樣就無法和數(shù)學(xué)、物理、化學(xué)這些人類創(chuàng)造的概念體系結(jié)合，因為這些都是人為的東西，和世界模型還是比較遠(yuǎn)。

所以我們公司的想法是：要把視覺推理和語言推理結(jié)合起來，才能做出一個可以幫助所有行業(yè)的模型。

陳茜：就相當(dāng)于把重力公式輸?shù)嚼销椀哪X子里？

Andrew Dai：對，哈哈，用老鷹的眼睛，用一部分老鷹的大腦，但還是要用人的推理。

陳茜：世界模型這個概念這兩年很火，你覺得這些公司的發(fā)展能達(dá)到AGI嗎？

Andrew Dai：可能五年后再問我這個問題，我覺得它們現(xiàn)在還非常早期，可能相當(dāng)于大模型最早期的階段：訓(xùn)練的時候還是在一塊顯卡上跑。就像我們2015年做最初的預(yù)訓(xùn)練時也是一塊顯卡開始，但需要很多年才能做成一個大模型。

陳茜：所以你覺得世界模型還沒有到它的Transformer時刻？

Andrew Dai：還沒有。他們可能需要一種新的結(jié)構(gòu)，像JEPA，我覺得還需要再走幾步才能到一個有用的模型。

陳茜：你覺得在視覺推理領(lǐng)域，其他公司的競爭優(yōu)勢是什么？谷歌內(nèi)部可能也看到了這個方向，Meta、OpenAI也會做。我看到DeepSeek之前好像也發(fā)布了一篇類似的文章，后來把那篇文章刪掉了。你覺得現(xiàn)在的競爭格局是什么樣的？

Andrew Dai：DeepSeek那篇文章很有意思，發(fā)出來之后又刪了，但在網(wǎng)絡(luò)上什么都刪不了，大家都已經(jīng)讀過了。其實DeepSeek的想法和我們的路徑很像。但其他前沿實驗室，像OpenAI、DeepMind和Anthropic，我覺得他們越來越偏向編程方向，因為編程市場很大，而且他們認(rèn)為做好編程模型可以實現(xiàn)self-improvement，也就是所謂的recursive self-improvement（遞歸自我提升，RSI）。誰先突破，誰就先達(dá)到AGI，這些前沿實驗室都不想成為第二，所以有很大壓力去做更好的編程模型。正因為這種壓力，他們對多模態(tài)視覺推理這個方向關(guān)注不夠。我在Gemini的時候就感受到了這一點，所以覺得現(xiàn)在是做多模態(tài)推理模型的好時機。

陳茜：所以你覺得DeepSeek會是你們比較大的競爭對手嗎？

Andrew Dai：可能吧，但我不知道他們?yōu)槭裁窗涯瞧恼聞h了，是不是又換了方向？

陳茜：如果你們是一個非常research-driven（研究驅(qū)動）的團隊，距離達(dá)到AGI還有一段時間。那投資人肯定也會問：中間你用什么來養(yǎng)活自己？除了VC的錢，你們的產(chǎn)品商業(yè)化落地是怎么規(guī)劃的？

Andrew Dai：我們是一個研究與產(chǎn)品并重的實驗室，也做frontier research（前沿研究）。但我有Google Brain的背景，Google Brain當(dāng)時也有一個目標(biāo)：把這些模型放到產(chǎn)品里，讓幾十億人使用。現(xiàn)在Gemini就有很多人在用了，那是比較成功的。我們這家公司也有同樣的目標(biāo)：做一個APII（應(yīng)用程序接口），讓大家使用，幫助企業(yè)解決視覺問題。

陳茜：就是通過模型API的方式變現(xiàn)。但你的ultimate goal（終極目標(biāo)）還是幫助大語言模型和視覺模型一起達(dá)到AGI？

Andrew Dai：對，至少達(dá)到視覺AGI。

陳茜：怎么定義視覺AGI？

Andrew Dai：我覺得“視覺AGI”比“AGI”表達(dá)得更準(zhǔn)確。AGI的門檻每天都在變，有些人說我們已經(jīng)達(dá)到AGI，有些人說沒有。但“視覺”這件事，大部分人都能看到東西，在最基本的層面上能力差不多，比如你看到一個方向盤就知道怎么用，看到系鞋帶的動作就知道怎么做，拼樂高或宜家家具也都是視覺問題，但這些現(xiàn)有的模型都做不好。如果有了一個可以做這些最基本視覺任務(wù)的模型，那距離AGI就不遠(yuǎn)了。

“最重要的資源是時間”

谷歌14年的研究品味與引路人

陳茜：你覺得自己出來做公司跟在谷歌有什么不一樣？在谷歌14年，你有無限的資源、資金和人才，出來之后什么都要自己搞，需要找人、找錢、找方向，這中間的差異對你來說是什么樣的體驗？

Andrew Dai：很多地方不一樣，卡方面當(dāng)然少很多。但有一個優(yōu)點，在谷歌或大公司，優(yōu)先級可能每周都變，今天有卡，下周可能就沒了。在新公司則更穩(wěn)定，我們買了卡，沒有人會拿走。

另外，我突然需要學(xué)很多新東西，比如怎么用PyTorch（因為DeepMind都用JAX）、怎么用Megatron、怎么用AWS、怎么用Slurm。谷歌基本上不用開源的東西，所以學(xué)習(xí)曲線對我來說很陡峭。

還有一個比較難的是招聘，DeepMind的Gemini團隊很多人都想加入，發(fā)了offer候選人一般會接受。但在小公司不一樣，我們現(xiàn)在還沒有太大的名氣，候選人知道小公司風(fēng)險更大。所以招聘更難，有的人喜歡大公司的安全感，但也有人想嘗試新的地方，覺得我們可能會成為下一個OpenAI或Anthropic，所以會加入我們。

陳茜：出來之后，你說會有更多的research freedom（研究自由）。但研究自由的代價是什么？

Andrew Dai：代價是支持會少一些。在谷歌，如果一個研究想法不成功，沒關(guān)系，還可以做下一個項目，公司有很多資源支持你。但在初創(chuàng)公司，一個失敗的研究想法風(fēng)險更高，因為那些資源已經(jīng)消耗了，不會回來。因此我做研究的壓力會稍微大一些，我們現(xiàn)在就是尋找世界上最好的研究員，靠他們做出很好的成果。

陳茜：你覺得谷歌這14年帶給你最大的是什么？

Andrew Dai：我這幾年運氣很好，能待在世界一流的研究室，看著AI發(fā)展到今天這個程度。10年前沒有人會想到AI會發(fā)展得這么快，這是不可能的。我本來一直覺得世界變化比較慢，登月都已經(jīng)是快六十年前的事了，但AI出現(xiàn)之后，突然感覺科技發(fā)展又重新提速了。

陳茜：你之前跟我提到過一個詞叫research taste（研究品味），說neolab的這些人，都是因為他們所看重的研究方向在大公司里不被重視，但這很考驗一個研究員的研究品味。能跟我們說一下，研究品味為什么重要嗎？你在谷歌的14年是如何養(yǎng)成這種研究品味的？

Andrew Dai：對，研究品味很重要，不只是因為跑實驗需要卡和資源，我覺得最重要的資源是時間。如果你跑了一個錯誤的實驗或者走了一條錯誤的路，時間不會回來。你要知道什么時候繼續(xù)追一個方向，也要知道什么時候放棄，研究品味就能幫助你做出這些判斷。

我的研究品味很大程度上來自Geoffrey Hinton。他一直認(rèn)為，做AI要根據(jù)大腦的工作方式來，如果大腦用某種方式處理視覺，那我們的模型也應(yīng)該用類似的方式。就像CNN（卷積神經(jīng)網(wǎng)絡(luò)），這些神經(jīng)網(wǎng)絡(luò)模型是參照大腦的神經(jīng)元設(shè)計的，也是從數(shù)據(jù)中學(xué)習(xí)的。我們現(xiàn)在的模型也都是從數(shù)據(jù)學(xué)習(xí)，一個全新的Transformer什么都不知道，給了數(shù)據(jù)才能做事。這也契合神經(jīng)科學(xué)的想法：大腦一開始什么都不懂，通過成長才慢慢學(xué)會很多東西。所以我做研究的時候，也按照這個思路來判斷：如果某個新方向和人類神經(jīng)認(rèn)知的方式相差很遠(yuǎn)，我可能就不會追那個方向。

陳茜：你的新公司Jeff Dean也有投資，你覺得在整個谷歌生涯中，Jeff Dean對你來說是怎樣的存在？

Andrew Dai：Jeff Dean是一個很好的advisor（導(dǎo)師）。我剛進(jìn)Brain團隊就認(rèn)識了他，那時候我們的模型跑得很慢，我的經(jīng)理說如果有速度問題，直接去問Jeff Dean，他什么都知道。他來到我的電腦旁邊，不光看代碼，還看machine code（機器碼），比C++和Python還要深層的代碼，然后說“噢，這個地方不對”，然后他就給改了。

從那時候我就知道Jeff Dean是很親力親為的人，什么都懂、什么都學(xué)，包括自學(xué)了深度學(xué)習(xí)，才能做出Google Brain。所以他是我比較重要的榜樣。他現(xiàn)在是Gemini的負(fù)責(zé)人，做得很好。

陳茜：在谷歌里面還有沒有其他對你影響很大的人？

Andrew Dai：Quoc Le的影響也比較大，我跟他合作了好幾個項目，也一起帶了好幾個實習(xí)生。谷歌厲害的人太多了，我覺得Google Brain和DeepMind就是這一代的Bell Labs（貝爾實驗室），聚集了非常多聰明的人。包括Noam Shazeer，他真的非常厲害。還有Demis Hassabis，他是很獨特的人，致力于用AI幫助整個世界，這個目標(biāo)我覺得很了不起。

陳茜：最后可以聊聊你想招什么樣的人才？對于好的人才，你跟他們喊幾句話，告訴大家為什么他們應(yīng)該來你的公司，和你一起實現(xiàn)視覺AGI？

Andrew Dai：我們現(xiàn)在在招世界一流的團隊。我們認(rèn)為人才密度越高，進(jìn)步就越快。我看到DeepSeek這些中國研究機構(gòu)，正是因為規(guī)模小、人才密集，才能做出很好的東西。我們在招有多模態(tài)經(jīng)驗、RL經(jīng)驗的研究員，也在招管理過GPU集群、training kernels（訓(xùn)練算子）、CUDA kernel（CUDA算子）、optimization（優(yōu)化）這些方向的基礎(chǔ)設(shè)施工程師。

為什么要加入我們？因為我覺得我們這個團隊屬于是neolab里的頂尖梯隊，能找到有這么多數(shù)據(jù)經(jīng)驗、預(yù)訓(xùn)練經(jīng)驗、前沿模型經(jīng)驗的地方可能只有三四個，大部分其他的neolab都沒有這么豐富的積累。我們的方向也是一個比較新的方向，我們認(rèn)為會帶來下一代的推理，一種更接近人類推理方式的reasoning（推理）。我們希望大家來跟我們一起成長，成為下一個Anthropic或下一個OpenAI。

陳茜：好的，謝謝Andrew。

Andrew Dai：謝謝。

Office tour

AI科學(xué)家需要綠植和白天蒸桑拿?

陳茜：你們也是剛搬進(jìn)來，對吧？

Andrew Dai：對，剛搬進(jìn)來，我們還在用鑰匙開門。

陳茜：現(xiàn)在是周五下午，員工都差不多離開了。你們現(xiàn)在有多少人？

Andrew Dai：差不多15個人。

陳茜：你們現(xiàn)在的比例是怎樣的？多少人在做研究，多少人在做基礎(chǔ)設(shè)施？

Andrew Dai：可能是12個人在做研究，1個人在做基礎(chǔ)設(shè)施，2個人在做運營，我們是非常重研究的團隊。

我們之所以選擇這個辦公室，就是因為這個院子。就像大學(xué)里的Quad（四方院）。我們午飯、happy hour都來這里，有客人也在這里接待。

陳茜：你們還需要多一點綠植。

Andrew Dai：對，還有一個噴泉，可以讓人放松。

陳茜：這個院子你打算再加什么東西嗎？

Andrew Dai：我們有一個研究員想加一個桑拿，累了就去泡。可能在桑拿的時候能想到一些東西。就像我洗澡的時候會thinking（思考）。

陳茜：所以你會用視覺模型去玩桌游嗎？

Andrew Dai：我試過了，但它們太差了，連象棋都不太會玩。可能等我們的模型做完之后，就可以用它打桌游了。

陳茜：你最愛的辦公室是哪一間？

Andrew Dai：就是角落那間。

陳茜：這間嗎？光線很好，還有一個站立式辦公桌。所以你經(jīng)常會在這邊看著外面，想一想？

Andrew Dai：對，或者坐在這里打電話。

陳茜：你現(xiàn)在大概一天的時間分配是怎樣的？有多少時間在做運營工作，多少時間在做research（研究）跟thinking（思考）？

Andrew Dai：我白天大部分時間都在做運營，比如面試、搭建IT架構(gòu)、搭建AWS。Research（研究）基本上是周末和晚上，在家里很安靜，可以思考新的方法。

陳茜：經(jīng)常在洗澡的時候有新想法。

Andrew Dai：是的，很多idea都是洗澡時冒出來的。

陳茜：我也是。然后idea來了之后，馬上用Claude Code就可以實現(xiàn)了。

Andrew Dai：對，現(xiàn)在因為編程模型很好，我們可以很快套進(jìn)去看看，這個idea好不好，快很多。

陳茜：這個idea是來自研究員還是你自己？你們公司的idea是怎么產(chǎn)生的？

Andrew Dai：都有。比如一些新的vision encoder（視覺編碼器）的想法是我提出的，一些SFT（監(jiān)督微調(diào)）和數(shù)據(jù)的想法是團隊里的人提出的，現(xiàn)在正在跑。但我們總體覺得，自動化研究工具產(chǎn)生的想法太平庸了，沒有創(chuàng)造力，做研究一定需要創(chuàng)造力。

以前ideas很便宜，因為編程很難、執(zhí)行很難。但有了Claude Code、GPT Codex之后，執(zhí)行容易了很多，ideas的價值就上漲了。

陳茜：所以這些有創(chuàng)造力的研究員，現(xiàn)在是大家爭搶的寶貴資產(chǎn)。

Andrew Dai：對，creative researchers（有創(chuàng)造力的研究員）非常重要。

陳茜：最近neolab出來了很多人和創(chuàng)業(yè)公司，你覺得這個趨勢還會持續(xù)嗎？

Andrew Dai：我覺得還會，因為現(xiàn)在機會很多，開源模型很多，融資也變得容易了一些，很多公司都在IPO。所以這段時間我覺得還會有更多。但這也是一個窗口，過了一段時間，我們這一代neolab都成長壯大了，再新起來的就會更難了。

陳茜：你覺得這個窗口的截止日期是什么時候？

Andrew Dai：很難說，可能是這兩年吧。然后等一段時間，又會有下一代實驗室。

陳茜：下一代實驗室會是什么樣子的？

Andrew Dai：我不知道。可能是AGI之后的實驗室，那我就不知道了，可能都是AI在跑，但現(xiàn)在它們的創(chuàng)造力離人類的創(chuàng)造力還太遠(yuǎn)了，所以還不適合。

陳茜：好的，謝謝Andrew。

Andrew Dai：謝謝。

以上就是我們與Andrew Dai的全部訪談和辦公室探訪了。Neolab是如今在硅谷非常重要的一個支線，也是今年在硅谷101著重關(guān)注的方向。接下來我們還會有更多Neo Labs創(chuàng)始人的深度訪談。

如今VC的大量資金涌入這樣的新型AI實驗室，是因為這些大基金們在OpenAI等前沿模型上的賭注已經(jīng)太重了，他們需要一些對沖：萬一大語言模型無法走到最后呢？那么接下來AI怎么發(fā)展，可能就是要看這些neolab的研究的成果。

就像AI靈魂領(lǐng)袖Ilya Sutskever說的那樣：我們正在重新回到“研究時代”。

注：部分圖片來源于網(wǎng)絡(luò)

【本期節(jié)目不構(gòu)成任何投資建議】

【視頻播放渠道】

國內(nèi)：B站｜視頻號

海外：Youtube

聯(lián)系我們：video@sv101.net

【創(chuàng)作團隊】

監(jiān)制｜泓君陳茜

撰稿/采訪｜陳茜

剪輯｜Frentee 橘子

運營｜孫澤平王梓沁 13

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.