![]()
對話 | 唐小引 嘉賓 | 王佳楠
責(zé)編 | 夢依丹
出品 | CSDN(ID:CSDNnews)
通往 AGI 的終點,是代碼,還是身體?
在王佳楠看來,答案明確指向了——具身智能。
她曾在牛津大學(xué)完成學(xué)業(yè),加入 DeepMind,從事強化學(xué)習(xí)與持續(xù)學(xué)習(xí)研究,親歷了 AlphaStar 等標志性項目的誕生,也在國內(nèi)生成式 AI 尚處早期階段時,參與過統(tǒng)一生成框架的探索,走在 AIGC 爆發(fā)之前的科研前沿。無論是在“純算法”的巔峰,還是在生成式模型的起點,她都站在浪潮內(nèi)部。
2024 年,她加入星塵智能,選擇直面一個更復(fù)雜、也更“真實”的問題:如何讓大模型真正進入機器人,進入物理世界,成為可用、可落地、可持續(xù)演化的智能體。
這意味著不再只是比拼指標、參數(shù)或論文,而是要與硬件、數(shù)據(jù)、系統(tǒng)協(xié)作和真實場景中的不確定性正面交鋒。
![]()
左:王佳楠,右:唐小引
在 2025 全球機器學(xué)習(xí)技術(shù)大會現(xiàn)場,CSDN &《新程序員》執(zhí)行總編唐小引與星塵智能副總裁、前 DeepMind 研究員王佳楠展開了一次深入對話。從 AGI 的終極想象,到具身智能的現(xiàn)實瓶頸,從快慢系統(tǒng)的工程邏輯,到通用機器人的時間表與開發(fā)者應(yīng)有的信念,她給出了一個既冷靜、也充滿長期主義色彩的答案。王佳楠在采訪中提到的核心觀點有:
具身智能并非機器人或 AI 的“新分支”,而是各類 AI 技術(shù)(CV、NLP、大模型)在現(xiàn)實世界中的統(tǒng)一落點;
從 DeepMind 到創(chuàng)業(yè)公司,本質(zhì)是從“定義好問題”到“定義問題本身”;
“快慢系統(tǒng) / 大小腦”是具身智能的核心系統(tǒng)觀,而非模型數(shù)量之爭;
數(shù)據(jù)是當(dāng)前最硬的瓶頸,高質(zhì)量真機數(shù)據(jù)不可替代;
世界模型很有潛力,但不是“等它完美了再做機器人” 世界模型能提供預(yù)測與提示價值,但它本身不是銀彈,也不需要完美;
VLA 是通往通用機器人的關(guān)鍵一步,而非終點;
通用機器人“走到人身邊”可能只需 2–3 年,但完全自主還需要長期演化更現(xiàn)實的路徑,是“可用先行、人類接管、逐步升級”,類似自動駕駛的發(fā)展節(jié)奏;
具身智能是一條漫長但值得堅持的路:這是一個需要共創(chuàng)的時代,個人、公司與社區(qū)必須共同積累、持續(xù)反饋,才能真正推進邊界。
歡迎 收聽音頻播客,如有興趣觀看完整視頻,可在文末獲取
![]()
從 DeepMind 到投身具身智能
唐小引:大家好,歡迎收看《萬有引力》。我們今天在全球機器學(xué)習(xí)技術(shù)大會的現(xiàn)場,非常榮幸地邀請到了星塵智能副總裁、前 DeepMind 研究員王佳楠老師。
王佳楠老師會和大家深入分享自己的技術(shù)人生,希望能提供一些參考和共鳴,還將深入分享對于當(dāng)下火熱的具身智能賽道的見解,以及她在星塵智能的實踐。歡迎王老師,您可以先和大家打個招呼,做一下自我介紹。
王佳楠:大家好,我是星塵智能副總裁王佳楠。更長的時間里,我其實是一個 AI 開發(fā)者。我 18 年在牛津大學(xué)畢業(yè)后,加入了 DeepMind 從事強化學(xué)習(xí)和持續(xù)學(xué)習(xí)的研究。疫情期間,大概 21 年左右回國,在深圳的 IDEA 研究院從事生成式 AI 的研究。24 年初,我加入了星塵智能,負責(zé)大模型與機器人的結(jié)合。
唐小引:您剛才定義自己是一個 AI 開發(fā)者,我很好奇具身智能和 AI 現(xiàn)在的關(guān)系。以前我剛接觸機器人時,感覺它和 AI 是兩個賽道,但現(xiàn)在我看到非常多 AI 領(lǐng)域的人在做具身智能,包括以前做 CV 的、做自動駕駛的,還有做大模型的,都在耕耘具身智能賽道。所以您認為,自己目前依然是一個 AI 開發(fā)者,這是一種融合的關(guān)系嗎?
王佳楠:對,機器人現(xiàn)在是我們 AI 的一個終端平臺。在過往很多年里,機器人本身也是一個歷史悠久的學(xué)科,那時候大家可能會做很多定向開發(fā),比如完成某個固定任務(wù)。現(xiàn)在我們希望的是智能機器人,讓機器人變得更聰明,可以在開放環(huán)境中與人交互,完成復(fù)雜的任務(wù)。所以在這一波浪潮中,AI 變得非常重要。包括做 CV、NLP 等各個領(lǐng)域的 AI 從業(yè)者,都會把機器人當(dāng)作一個終端平臺進行開發(fā),以實現(xiàn)智能機器人的最終目標。
唐小引:您是怎么選擇這個賽道,為什么投身具身智能機器人的?
王佳楠:這要從很久之前說起。我 18 年從牛津畢業(yè)加入 DeepMind 時,公司當(dāng)年的目標就是 AGI。在那個年代,很難想象,AI 并不是一個非常流行的詞匯,很多人不相信甚至不知道 AGI 是什么。在公司內(nèi)部,關(guān)于大家心目中的 AGI 是什么,也有非常多的討論。當(dāng)時有很多派系,比如討論 AGI 是否需要一個機器人的身體?如果不需要,它需要解決什么樣的問題?觀點非常多樣。那時我就在思考,在我心目中 AGI 意味著什么。隨著這些年 AI 技術(shù)的發(fā)展,我看到了機器人更多的可能性,也慢慢覺得這才是最終目標。對我來說,AGI 就是智能機器人,所以就收斂到了這個賽道。
唐小引:所以,我們現(xiàn)在討論的通往 AGI 的路徑,它的終局是具身智能嗎?
王佳楠:不同的人會有不同的觀點。但對我,或者對一批開發(fā)者來說,這會是一個終極的幻想。人類幻想這件事已經(jīng)很久了,在各種科幻小說里,都希望有智能機器人來幫忙做事。它可能作為朋友,扮演不同的角色,在我們的生活中占據(jù)重要位置。
![]()
DeepMind歲月:見證 AlphaStar 的誕生
唐小引:您和機器人的結(jié)緣是在 DeepMind 嗎?
王佳楠:在 DeepMind 時,我開始思考關(guān)于 AGI 的問題。當(dāng)時 DeepMind 也有自己的 Robotics Lab。我去做了一些調(diào)研,看看他們在做什么。那時候大家主要是在做摞小方塊之類的任務(wù),比如把紅色的方塊放在藍色的上面。當(dāng)時我的想象力還沒有完全打開,感覺機器人非常受局限。但是,近些年國內(nèi)硬件的發(fā)展,尤其是我看到了星塵智能的機器人之后,思路突然被打開了。機器人其實可以更自然地出現(xiàn)在我們生活中,能做更多的事情。
唐小引:您有三段主要的職業(yè)經(jīng)歷。可以先談?wù)勀鷱呐=虼髮W(xué)畢業(yè)后,是如何加入 DeepMind 的嗎?對于國內(nèi)所有做 AI 的人來說,那幾乎是一個信仰般的地方。
王佳楠:加入 DeepMind 對我來說是一件很自然的事情。對于很多人來說,心中都會有一些圣地,當(dāng)時在英國讀書的我,也覺得那是一個非常了不起的地方,希望加入其中做研究。讀書期間,牛津組織了一些活動,可以去 DeepMind 參觀,和里面的科學(xué)家交流,當(dāng)時深受鼓舞,覺得有機會一定要加入。剛好畢業(yè)時確實有這樣的機會,所以很幸運地加入了當(dāng)時的浪潮,去從事研究。
唐小引:您是在 AlphaGo 之后加入 DeepMind 的。能否和我們分享一下,您在 DeepMind 期間主要參與了哪些研究方向或項目?
王佳楠:我加入的時候,AlphaGo 項目已經(jīng)完成了。我大概是 18 年加入 DeepMind 的。那時我們做了很多用 AI 打游戲的工作,以此作為驗證平臺,來驗證強化學(xué)習(xí)方法是否能通用,是否能像人一樣做決策。我見證了“AlphaStar”打星際爭霸的過程,那是一個非常大型的游戲,對很多游戲玩家來說是一個圣杯。我們將強化學(xué)習(xí)應(yīng)用在這樣一個需要大規(guī)模交流、協(xié)作和復(fù)雜決策的游戲當(dāng)中。我見證了它的誕生,以及它逐漸向更通用平臺擴展的過程。我們不止是打一款游戲,而是希望設(shè)計一個足夠統(tǒng)一的框架和學(xué)習(xí)方法,讓它在不同游戲中都能表現(xiàn)出色。這就要求模型有更高的智能、更強的適應(yīng)能力,對模型和數(shù)據(jù)的要求也更高。我在不斷追求通用的這條路上參與了一段時間。
![]()
回國發(fā)展:從純粹研究到追求落地應(yīng)用
唐小引:那您后來為什么選擇回國呢?我看到很多 AI 科學(xué)家、研究人員或開發(fā)者會一直留在海外發(fā)展。
王佳楠:原因有很多。第一是時代原因,21 年左右正好是疫情期間,大家都在遠程工作,所以我就回國了。回國后,我見證了國內(nèi)有非常多不錯的 AI 公司和 AI 成果,這是其一。
其二,在 DeepMind 做了三年之后,我個人的心態(tài)也發(fā)生了一些變化。當(dāng)時的 DeepMind 本身不做任何應(yīng)用,它有專門的部門叫“DeepMind for Google”負責(zé)做應(yīng)用,但英國的 DeepMind 只做純算法開發(fā)。那是一段非常有趣且令人鼓舞的旅程。
但在經(jīng)歷了三年之后,我希望能更多地接觸和解決真實世界的算法問題,因為算法最終還是要服務(wù)于我們的生活。那時我個人的心態(tài)和追求的目標發(fā)生了一些變化,剛好有這樣的時機巧合,就決定留在國內(nèi)發(fā)展了。
唐小引:所以作為一名研究者,您還是希望自己的研究能更多地進入真實場景,實現(xiàn)落地應(yīng)用。您回國后加入了 IDEA,但它本身也是一個偏研究的機構(gòu)。
王佳楠:研究是其中的一部分。但當(dāng)時 Harry 沈院長(沈向洋)有更高的目標,他希望我們能真正孵化出一些獨角獸公司,為社會做貢獻,這也是他成立研究院的目標之一。在他的藍圖中,研究院處在一個把研究轉(zhuǎn)化成產(chǎn)品、創(chuàng)造影響力的重要階段。所以,它既有很重的科研成分,也有很強的商業(yè)化目標。
唐小引:您在 IDEA 是在機器人中心嗎?
王佳楠:計算機視覺與機器人中心。
唐小引:在這段經(jīng)歷中,您做出了哪些自己認為是重要成果的成就?
王佳楠:我的成果主要是在生成式 AI 方面。我當(dāng)時負責(zé)生成式 AI,包括現(xiàn)在大家熟知的文字、圖像等視覺領(lǐng)域,其中視覺包括圖片、視頻、3D等。當(dāng)時生成式 AI 還處于初期階段,不像現(xiàn)在 AIGC 這個詞這么普及,有這么多投入。那時還是以科研探索為主,希望能夠用更統(tǒng)一的框架去解決不同的生成類問題。所以,當(dāng)時主要是在算法推進方面做了很多嘗試并取得了一些成果。
唐小引:那星塵智能是什么吸引并打動您加入的呢?
王佳楠:首先,我和我們的聯(lián)合創(chuàng)始人戴媛是十多年的好朋友。我們當(dāng)年在美國認識,她在 UIUC 讀本科,我在港中文讀本科,去那邊交換時認識的。她一直是一個非常有激情的人,也一直在從事機器人相關(guān)的研究和探索,所以我們定期有很多交流。我當(dāng)時更偏 AI,而她有很多機器人的視角。她回國后在騰訊的 Robotics X 也是做機器人方面的研究。在交流過程中,我逐漸發(fā)現(xiàn)機器人行業(yè)在走向成熟,尤其是硬件方面有了非常大的進步。后來她與來杰一起創(chuàng)立了星塵智能。
當(dāng)我親眼看到他們的硬件原型時,那一刻我的想象力被點燃了。我從未想過機器人的動作可以如此靈動、絲滑,展現(xiàn)出近乎人類般的通用操作潛能。正是因為這種技術(shù)突破帶來的震撼,再加上時機、團隊的人,還是產(chǎn)品的初代,都非常吸引著我,于是我決定加入他們。
唐小引:我看星塵智能的機器人發(fā)展得非常快。我算是見證了它從無到有、從零開始的過程,直到現(xiàn)在,它的速度讓我有些驚嘆。不知道你們內(nèi)部是怎樣的節(jié)奏,才能從外部看來有如此驚人的發(fā)展速度?
王佳楠:的確,我們是一家比較年輕的公司,但我們的產(chǎn)品形態(tài)和成熟度都已經(jīng)非常不錯了。我們現(xiàn)在也在對外發(fā)售,并且有很多人嘗試過我們的產(chǎn)品。對于一個需要多學(xué)科合作來制造機器人的公司來說,這個速度的確很快。
我們內(nèi)部,第一是團隊非常多元化,且在這個行業(yè)里有非常長時間的積累,技術(shù)本身不是一蹴而就。其次,我們非常注重多團隊之間的協(xié)作。因為我們既有算法、軟件,也有硬件、結(jié)構(gòu),會涉及到非常多的問題,所以緊密的創(chuàng)業(yè)精神非常重要。大家抱著“要解決這個問題”的最終目標去合作,而不是單獨負責(zé)一個小模塊,完成一個小目標。這樣的創(chuàng)業(yè)精神讓大家聚集在一起,調(diào)用自己過往的知識去合作完成最終的產(chǎn)品。
唐小引:所以星塵智能讓您在具身智能之路上,從軟硬件、從本體到整個系統(tǒng),都得到了更深入全面的了解。
王佳楠:沒錯,我從一個純軟件開發(fā)者,到現(xiàn)在開始與機器人結(jié)合,甚至要去關(guān)心機器人的數(shù)據(jù)如何產(chǎn)生,產(chǎn)生后要進行什么處理,以及如何獲得高質(zhì)量的標注數(shù)據(jù),整個全流程到最后的機器人算法部署,都學(xué)習(xí)到了非常多。
唐小引:有什么頓悟和迷思嗎?
王佳楠:頓悟是,我覺得對我來講,機器人是我要追求的理想和目標,這個信念感非常重要。機器人研發(fā)涉及復(fù)雜的軟硬耦合,任何一個硬件環(huán)節(jié)的變量都可能帶來挑戰(zhàn),這與純粹的 AI 開發(fā)邏輯完全不同。
以前做算法研究,問題通常是預(yù)設(shè)好的,數(shù)據(jù)已經(jīng)過清洗,開發(fā)者的目標非常純粹——即在既定指標上刷新 SOTA(最優(yōu)性能)。回想起來,那是一個相對“真空”且定義明確的環(huán)境。
但在具身智能領(lǐng)域,開發(fā)者必須從“解題者”轉(zhuǎn)變?yōu)椤叭鞒潭x者”:機器人的任務(wù)場景由你定義,數(shù)據(jù)的采集方案由你設(shè)計,模型的適配性也由你把控。你需要從最終的交互結(jié)果出發(fā),反推所需的硬件部件、系統(tǒng)協(xié)作,并精準定位鏈路中的瓶頸。這種從全局出發(fā)、應(yīng)對高度不確定性的開發(fā)模式,正是具身智能最迷人也最具挑戰(zhàn)的地方。
唐小引:您說的全流程,是現(xiàn)在創(chuàng)業(yè)公司的普遍情況,還是說在大廠里依然是每個模塊分開負責(zé)?
王佳楠: 機器人一直是一個對動手能力要求比較高的行業(yè)。目前,大部分機器人 AI 公司都偏創(chuàng)業(yè)型,或是在大廠里也是比較年輕的團隊,所以行業(yè)的標準還沒有特別完善。我相信,或多或少大家都會在全流程中體驗各種問題,去不斷塑造我們希望達到的標準。這是一個在演化中的過程。
![]()
技術(shù)厘清:具身智能的“快慢系統(tǒng)”
唐小引:我前面說,跟很多具身智能從業(yè)者一聊,全是問題,讓我有點喪氣。
王佳楠:所以信念很重要。
唐小引:的確,長期主義的信念是底色。作為觀察者,我想請教一個核心概念的厘清:您今天提到的“快慢系統(tǒng)”,在 LLM 語境下通常被稱為 System 1/System 2,而具身智能領(lǐng)域更習(xí)慣稱之為“大小腦”。這是否意味著,目前具身智能圈已經(jīng)將大模型的認知框架與機器人的底層邏輯進行了跨界統(tǒng)一?
王佳楠: 無論是“快慢系統(tǒng)”、“大小腦”還是“System 1/System 2”,其背后的邏輯架構(gòu)和系統(tǒng)目標是高度一致的。其核心在于區(qū)分決策的深度:復(fù)雜任務(wù)需要深度的邏輯推理,過程較長且慢;而基礎(chǔ)動作或直覺性任務(wù)(如行走),則由快系統(tǒng)直接響應(yīng),無需占用高階計算資源。
在工程實現(xiàn)上,快慢系統(tǒng)更多是一種“功能定義”,而非固定的物理模型限制。它既可以通過單一模型在不同模式間切換實現(xiàn),也可以通過多模型協(xié)作完成。我們可以通過預(yù)設(shè)邏輯引導(dǎo)模型在處理高難度任務(wù)時觸發(fā)“慢思考”;也可以讓模型在訓(xùn)練中自主學(xué)習(xí)判斷介入推理的時機。此外,該架構(gòu)具備高度的可擴展性,例如通過接口為慢系統(tǒng)調(diào)用外部更強大的模型,以應(yīng)對特定的復(fù)雜場景。
![]()
唐小引:您可以圍繞快系統(tǒng)展開分享一下嗎?我之前很困惑,比如現(xiàn)在有一些專用的具身智能機器人能滿足干體力活的需求,但大家可能想要的是像人一樣,在任何場景下,屬于行動類的任務(wù)都能直接做。但現(xiàn)在具身智能給大家的感覺,更多的是在執(zhí)行一些預(yù)設(shè)任務(wù),對于一些臨時需求,可能沒辦法很好地執(zhí)行。如果具身智能要類比人,那么實現(xiàn)小腦這樣的目標可能會非常遙遠。不知道現(xiàn)在我們進展到哪一步了?
王佳楠:關(guān)于“快系統(tǒng)”或“小腦”的功能,我們普遍將其定義為無需語言中介、由直覺驅(qū)動的基礎(chǔ)運動能力。例如,抓取桌面上的單一物體,這屬于一種非決策性的反射動作。
在人類日常行為中,存在大量的“原子動作”(抓、拿、推等)。對應(yīng)到機器人訓(xùn)練上,快系統(tǒng)的核心任務(wù)就是通過海量的動作片段數(shù)據(jù)進行預(yù)訓(xùn)練,構(gòu)建機器人的“動作基元庫”。這非常類似于人類的早期發(fā)育:嬰兒在產(chǎn)生復(fù)雜認知前,首先要通過運動來感知并適應(yīng)自己的身體,將抓握、伸展等動作內(nèi)化為本能。
目前,我們內(nèi)部已經(jīng)積累了大規(guī)模的機器人運動語料。快系統(tǒng)并不需要理解動作背后的語義邏輯,它只需要明確自身的“能力邊界”,即知曉自己能完成哪些物理軌跡。只有當(dāng)快系統(tǒng)具備了這些成熟的原子技能,后續(xù)接入的“慢系統(tǒng)”(大腦)才能作為指揮官,通過高層指令精準調(diào)用這些動作,實現(xiàn)從“意圖”到“執(zhí)行”的閉環(huán)。
![]()
技術(shù)瓶頸與探索:意圖理解、模型架構(gòu)與數(shù)據(jù)
唐小引:那怎么把我作為人類的意圖和需求,精準地讓機器人去執(zhí)行呢?我們希望的肯定不是預(yù)設(shè)好的任務(wù)。
王佳楠:這是非常重要的一個問題,就是人類意圖的表達。要讓機器人理解非預(yù)設(shè)的復(fù)雜需求,核心在于意圖表達的顆粒度。
目前,VLA 模型主要依靠“語言指令-動作映射”來建立聯(lián)系。然而,純語言交互在面對精細任務(wù)時顯得有些力不從心。回顧 AIGC 的進化史,從最初的文本描述到后來引入位置、輪廓等具體約束,控制力得到了質(zhì)的飛躍。
這種邏輯完全可以復(fù)刻到機器人身上。除了“說出需求”,我們還可以引入更直觀的控制接口:比如給機器人畫出一個大致的運動軌跡,或者設(shè)定空間約束。通過這種“語言指令+多模態(tài)提示”組合,我們能極大地增強機器人對人類真實意圖的捕捉能力,從而應(yīng)對更具動態(tài)挑戰(zhàn)的現(xiàn)實場景。
唐小引:我們接著聊一聊大腦。我聽到很多人表示,基于 Transformer 架構(gòu)的 AI 大腦,可能模型本身能力強,不代表在具身智能機器人上也一樣強。經(jīng)常聽到具身智能領(lǐng)域分享技術(shù)瓶頸時,會提到模型架構(gòu)、數(shù)據(jù)和計算等方面。如果說模型架構(gòu)的局限性是具身智能的瓶頸,那現(xiàn)在探索和解決方案的可行方向是什么?
王佳楠:模型架構(gòu)方面,大家在做不同的探索。最常見的是用一個 Transformer 搞定,遵循現(xiàn)在 VLM(Vision-Language Model)的框架。還有一些方案是外接一個世界模型,這個世界模型可能是 DiT(Diffusion Transformer)或 Diffusion 模型,對未來做一個預(yù)測,再把這個預(yù)測以某種方式接到下層的執(zhí)行模型中。
你也可以去提取更多的動作提示,比如做圖片生成、軌跡生成,這些也可以用專有模型來做。所以架構(gòu)上,我覺得比較重要的是有一個相對完善的系統(tǒng),可以開放地接受不同形式的提示或人類意圖。我們希望最終一個模型能搞定所有事,但現(xiàn)在受限于您剛才提到的數(shù)據(jù)等層面的問題,當(dāng)前可能還完成不了。但我們可以去調(diào)用更強的模型來補齊這方面的知識和能力。所以整個系統(tǒng)層面的要求會更高,而對于單一模塊,模型架構(gòu)和數(shù)據(jù)能力會在各自領(lǐng)域不斷提升。那些提升如果能被機器人這一側(cè)直接用到,就是比較理想的狀態(tài)。
唐小引:星塵智能在數(shù)據(jù)這塊,是不是仿真的占比較少?
王佳楠:我們目前用仿真比較多的是在做數(shù)據(jù)增強。
唐小引:大家在解決數(shù)據(jù)瓶頸時,可能會通過合成數(shù)據(jù)等方式。現(xiàn)在這方面存在共性瓶頸,但在技術(shù)路線上,好像又沒有形成比較公認的方案。您對這塊的思考是怎樣的?
王佳楠:因為行業(yè)還處于初期,大家都在探索階段,的確共識性沒有那么強。但大家大概知道一些重要的模塊和可行的方案。我相信星塵智能、其他公司、高校以及科研機構(gòu),大家都在這個方向上努力,我們會逐漸收斂出比較行之有效的路徑。
目前來講,共識是大家都知道數(shù)據(jù)重要,而且一定需要最高質(zhì)量的數(shù)據(jù)。因為在真實應(yīng)用時,機器人需要真的去交互,可能會操作非常精細的物體,所以我們必須要有高質(zhì)量的真機數(shù)據(jù)。在這一塊我們做了非常多的優(yōu)化。
仿真數(shù)據(jù)方面,我們和高校合作,也會做一些數(shù)據(jù)的生成和增強。“增強”的意思是,我采集了一條真實數(shù)據(jù),這條數(shù)據(jù)在仿真中一定是真實可接觸的,因為是我親手采集的。然后我可以在仿真中把它變成一千條、一百萬條數(shù)據(jù),比如對背景、光照、材質(zhì)、顏色做一些調(diào)整,這些都是非常有效的。還有一些是純仿真生成的數(shù)據(jù)。當(dāng)交互不復(fù)雜時,比如抓放一個東西,這類數(shù)據(jù)也可以相對高質(zhì)量地產(chǎn)生。但如果你要做更復(fù)雜的事,比如拿著鑰匙開鎖,或者疊衣服,這些就比較難仿真。這就要看仿真軟件的進步和大家的持續(xù)探索能產(chǎn)生什么樣的結(jié)果。但它也是一條可行的路線,取決于你的任務(wù)難度。最后就是我們廣泛積累的互聯(lián)網(wǎng)數(shù)據(jù),這方面大家也都在做廣泛的收集和探索。
唐小引:積累的互聯(lián)網(wǎng)數(shù)據(jù)能解決具身智能的痛點嗎?
王佳楠:它能解決一些偏上層能力的痛點。比如要完成一個長時序的任務(wù),可能會有步驟 A、B、C、D,這些是可以通過互聯(lián)網(wǎng)數(shù)據(jù)補齊的。再比如,我要操作一個物體,最基本的能力是,當(dāng)人給我指令說“拿杯子”,它首先要知道杯子是什么,杯子在哪兒。而且人經(jīng)常會說得很模糊,比如“幫我拿一個紅色的東西”,“幫我拿一個熱量比較低的飲料”。這些對于需要和人交互的機器人模型來說,對上層語義的理解要求非常高。所以,長期積累的互聯(lián)網(wǎng)數(shù)據(jù)還是能夠解決不少問題的。
![]()
世界模型:通往 AGI 的路徑,還是哲學(xué)問題?
唐小引:在 AI 數(shù)字世界里,大家之前很苦惱于提示詞怎么寫才能精準表達需求,現(xiàn)在上下文工程很流行。在 AI-Coding 領(lǐng)域,現(xiàn)在有些工具會直接把你的模糊需求進行增強,再輸出更精準的結(jié)果。在涉及到從數(shù)字世界到物理世界的具身智能領(lǐng)域,又是怎么做的呢?
王佳楠:您剛才講的這一塊是非常有效的路徑。人的輸入是不可控的,指令可以非常自由。那我們可以有一個專門的模塊來翻譯你的指令,把它翻譯成機器人可能“見過”的、更直接的指令,這是一個有效的方案。
但現(xiàn)在更多的情況是,大家直接利用一個預(yù)訓(xùn)練好的 VLM 模型,它本身就自帶對這類指令的理解和增強能力。這樣就可以先不考慮這一層的復(fù)雜度,直接把你的指令翻譯成機器人的動作。
這最終還是取決于你的場景。
我們希望機器人最終能在真實場景里做我們希望它做的事。如果這個場景需要非常多的與人交流交互,那你就需要把這一塊做強。可能需要翻譯模塊,也需要對話能力,不只要有動作,還要同時輸出與你的交互內(nèi)容,比如語言。但有些場景,比如我在咖啡廳打工,前面已經(jīng)有人接單了,我的任務(wù)就是做不同的咖啡,在這種不需要經(jīng)常和人交互的場景下,可能就不需要那么強的指令理解能力。所以這很看場景。機器人基本都會有權(quán)衡(trade-off),比如速度、復(fù)雜度,以及動作完成的精準度,它們之間經(jīng)常需要取舍。大家在真實場景中需要考慮這些問題。
唐小引:剛才聊到世界模型,今年這個概念非常火。有一個言論是“世界模型是通往 AGI 的路徑”,這會是大家的共識嗎?
王佳楠:純屬個人觀點,這未必是一個共識性的結(jié)論。這可能出于我之前的一些經(jīng)驗考量。當(dāng)時還在 DeepMind 的時候,大家會做很多打游戲這樣的任務(wù),用到了非常多的仿真。那時大家就會討論,這個仿真什么時候可以做到完美?做到完美我們就有世界模型了。
但有一個可能偏哲學(xué)的觀點是,如果你已經(jīng)能夠完美地仿真出這個問題所處的環(huán)境和復(fù)雜度,那這個問題你其實已經(jīng)解決了。這是一個雞生蛋還是蛋生雞的問題。你很難說我可以等到有了一個完美的世界模型,然后我的機器人就可以變得更好。這個世界模型能否完美地存在,本身可能是一個問題。但它也許并不需要完美,能解決一部分問題就行,比如給你一個大致的提示。這一點還是非常可行的,因為近些年我們看到視頻生成模型已經(jīng)變得越來越強。當(dāng)然它在物理真實性方面還有提升空間,但的確已經(jīng)有很多不錯的成果了。如果持續(xù)發(fā)展,它確實可以為我們的機器人提供一些比較好的提示,這是可行的。當(dāng)然,還需要去優(yōu)化速度,以及它跟機器人的真實交互接口。但這是一條比較簡潔且看起來很有潛力的方向。
唐小引:您覺得世界模型有哪些是可行的方向,又有哪些是當(dāng)前您看到的泡沫或者誤區(qū)?
王佳楠:首先,我認為世界模型是一個可行的、且很有潛力的方向,我們跟高校的合作其實也在探索和推進這個方向。至于泡沫或者誤區(qū),現(xiàn)在很難一下子就判斷。因為問題的多元性太強了。如果你是讓大模型解一個數(shù)學(xué)問題,那問題非常清晰,有對有錯。但對機器人來說,它所處的場景和需要解決的問題非常多元化,可能會有不同的技術(shù)方案對某個特定問題行之有效,但對更廣泛的問題可能并不適用。但這不意味著它就是泡沫或誤區(qū),因為它確實也能解決一些問題。所以,我現(xiàn)在的觀點是:能夠解決問題的就是好方向,取決于你是否定義好了你的問題。
![]()
VLA 與通用機器人的愿景
唐小引:具身智能體和數(shù)字世界的 AI Agent 有什么異同?之前前 OpenAI 的研究員吳翼老師曾說,具身智能體的實現(xiàn),前提可能是要先解決 VLA 和硬件的問題。您對此有什么思考?
王佳楠:具身智能體不是我的主要方向,我們做 VLA 做得比較多,這取決于怎么定義“智能體”。
現(xiàn)在大家說的 AI Agent 更多的是指有很多專用模型,它們之間可以基于不同場景互相調(diào)用,串聯(lián)起來解決一個問題,這可能是我比較狹隘的理解。在這方面,我的實操經(jīng)驗不多。但我們之前確實嘗試過調(diào)用不同的模型來解決機器人問題。比如李飛飛他們的團隊也會做類似的事情,調(diào)用一些感知類的模型來解決定位問題,這些是可行的,也是行之有效的。
唐小引:剛才聊到 VLA,我看到一個觀點說,VLA 是自動駕駛以及具身智能的終極解決方案。您怎么看這個觀點?
王佳楠:終極解決方案,這要看“終極”指的是什么。從我個人觀點來看,我認為它是通向終極的非常重要的一步,它為機器人配備了通用的能力,這是非常重要的一件事。但在下游應(yīng)用中,還是會需要一些特定的設(shè)計或改動。當(dāng)然,這兩者并不沖突,它是在 VLA 的基礎(chǔ)上再演化出一些新的結(jié)構(gòu)與功能。所以我同意,它是通往終極的一個重要的里程碑。
唐小引:您理解的具身智能終極,是不是就是我們大家之前呼喚的通用機器人?它到底還有多遠?
王佳楠:這個問題還蠻難回答的。我認為,我們對通用機器人的想象,是它在我們身邊幫助我們做很多事,是我的助理、管家,或者清潔人員,它會有不同的角色。
我認為這樣的通用機器人走到我們身邊,可能需要的時間比較短,大概 2 到 3 年。但它是不是一個純自主的機器人,這有待商榷。
我不認為在短短的時間內(nèi),我們的模型能夠達到足夠的魯棒性和安全性,來真正完全自主地完成我們交代的一切。所以我們公司包括我個人的觀點,還是跟自動駕駛一樣。首先,機器人作為一個產(chǎn)品,它要在你身邊,有自己的使用價值。就像車一樣,有沒有自動駕駛功能,它都是車,你都可以用。自動駕駛是為它配備了一定的智能性,這個智能性一定是在不斷演化升級的。當(dāng)它走到我們身邊時,一開始我們可能需要去接管、去幫助它、去教它,這些都是可以接受的。在這個過程中,它會慢慢地演化出更高的智能、更高的準確率和魯棒性。我覺得這需要經(jīng)過一個漫長的時間迭代。
唐小引:這個漫長的周期是多久?
王佳楠: 周期長短看你的需求。比如你要百分之百的正確率,并且是在你定義好的一千萬個任務(wù)上。當(dāng)你的目標清晰時,這主要就是一個數(shù)據(jù)和模型訓(xùn)練的問題,問題還沒那么大。
如果數(shù)據(jù)采集足夠快,大家共同創(chuàng)建一個數(shù)據(jù)中心和數(shù)據(jù)來源,我覺得 3 到 5 年我們可能會有非常完整的數(shù)據(jù),覆蓋日常生活中各種各樣的場景。但如果你的問題不確定,比如今天是一萬種任務(wù),但生活中可能會有各種各樣的可能性演化出更多任務(wù),或者在其他場景下有不同的交互模式,那這個迭代過程可能就要不斷地持續(xù)下去。
![]()
未來方向:人機交互、多模態(tài)數(shù)據(jù)與降低門檻
唐小引:圍繞具身智能當(dāng)前的技術(shù)發(fā)展,除了剛才提到的,您覺得還有哪些很關(guān)鍵的方向或問題?
王佳楠:關(guān)鍵的方向和問題,比如剛才講到的世界模型、快慢系統(tǒng),這些都是大家已經(jīng)在廣泛探索的。
唐小引:還有哪些是大家目前沒太注意到,但未來可能會成為廣泛探索方向的?
王佳楠:其中一個是與機器人的交互。交互這塊包括它如何理解我的意圖,如何與我溝通交流。當(dāng)它自己碰到問題時,會不會主動發(fā)出信號說“我現(xiàn)在不知道該怎么辦了”。因為它畢竟不像手機是我們熟悉的產(chǎn)品,所以需要去不斷定義交互方式,并解決里面的科學(xué)問題。
第二,從訓(xùn)練模型的角度,我們希望數(shù)據(jù)可以更加多元化、多模態(tài)。我們最近跟 MIT 的合作也在思考,人做事的時候其實不是非常被動的,我們會有主動的關(guān)注點轉(zhuǎn)移,會有更多的模態(tài)感知,比如我們的觸覺,我們大致知道自己使了多少力。所以,更多模態(tài)的數(shù)據(jù)收集,以及如何把這些數(shù)據(jù)應(yīng)用到模型中,也是非常值得繼續(xù)探索的問題。這是兩個例子。
唐小引:我剛才聽您演講時,用一句通俗的話來理解,您想做的事情是“把具身智能的門檻打下來”。
王佳楠:在一定程度上可以這樣理解。
唐小引:您覺得截止到目前,距離您的目標完成了多少?
王佳楠:在我心目中,可能進度在 50% 左右。
首先是“打磨”階段,我們先在內(nèi)部用順手,然后推向高校。目前有很多合作伙伴在試用我們的機器人,我們也在同步觀察他們的使用習(xí)慣,看看實際會碰到哪些坑。現(xiàn)在的反饋是,門檻對他們來說不算高,大家能基于這個平臺做非常深度的算法開發(fā)。
接下來是商業(yè)化落地。現(xiàn)在還是我們幫客戶去驗證某些場景能不能跑通,但下一步,必須得讓客戶自己能輕便地去驗證。只有客戶能自主驗證場景、方便地進行二次開發(fā),商業(yè)側(cè)才算真正成熟了,這是非常關(guān)鍵的一步。
再往前看,才是面向極客這類的普通用戶。這類人的畫像其實跟科研用戶挺像的,實操能力極強,愛探索。
所以我覺得“科研”和“極客”這兩端目前的進展還不錯,雖然還有提升空間,但最考驗我們的還是中間的商業(yè)應(yīng)用。這需要我們的交互界面做得足夠友好,怎么讓一個完全沒有背景知識的人也能上手即用?這是我們接下來要猛攻的方向。
![]()
落地挑戰(zhàn)與給開發(fā)者的建議
唐小引:您在星塵智能本身也會很關(guān)注機器人具體的應(yīng)用落地環(huán)節(jié)嗎?會實際參與嗎?
王佳楠:老實講沒有那么多。我們會去關(guān)注終端場景,因為我們在內(nèi)部做預(yù)訓(xùn)練模型,比如 VLA 模型,就是要服務(wù)于下游場景的。所以在這個層面我們很關(guān)注。但我們有更專業(yè)的同事在做不同場景的實際測試。
唐小引:那通過您的觀察和交流,有看到在 To C 和 To B 的實際應(yīng)用落地時有什么樣的挑戰(zhàn)嗎?有哪些是讓您覺得比較棘手的?
王佳楠:在實際落地過程中,我的經(jīng)驗可能沒有那么多,只能分享幾個道聽途說的,聽我們同事分享的也非常有意思。有些點真的是要走到實際場景中才會碰到。比如我們?nèi)ヰB(yǎng)老院,跟老人家交流,做一些他們關(guān)注的任務(wù)。然后發(fā)現(xiàn)了一個非常有意思的小細節(jié):我們那個機器人的夾爪開合非常快。這是為了服務(wù)于快速控制,能夠做拋接這類高動態(tài)的任務(wù),是我們設(shè)計的一個優(yōu)勢。但是在養(yǎng)老院,因為夾爪開合快,會有聲音,可能會嚇到老人家。這是一個非常實際的小問題,是在這個特定場景里才會碰到的。諸如此類的問題在不同場景中會有不同的體現(xiàn)。當(dāng)然,更多不那么偏向與人交互的,比如商業(yè)型或任務(wù)驅(qū)動型的場景,挑戰(zhàn)可能更多的是需要力觸覺反饋、需要做精細操作,或者在比較密集的一堆試管中抓到想要的那一個。這些是靈巧性和精準度的挑戰(zhàn)。
唐小引:您剛才舉的養(yǎng)老院的例子,后面的解決方案是什么?
王佳楠:這應(yīng)該會有不同的解決方案,是我們同事在持續(xù)跟進的。我覺得在機器人領(lǐng)域,很多問題沒有是非對錯,而是一個取舍。
唐小引:最后,對于年輕的,或者想要觀望、投身具身智能的開發(fā)者,您有什么建議或心得體會可以分享嗎?
王佳楠:我覺得一件非常重要的事情是,具身智能是一個非常有前景,但也很長的一條路。這個過程中一定會碰到非常多的問題,所以希望大家能有信念感,去關(guān)注自己的目標是什么,需要解決什么樣的問題,并對自己當(dāng)前碰到的問題有一定的耐心和容忍度。因為你在創(chuàng)造歷史,這不是一條之前大家都走過的路。
其次,要抱著一個共創(chuàng)共贏的心態(tài),我們公司也是如此。因為整個市場未來的預(yù)期非常大,而這個問題不是一個人、一個學(xué)校或一個機構(gòu)能夠短期內(nèi)自己解決的。我們需要集合大家的力量,尤其是前沿開發(fā)者的力量。我們需要不斷地收集反饋,了解有什么困難,無論是從硬件層還是算法側(cè)。當(dāng)這個強大的社區(qū)建立起來之后,每個人都是其中的貢獻者和受益者。所以希望大家可以多進行交流,多反饋,一起抱著共贏的心態(tài)來解決問題。
唐小引:我之前聽別的專家提醒,要對熱技術(shù)有冷思考,說具身智能是一個“一將功成萬骨枯”的方向,所以如果要投身,一定要想清楚。您的側(cè)重點更像是在這個方向上如何堅持下來。
王佳楠:對,其實不沖突。你確實要先想好,自己是不是有這樣的信念,是不是真的想解決這個問題。一旦你確定了,就請多多堅持,多一點耐心。
唐小引:好,謝謝王佳楠老師為我們帶來的精彩分享。我們今天的節(jié)目就到這里,謝謝大家,我們下期再見。
↓想要觀看完整視頻的小伙伴可戳~
關(guān)于《萬有引力》:
這是由 CSDN &《新程序員》執(zhí)行總編唐小引主理的對話欄目。技術(shù)趨勢多變,一不留神總擔(dān)心錯過。正在發(fā)生的技術(shù)事件,對于我們開發(fā)者意味著什么?我們面臨的諸多困惑從何尋找答案?《萬有引力》即志在于此,直面事件與困惑,抽絲剝繭,解讀技術(shù)真相。
欄目定位:一檔面向開發(fā)者群體,聚焦解讀技術(shù)真相的對話欄目。
視頻觀看平臺:CSDN 視頻號、CSDN 網(wǎng)站 & App
多形式:文章、視頻、音頻都會有,持續(xù)關(guān)注 CSDN 公眾號都可獲取,歡迎大家關(guān)注!
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.