網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

從 DeepMind 到投身具身智能，王佳楠：算法最終還是要服務(wù)真實世界｜萬有引力

2026-01-23 18:31:59　來源: AI科技大本營

北京舉報

分享至

對話 | 唐小引嘉賓 | 王佳楠

責(zé)編 | 夢依丹

出品 | CSDN（ID：CSDNnews）

通往 AGI 的終點，是代碼，還是身體？

在王佳楠看來，答案明確指向了——具身智能。

她曾在牛津大學(xué)完成學(xué)業(yè)，加入 DeepMind，從事強化學(xué)習(xí)與持續(xù)學(xué)習(xí)研究，親歷了 AlphaStar 等標志性項目的誕生，也在國內(nèi)生成式 AI 尚處早期階段時，參與過統(tǒng)一生成框架的探索，走在 AIGC 爆發(fā)之前的科研前沿。無論是在“純算法”的巔峰，還是在生成式模型的起點，她都站在浪潮內(nèi)部。

2024 年，她加入星塵智能，選擇直面一個更復(fù)雜、也更“真實”的問題：如何讓大模型真正進入機器人，進入物理世界，成為可用、可落地、可持續(xù)演化的智能體。

這意味著不再只是比拼指標、參數(shù)或論文，而是要與硬件、數(shù)據(jù)、系統(tǒng)協(xié)作和真實場景中的不確定性正面交鋒。

左：王佳楠，右：唐小引

在 2025 全球機器學(xué)習(xí)技術(shù)大會現(xiàn)場，CSDN &《新程序員》執(zhí)行總編唐小引與星塵智能副總裁、前 DeepMind 研究員王佳楠展開了一次深入對話。從 AGI 的終極想象，到具身智能的現(xiàn)實瓶頸，從快慢系統(tǒng)的工程邏輯，到通用機器人的時間表與開發(fā)者應(yīng)有的信念，她給出了一個既冷靜、也充滿長期主義色彩的答案。王佳楠在采訪中提到的核心觀點有：

具身智能并非機器人或 AI 的“新分支”，而是各類 AI 技術(shù)（CV、NLP、大模型）在現(xiàn)實世界中的統(tǒng)一落點；
從 DeepMind 到創(chuàng)業(yè)公司，本質(zhì)是從“定義好問題”到“定義問題本身”；
“快慢系統(tǒng) / 大小腦”是具身智能的核心系統(tǒng)觀，而非模型數(shù)量之爭；
數(shù)據(jù)是當(dāng)前最硬的瓶頸，高質(zhì)量真機數(shù)據(jù)不可替代；
世界模型很有潛力，但不是“等它完美了再做機器人” 世界模型能提供預(yù)測與提示價值，但它本身不是銀彈，也不需要完美；
VLA 是通往通用機器人的關(guān)鍵一步，而非終點；
通用機器人“走到人身邊”可能只需 2–3 年，但完全自主還需要長期演化更現(xiàn)實的路徑，是“可用先行、人類接管、逐步升級”，類似自動駕駛的發(fā)展節(jié)奏；
具身智能是一條漫長但值得堅持的路：這是一個需要共創(chuàng)的時代，個人、公司與社區(qū)必須共同積累、持續(xù)反饋，才能真正推進邊界。

歡迎收聽音頻播客，如有興趣觀看完整視頻，可在文末獲取

從 DeepMind 到投身具身智能

唐小引：大家好，歡迎收看《萬有引力》。我們今天在全球機器學(xué)習(xí)技術(shù)大會的現(xiàn)場，非常榮幸地邀請到了星塵智能副總裁、前 DeepMind 研究員王佳楠老師。

王佳楠老師會和大家深入分享自己的技術(shù)人生，希望能提供一些參考和共鳴，還將深入分享對于當(dāng)下火熱的具身智能賽道的見解，以及她在星塵智能的實踐。歡迎王老師，您可以先和大家打個招呼，做一下自我介紹。

王佳楠：大家好，我是星塵智能副總裁王佳楠。更長的時間里，我其實是一個 AI 開發(fā)者。我 18 年在牛津大學(xué)畢業(yè)后，加入了 DeepMind 從事強化學(xué)習(xí)和持續(xù)學(xué)習(xí)的研究。疫情期間，大概 21 年左右回國，在深圳的 IDEA 研究院從事生成式 AI 的研究。24 年初，我加入了星塵智能，負責(zé)大模型與機器人的結(jié)合。

唐小引：您剛才定義自己是一個 AI 開發(fā)者，我很好奇具身智能和 AI 現(xiàn)在的關(guān)系。以前我剛接觸機器人時，感覺它和 AI 是兩個賽道，但現(xiàn)在我看到非常多 AI 領(lǐng)域的人在做具身智能，包括以前做 CV 的、做自動駕駛的，還有做大模型的，都在耕耘具身智能賽道。所以您認為，自己目前依然是一個 AI 開發(fā)者，這是一種融合的關(guān)系嗎？

王佳楠：對，機器人現(xiàn)在是我們 AI 的一個終端平臺。在過往很多年里，機器人本身也是一個歷史悠久的學(xué)科，那時候大家可能會做很多定向開發(fā)，比如完成某個固定任務(wù)。現(xiàn)在我們希望的是智能機器人，讓機器人變得更聰明，可以在開放環(huán)境中與人交互，完成復(fù)雜的任務(wù)。所以在這一波浪潮中，AI 變得非常重要。包括做 CV、NLP 等各個領(lǐng)域的 AI 從業(yè)者，都會把機器人當(dāng)作一個終端平臺進行開發(fā)，以實現(xiàn)智能機器人的最終目標。

唐小引：您是怎么選擇這個賽道，為什么投身具身智能機器人的？

王佳楠：這要從很久之前說起。我 18 年從牛津畢業(yè)加入 DeepMind 時，公司當(dāng)年的目標就是 AGI。在那個年代，很難想象，AI 并不是一個非常流行的詞匯，很多人不相信甚至不知道 AGI 是什么。在公司內(nèi)部，關(guān)于大家心目中的 AGI 是什么，也有非常多的討論。當(dāng)時有很多派系，比如討論 AGI 是否需要一個機器人的身體？如果不需要，它需要解決什么樣的問題？觀點非常多樣。那時我就在思考，在我心目中 AGI 意味著什么。隨著這些年 AI 技術(shù)的發(fā)展，我看到了機器人更多的可能性，也慢慢覺得這才是最終目標。對我來說，AGI 就是智能機器人，所以就收斂到了這個賽道。

唐小引：所以，我們現(xiàn)在討論的通往 AGI 的路徑，它的終局是具身智能嗎？

王佳楠：不同的人會有不同的觀點。但對我，或者對一批開發(fā)者來說，這會是一個終極的幻想。人類幻想這件事已經(jīng)很久了，在各種科幻小說里，都希望有智能機器人來幫忙做事。它可能作為朋友，扮演不同的角色，在我們的生活中占據(jù)重要位置。

DeepMind歲月：見證 AlphaStar 的誕生

唐小引：您和機器人的結(jié)緣是在 DeepMind 嗎？

王佳楠：在 DeepMind 時，我開始思考關(guān)于 AGI 的問題。當(dāng)時 DeepMind 也有自己的 Robotics Lab。我去做了一些調(diào)研，看看他們在做什么。那時候大家主要是在做摞小方塊之類的任務(wù)，比如把紅色的方塊放在藍色的上面。當(dāng)時我的想象力還沒有完全打開，感覺機器人非常受局限。但是，近些年國內(nèi)硬件的發(fā)展，尤其是我看到了星塵智能的機器人之后，思路突然被打開了。機器人其實可以更自然地出現(xiàn)在我們生活中，能做更多的事情。

唐小引：您有三段主要的職業(yè)經(jīng)歷。可以先談?wù)勀鷱呐＝虼髮W(xué)畢業(yè)后，是如何加入 DeepMind 的嗎？對于國內(nèi)所有做 AI 的人來說，那幾乎是一個信仰般的地方。

王佳楠：加入 DeepMind 對我來說是一件很自然的事情。對于很多人來說，心中都會有一些圣地，當(dāng)時在英國讀書的我，也覺得那是一個非常了不起的地方，希望加入其中做研究。讀書期間，牛津組織了一些活動，可以去 DeepMind 參觀，和里面的科學(xué)家交流，當(dāng)時深受鼓舞，覺得有機會一定要加入。剛好畢業(yè)時確實有這樣的機會，所以很幸運地加入了當(dāng)時的浪潮，去從事研究。

唐小引：您是在 AlphaGo 之后加入 DeepMind 的。能否和我們分享一下，您在 DeepMind 期間主要參與了哪些研究方向或項目？

王佳楠：我加入的時候，AlphaGo 項目已經(jīng)完成了。我大概是 18 年加入 DeepMind 的。那時我們做了很多用 AI 打游戲的工作，以此作為驗證平臺，來驗證強化學(xué)習(xí)方法是否能通用，是否能像人一樣做決策。我見證了“AlphaStar”打星際爭霸的過程，那是一個非常大型的游戲，對很多游戲玩家來說是一個圣杯。我們將強化學(xué)習(xí)應(yīng)用在這樣一個需要大規(guī)模交流、協(xié)作和復(fù)雜決策的游戲當(dāng)中。我見證了它的誕生，以及它逐漸向更通用平臺擴展的過程。我們不止是打一款游戲，而是希望設(shè)計一個足夠統(tǒng)一的框架和學(xué)習(xí)方法，讓它在不同游戲中都能表現(xiàn)出色。這就要求模型有更高的智能、更強的適應(yīng)能力，對模型和數(shù)據(jù)的要求也更高。我在不斷追求通用的這條路上參與了一段時間。

回國發(fā)展：從純粹研究到追求落地應(yīng)用

唐小引：那您后來為什么選擇回國呢？我看到很多 AI 科學(xué)家、研究人員或開發(fā)者會一直留在海外發(fā)展。

王佳楠：原因有很多。第一是時代原因，21 年左右正好是疫情期間，大家都在遠程工作，所以我就回國了。回國后，我見證了國內(nèi)有非常多不錯的 AI 公司和 AI 成果，這是其一。

其二，在 DeepMind 做了三年之后，我個人的心態(tài)也發(fā)生了一些變化。當(dāng)時的 DeepMind 本身不做任何應(yīng)用，它有專門的部門叫“DeepMind for Google”負責(zé)做應(yīng)用，但英國的 DeepMind 只做純算法開發(fā)。那是一段非常有趣且令人鼓舞的旅程。

但在經(jīng)歷了三年之后，我希望能更多地接觸和解決真實世界的算法問題，因為算法最終還是要服務(wù)于我們的生活。那時我個人的心態(tài)和追求的目標發(fā)生了一些變化，剛好有這樣的時機巧合，就決定留在國內(nèi)發(fā)展了。

唐小引：所以作為一名研究者，您還是希望自己的研究能更多地進入真實場景，實現(xiàn)落地應(yīng)用。您回國后加入了 IDEA，但它本身也是一個偏研究的機構(gòu)。

王佳楠：研究是其中的一部分。但當(dāng)時 Harry 沈院長（沈向洋）有更高的目標，他希望我們能真正孵化出一些獨角獸公司，為社會做貢獻，這也是他成立研究院的目標之一。在他的藍圖中，研究院處在一個把研究轉(zhuǎn)化成產(chǎn)品、創(chuàng)造影響力的重要階段。所以，它既有很重的科研成分，也有很強的商業(yè)化目標。

唐小引：您在 IDEA 是在機器人中心嗎？

王佳楠：計算機視覺與機器人中心。

唐小引：在這段經(jīng)歷中，您做出了哪些自己認為是重要成果的成就？

王佳楠：我的成果主要是在生成式 AI 方面。我當(dāng)時負責(zé)生成式 AI，包括現(xiàn)在大家熟知的文字、圖像等視覺領(lǐng)域，其中視覺包括圖片、視頻、3D等。當(dāng)時生成式 AI 還處于初期階段，不像現(xiàn)在 AIGC 這個詞這么普及，有這么多投入。那時還是以科研探索為主，希望能夠用更統(tǒng)一的框架去解決不同的生成類問題。所以，當(dāng)時主要是在算法推進方面做了很多嘗試并取得了一些成果。

唐小引：那星塵智能是什么吸引并打動您加入的呢？

王佳楠：首先，我和我們的聯(lián)合創(chuàng)始人戴媛是十多年的好朋友。我們當(dāng)年在美國認識，她在 UIUC 讀本科，我在港中文讀本科，去那邊交換時認識的。她一直是一個非常有激情的人，也一直在從事機器人相關(guān)的研究和探索，所以我們定期有很多交流。我當(dāng)時更偏 AI，而她有很多機器人的視角。她回國后在騰訊的 Robotics X 也是做機器人方面的研究。在交流過程中，我逐漸發(fā)現(xiàn)機器人行業(yè)在走向成熟，尤其是硬件方面有了非常大的進步。后來她與來杰一起創(chuàng)立了星塵智能。

當(dāng)我親眼看到他們的硬件原型時，那一刻我的想象力被點燃了。我從未想過機器人的動作可以如此靈動、絲滑，展現(xiàn)出近乎人類般的通用操作潛能。正是因為這種技術(shù)突破帶來的震撼，再加上時機、團隊的人，還是產(chǎn)品的初代，都非常吸引著我，于是我決定加入他們。

唐小引：我看星塵智能的機器人發(fā)展得非常快。我算是見證了它從無到有、從零開始的過程，直到現(xiàn)在，它的速度讓我有些驚嘆。不知道你們內(nèi)部是怎樣的節(jié)奏，才能從外部看來有如此驚人的發(fā)展速度？

王佳楠：的確，我們是一家比較年輕的公司，但我們的產(chǎn)品形態(tài)和成熟度都已經(jīng)非常不錯了。我們現(xiàn)在也在對外發(fā)售，并且有很多人嘗試過我們的產(chǎn)品。對于一個需要多學(xué)科合作來制造機器人的公司來說，這個速度的確很快。

我們內(nèi)部，第一是團隊非常多元化，且在這個行業(yè)里有非常長時間的積累，技術(shù)本身不是一蹴而就。其次，我們非常注重多團隊之間的協(xié)作。因為我們既有算法、軟件，也有硬件、結(jié)構(gòu)，會涉及到非常多的問題，所以緊密的創(chuàng)業(yè)精神非常重要。大家抱著“要解決這個問題”的最終目標去合作，而不是單獨負責(zé)一個小模塊，完成一個小目標。這樣的創(chuàng)業(yè)精神讓大家聚集在一起，調(diào)用自己過往的知識去合作完成最終的產(chǎn)品。

唐小引：所以星塵智能讓您在具身智能之路上，從軟硬件、從本體到整個系統(tǒng)，都得到了更深入全面的了解。

王佳楠：沒錯，我從一個純軟件開發(fā)者，到現(xiàn)在開始與機器人結(jié)合，甚至要去關(guān)心機器人的數(shù)據(jù)如何產(chǎn)生，產(chǎn)生后要進行什么處理，以及如何獲得高質(zhì)量的標注數(shù)據(jù)，整個全流程到最后的機器人算法部署，都學(xué)習(xí)到了非常多。

唐小引：有什么頓悟和迷思嗎？

王佳楠：頓悟是，我覺得對我來講，機器人是我要追求的理想和目標，這個信念感非常重要。機器人研發(fā)涉及復(fù)雜的軟硬耦合，任何一個硬件環(huán)節(jié)的變量都可能帶來挑戰(zhàn)，這與純粹的 AI 開發(fā)邏輯完全不同。

以前做算法研究，問題通常是預(yù)設(shè)好的，數(shù)據(jù)已經(jīng)過清洗，開發(fā)者的目標非常純粹——即在既定指標上刷新 SOTA（最優(yōu)性能）。回想起來，那是一個相對“真空”且定義明確的環(huán)境。

但在具身智能領(lǐng)域，開發(fā)者必須從“解題者”轉(zhuǎn)變?yōu)椤叭鞒潭x者”：機器人的任務(wù)場景由你定義，數(shù)據(jù)的采集方案由你設(shè)計，模型的適配性也由你把控。你需要從最終的交互結(jié)果出發(fā)，反推所需的硬件部件、系統(tǒng)協(xié)作，并精準定位鏈路中的瓶頸。這種從全局出發(fā)、應(yīng)對高度不確定性的開發(fā)模式，正是具身智能最迷人也最具挑戰(zhàn)的地方。

唐小引：您說的全流程，是現(xiàn)在創(chuàng)業(yè)公司的普遍情況，還是說在大廠里依然是每個模塊分開負責(zé)？

王佳楠: 機器人一直是一個對動手能力要求比較高的行業(yè)。目前，大部分機器人 AI 公司都偏創(chuàng)業(yè)型，或是在大廠里也是比較年輕的團隊，所以行業(yè)的標準還沒有特別完善。我相信，或多或少大家都會在全流程中體驗各種問題，去不斷塑造我們希望達到的標準。這是一個在演化中的過程。

技術(shù)厘清：具身智能的“快慢系統(tǒng)”

唐小引：我前面說，跟很多具身智能從業(yè)者一聊，全是問題，讓我有點喪氣。

王佳楠：所以信念很重要。

唐小引：的確，長期主義的信念是底色。作為觀察者，我想請教一個核心概念的厘清：您今天提到的“快慢系統(tǒng)”，在 LLM 語境下通常被稱為 System 1/System 2，而具身智能領(lǐng)域更習(xí)慣稱之為“大小腦”。這是否意味著，目前具身智能圈已經(jīng)將大模型的認知框架與機器人的底層邏輯進行了跨界統(tǒng)一？

王佳楠： 無論是“快慢系統(tǒng)”、“大小腦”還是“System 1/System 2”，其背后的邏輯架構(gòu)和系統(tǒng)目標是高度一致的。其核心在于區(qū)分決策的深度：復(fù)雜任務(wù)需要深度的邏輯推理，過程較長且慢；而基礎(chǔ)動作或直覺性任務(wù)（如行走），則由快系統(tǒng)直接響應(yīng)，無需占用高階計算資源。

在工程實現(xiàn)上，快慢系統(tǒng)更多是一種“功能定義”，而非固定的物理模型限制。它既可以通過單一模型在不同模式間切換實現(xiàn)，也可以通過多模型協(xié)作完成。我們可以通過預(yù)設(shè)邏輯引導(dǎo)模型在處理高難度任務(wù)時觸發(fā)“慢思考”；也可以讓模型在訓(xùn)練中自主學(xué)習(xí)判斷介入推理的時機。此外，該架構(gòu)具備高度的可擴展性，例如通過接口為慢系統(tǒng)調(diào)用外部更強大的模型，以應(yīng)對特定的復(fù)雜場景。

唐小引：您可以圍繞快系統(tǒng)展開分享一下嗎？我之前很困惑，比如現(xiàn)在有一些專用的具身智能機器人能滿足干體力活的需求，但大家可能想要的是像人一樣，在任何場景下，屬于行動類的任務(wù)都能直接做。但現(xiàn)在具身智能給大家的感覺，更多的是在執(zhí)行一些預(yù)設(shè)任務(wù)，對于一些臨時需求，可能沒辦法很好地執(zhí)行。如果具身智能要類比人，那么實現(xiàn)小腦這樣的目標可能會非常遙遠。不知道現(xiàn)在我們進展到哪一步了？

王佳楠：關(guān)于“快系統(tǒng)”或“小腦”的功能，我們普遍將其定義為無需語言中介、由直覺驅(qū)動的基礎(chǔ)運動能力。例如，抓取桌面上的單一物體，這屬于一種非決策性的反射動作。

在人類日常行為中，存在大量的“原子動作”（抓、拿、推等）。對應(yīng)到機器人訓(xùn)練上，快系統(tǒng)的核心任務(wù)就是通過海量的動作片段數(shù)據(jù)進行預(yù)訓(xùn)練，構(gòu)建機器人的“動作基元庫”。這非常類似于人類的早期發(fā)育：嬰兒在產(chǎn)生復(fù)雜認知前，首先要通過運動來感知并適應(yīng)自己的身體，將抓握、伸展等動作內(nèi)化為本能。

目前，我們內(nèi)部已經(jīng)積累了大規(guī)模的機器人運動語料。快系統(tǒng)并不需要理解動作背后的語義邏輯，它只需要明確自身的“能力邊界”，即知曉自己能完成哪些物理軌跡。只有當(dāng)快系統(tǒng)具備了這些成熟的原子技能，后續(xù)接入的“慢系統(tǒng)”（大腦）才能作為指揮官，通過高層指令精準調(diào)用這些動作，實現(xiàn)從“意圖”到“執(zhí)行”的閉環(huán)。

技術(shù)瓶頸與探索：意圖理解、模型架構(gòu)與數(shù)據(jù)

唐小引：那怎么把我作為人類的意圖和需求，精準地讓機器人去執(zhí)行呢？我們希望的肯定不是預(yù)設(shè)好的任務(wù)。

王佳楠：這是非常重要的一個問題，就是人類意圖的表達。要讓機器人理解非預(yù)設(shè)的復(fù)雜需求，核心在于意圖表達的顆粒度。

目前，VLA 模型主要依靠“語言指令-動作映射”來建立聯(lián)系。然而，純語言交互在面對精細任務(wù)時顯得有些力不從心。回顧 AIGC 的進化史，從最初的文本描述到后來引入位置、輪廓等具體約束，控制力得到了質(zhì)的飛躍。

這種邏輯完全可以復(fù)刻到機器人身上。除了“說出需求”，我們還可以引入更直觀的控制接口：比如給機器人畫出一個大致的運動軌跡，或者設(shè)定空間約束。通過這種“語言指令+多模態(tài)提示”組合，我們能極大地增強機器人對人類真實意圖的捕捉能力，從而應(yīng)對更具動態(tài)挑戰(zhàn)的現(xiàn)實場景。

唐小引：我們接著聊一聊大腦。我聽到很多人表示，基于 Transformer 架構(gòu)的 AI 大腦，可能模型本身能力強，不代表在具身智能機器人上也一樣強。經(jīng)常聽到具身智能領(lǐng)域分享技術(shù)瓶頸時，會提到模型架構(gòu)、數(shù)據(jù)和計算等方面。如果說模型架構(gòu)的局限性是具身智能的瓶頸，那現(xiàn)在探索和解決方案的可行方向是什么？

王佳楠：模型架構(gòu)方面，大家在做不同的探索。最常見的是用一個 Transformer 搞定，遵循現(xiàn)在 VLM（Vision-Language Model）的框架。還有一些方案是外接一個世界模型，這個世界模型可能是 DiT（Diffusion Transformer）或 Diffusion 模型，對未來做一個預(yù)測，再把這個預(yù)測以某種方式接到下層的執(zhí)行模型中。

你也可以去提取更多的動作提示，比如做圖片生成、軌跡生成，這些也可以用專有模型來做。所以架構(gòu)上，我覺得比較重要的是有一個相對完善的系統(tǒng)，可以開放地接受不同形式的提示或人類意圖。我們希望最終一個模型能搞定所有事，但現(xiàn)在受限于您剛才提到的數(shù)據(jù)等層面的問題，當(dāng)前可能還完成不了。但我們可以去調(diào)用更強的模型來補齊這方面的知識和能力。所以整個系統(tǒng)層面的要求會更高，而對于單一模塊，模型架構(gòu)和數(shù)據(jù)能力會在各自領(lǐng)域不斷提升。那些提升如果能被機器人這一側(cè)直接用到，就是比較理想的狀態(tài)。

唐小引：星塵智能在數(shù)據(jù)這塊，是不是仿真的占比較少？

王佳楠：我們目前用仿真比較多的是在做數(shù)據(jù)增強。

唐小引：大家在解決數(shù)據(jù)瓶頸時，可能會通過合成數(shù)據(jù)等方式。現(xiàn)在這方面存在共性瓶頸，但在技術(shù)路線上，好像又沒有形成比較公認的方案。您對這塊的思考是怎樣的？

王佳楠：因為行業(yè)還處于初期，大家都在探索階段，的確共識性沒有那么強。但大家大概知道一些重要的模塊和可行的方案。我相信星塵智能、其他公司、高校以及科研機構(gòu)，大家都在這個方向上努力，我們會逐漸收斂出比較行之有效的路徑。

目前來講，共識是大家都知道數(shù)據(jù)重要，而且一定需要最高質(zhì)量的數(shù)據(jù)。因為在真實應(yīng)用時，機器人需要真的去交互，可能會操作非常精細的物體，所以我們必須要有高質(zhì)量的真機數(shù)據(jù)。在這一塊我們做了非常多的優(yōu)化。

仿真數(shù)據(jù)方面，我們和高校合作，也會做一些數(shù)據(jù)的生成和增強。“增強”的意思是，我采集了一條真實數(shù)據(jù)，這條數(shù)據(jù)在仿真中一定是真實可接觸的，因為是我親手采集的。然后我可以在仿真中把它變成一千條、一百萬條數(shù)據(jù)，比如對背景、光照、材質(zhì)、顏色做一些調(diào)整，這些都是非常有效的。還有一些是純仿真生成的數(shù)據(jù)。當(dāng)交互不復(fù)雜時，比如抓放一個東西，這類數(shù)據(jù)也可以相對高質(zhì)量地產(chǎn)生。但如果你要做更復(fù)雜的事，比如拿著鑰匙開鎖，或者疊衣服，這些就比較難仿真。這就要看仿真軟件的進步和大家的持續(xù)探索能產(chǎn)生什么樣的結(jié)果。但它也是一條可行的路線，取決于你的任務(wù)難度。最后就是我們廣泛積累的互聯(lián)網(wǎng)數(shù)據(jù)，這方面大家也都在做廣泛的收集和探索。

唐小引：積累的互聯(lián)網(wǎng)數(shù)據(jù)能解決具身智能的痛點嗎？

王佳楠：它能解決一些偏上層能力的痛點。比如要完成一個長時序的任務(wù)，可能會有步驟 A、B、C、D，這些是可以通過互聯(lián)網(wǎng)數(shù)據(jù)補齊的。再比如，我要操作一個物體，最基本的能力是，當(dāng)人給我指令說“拿杯子”，它首先要知道杯子是什么，杯子在哪兒。而且人經(jīng)常會說得很模糊，比如“幫我拿一個紅色的東西”，“幫我拿一個熱量比較低的飲料”。這些對于需要和人交互的機器人模型來說，對上層語義的理解要求非常高。所以，長期積累的互聯(lián)網(wǎng)數(shù)據(jù)還是能夠解決不少問題的。

世界模型：通往 AGI 的路徑，還是哲學(xué)問題？

唐小引：在 AI 數(shù)字世界里，大家之前很苦惱于提示詞怎么寫才能精準表達需求，現(xiàn)在上下文工程很流行。在 AI-Coding 領(lǐng)域，現(xiàn)在有些工具會直接把你的模糊需求進行增強，再輸出更精準的結(jié)果。在涉及到從數(shù)字世界到物理世界的具身智能領(lǐng)域，又是怎么做的呢？

王佳楠：您剛才講的這一塊是非常有效的路徑。人的輸入是不可控的，指令可以非常自由。那我們可以有一個專門的模塊來翻譯你的指令，把它翻譯成機器人可能“見過”的、更直接的指令，這是一個有效的方案。

但現(xiàn)在更多的情況是，大家直接利用一個預(yù)訓(xùn)練好的 VLM 模型，它本身就自帶對這類指令的理解和增強能力。這樣就可以先不考慮這一層的復(fù)雜度，直接把你的指令翻譯成機器人的動作。

這最終還是取決于你的場景。

我們希望機器人最終能在真實場景里做我們希望它做的事。如果這個場景需要非常多的與人交流交互，那你就需要把這一塊做強。可能需要翻譯模塊，也需要對話能力，不只要有動作，還要同時輸出與你的交互內(nèi)容，比如語言。但有些場景，比如我在咖啡廳打工，前面已經(jīng)有人接單了，我的任務(wù)就是做不同的咖啡，在這種不需要經(jīng)常和人交互的場景下，可能就不需要那么強的指令理解能力。所以這很看場景。機器人基本都會有權(quán)衡（trade-off），比如速度、復(fù)雜度，以及動作完成的精準度，它們之間經(jīng)常需要取舍。大家在真實場景中需要考慮這些問題。

唐小引：剛才聊到世界模型，今年這個概念非常火。有一個言論是“世界模型是通往 AGI 的路徑”，這會是大家的共識嗎？

王佳楠：純屬個人觀點，這未必是一個共識性的結(jié)論。這可能出于我之前的一些經(jīng)驗考量。當(dāng)時還在 DeepMind 的時候，大家會做很多打游戲這樣的任務(wù)，用到了非常多的仿真。那時大家就會討論，這個仿真什么時候可以做到完美？做到完美我們就有世界模型了。

但有一個可能偏哲學(xué)的觀點是，如果你已經(jīng)能夠完美地仿真出這個問題所處的環(huán)境和復(fù)雜度，那這個問題你其實已經(jīng)解決了。這是一個雞生蛋還是蛋生雞的問題。你很難說我可以等到有了一個完美的世界模型，然后我的機器人就可以變得更好。這個世界模型能否完美地存在，本身可能是一個問題。但它也許并不需要完美，能解決一部分問題就行，比如給你一個大致的提示。這一點還是非常可行的，因為近些年我們看到視頻生成模型已經(jīng)變得越來越強。當(dāng)然它在物理真實性方面還有提升空間，但的確已經(jīng)有很多不錯的成果了。如果持續(xù)發(fā)展，它確實可以為我們的機器人提供一些比較好的提示，這是可行的。當(dāng)然，還需要去優(yōu)化速度，以及它跟機器人的真實交互接口。但這是一條比較簡潔且看起來很有潛力的方向。

唐小引：您覺得世界模型有哪些是可行的方向，又有哪些是當(dāng)前您看到的泡沫或者誤區(qū)？

王佳楠：首先，我認為世界模型是一個可行的、且很有潛力的方向，我們跟高校的合作其實也在探索和推進這個方向。至于泡沫或者誤區(qū)，現(xiàn)在很難一下子就判斷。因為問題的多元性太強了。如果你是讓大模型解一個數(shù)學(xué)問題，那問題非常清晰，有對有錯。但對機器人來說，它所處的場景和需要解決的問題非常多元化，可能會有不同的技術(shù)方案對某個特定問題行之有效，但對更廣泛的問題可能并不適用。但這不意味著它就是泡沫或誤區(qū)，因為它確實也能解決一些問題。所以，我現(xiàn)在的觀點是：能夠解決問題的就是好方向，取決于你是否定義好了你的問題。

VLA 與通用機器人的愿景

唐小引：具身智能體和數(shù)字世界的 AI Agent 有什么異同？之前前 OpenAI 的研究員吳翼老師曾說，具身智能體的實現(xiàn)，前提可能是要先解決 VLA 和硬件的問題。您對此有什么思考？

王佳楠：具身智能體不是我的主要方向，我們做 VLA 做得比較多，這取決于怎么定義“智能體”。

現(xiàn)在大家說的 AI Agent 更多的是指有很多專用模型，它們之間可以基于不同場景互相調(diào)用，串聯(lián)起來解決一個問題，這可能是我比較狹隘的理解。在這方面，我的實操經(jīng)驗不多。但我們之前確實嘗試過調(diào)用不同的模型來解決機器人問題。比如李飛飛他們的團隊也會做類似的事情，調(diào)用一些感知類的模型來解決定位問題，這些是可行的，也是行之有效的。

唐小引：剛才聊到 VLA，我看到一個觀點說，VLA 是自動駕駛以及具身智能的終極解決方案。您怎么看這個觀點？

王佳楠：終極解決方案，這要看“終極”指的是什么。從我個人觀點來看，我認為它是通向終極的非常重要的一步，它為機器人配備了通用的能力，這是非常重要的一件事。但在下游應(yīng)用中，還是會需要一些特定的設(shè)計或改動。當(dāng)然，這兩者并不沖突，它是在 VLA 的基礎(chǔ)上再演化出一些新的結(jié)構(gòu)與功能。所以我同意，它是通往終極的一個重要的里程碑。

唐小引：您理解的具身智能終極，是不是就是我們大家之前呼喚的通用機器人？它到底還有多遠？

王佳楠：這個問題還蠻難回答的。我認為，我們對通用機器人的想象，是它在我們身邊幫助我們做很多事，是我的助理、管家，或者清潔人員，它會有不同的角色。

我認為這樣的通用機器人走到我們身邊，可能需要的時間比較短，大概 2 到 3 年。但它是不是一個純自主的機器人，這有待商榷。

我不認為在短短的時間內(nèi)，我們的模型能夠達到足夠的魯棒性和安全性，來真正完全自主地完成我們交代的一切。所以我們公司包括我個人的觀點，還是跟自動駕駛一樣。首先，機器人作為一個產(chǎn)品，它要在你身邊，有自己的使用價值。就像車一樣，有沒有自動駕駛功能，它都是車，你都可以用。自動駕駛是為它配備了一定的智能性，這個智能性一定是在不斷演化升級的。當(dāng)它走到我們身邊時，一開始我們可能需要去接管、去幫助它、去教它，這些都是可以接受的。在這個過程中，它會慢慢地演化出更高的智能、更高的準確率和魯棒性。我覺得這需要經(jīng)過一個漫長的時間迭代。

唐小引：這個漫長的周期是多久？

王佳楠: 周期長短看你的需求。比如你要百分之百的正確率，并且是在你定義好的一千萬個任務(wù)上。當(dāng)你的目標清晰時，這主要就是一個數(shù)據(jù)和模型訓(xùn)練的問題，問題還沒那么大。

如果數(shù)據(jù)采集足夠快，大家共同創(chuàng)建一個數(shù)據(jù)中心和數(shù)據(jù)來源，我覺得 3 到 5 年我們可能會有非常完整的數(shù)據(jù)，覆蓋日常生活中各種各樣的場景。但如果你的問題不確定，比如今天是一萬種任務(wù)，但生活中可能會有各種各樣的可能性演化出更多任務(wù)，或者在其他場景下有不同的交互模式，那這個迭代過程可能就要不斷地持續(xù)下去。

未來方向：人機交互、多模態(tài)數(shù)據(jù)與降低門檻

唐小引：圍繞具身智能當(dāng)前的技術(shù)發(fā)展，除了剛才提到的，您覺得還有哪些很關(guān)鍵的方向或問題？

王佳楠：關(guān)鍵的方向和問題，比如剛才講到的世界模型、快慢系統(tǒng)，這些都是大家已經(jīng)在廣泛探索的。

唐小引：還有哪些是大家目前沒太注意到，但未來可能會成為廣泛探索方向的？

王佳楠：其中一個是與機器人的交互。交互這塊包括它如何理解我的意圖，如何與我溝通交流。當(dāng)它自己碰到問題時，會不會主動發(fā)出信號說“我現(xiàn)在不知道該怎么辦了”。因為它畢竟不像手機是我們熟悉的產(chǎn)品，所以需要去不斷定義交互方式，并解決里面的科學(xué)問題。

第二，從訓(xùn)練模型的角度，我們希望數(shù)據(jù)可以更加多元化、多模態(tài)。我們最近跟 MIT 的合作也在思考，人做事的時候其實不是非常被動的，我們會有主動的關(guān)注點轉(zhuǎn)移，會有更多的模態(tài)感知，比如我們的觸覺，我們大致知道自己使了多少力。所以，更多模態(tài)的數(shù)據(jù)收集，以及如何把這些數(shù)據(jù)應(yīng)用到模型中，也是非常值得繼續(xù)探索的問題。這是兩個例子。

唐小引：我剛才聽您演講時，用一句通俗的話來理解，您想做的事情是“把具身智能的門檻打下來”。

王佳楠：在一定程度上可以這樣理解。

唐小引：您覺得截止到目前，距離您的目標完成了多少？

王佳楠：在我心目中，可能進度在 50% 左右。

首先是“打磨”階段，我們先在內(nèi)部用順手，然后推向高校。目前有很多合作伙伴在試用我們的機器人，我們也在同步觀察他們的使用習(xí)慣，看看實際會碰到哪些坑。現(xiàn)在的反饋是，門檻對他們來說不算高，大家能基于這個平臺做非常深度的算法開發(fā)。

接下來是商業(yè)化落地。現(xiàn)在還是我們幫客戶去驗證某些場景能不能跑通，但下一步，必須得讓客戶自己能輕便地去驗證。只有客戶能自主驗證場景、方便地進行二次開發(fā)，商業(yè)側(cè)才算真正成熟了，這是非常關(guān)鍵的一步。

再往前看，才是面向極客這類的普通用戶。這類人的畫像其實跟科研用戶挺像的，實操能力極強，愛探索。

所以我覺得“科研”和“極客”這兩端目前的進展還不錯，雖然還有提升空間，但最考驗我們的還是中間的商業(yè)應(yīng)用。這需要我們的交互界面做得足夠友好，怎么讓一個完全沒有背景知識的人也能上手即用？這是我們接下來要猛攻的方向。

落地挑戰(zhàn)與給開發(fā)者的建議

唐小引：您在星塵智能本身也會很關(guān)注機器人具體的應(yīng)用落地環(huán)節(jié)嗎？會實際參與嗎？

王佳楠：老實講沒有那么多。我們會去關(guān)注終端場景，因為我們在內(nèi)部做預(yù)訓(xùn)練模型，比如 VLA 模型，就是要服務(wù)于下游場景的。所以在這個層面我們很關(guān)注。但我們有更專業(yè)的同事在做不同場景的實際測試。

唐小引：那通過您的觀察和交流，有看到在 To C 和 To B 的實際應(yīng)用落地時有什么樣的挑戰(zhàn)嗎？有哪些是讓您覺得比較棘手的？

王佳楠：在實際落地過程中，我的經(jīng)驗可能沒有那么多，只能分享幾個道聽途說的，聽我們同事分享的也非常有意思。有些點真的是要走到實際場景中才會碰到。比如我們?nèi)ヰB(yǎng)老院，跟老人家交流，做一些他們關(guān)注的任務(wù)。然后發(fā)現(xiàn)了一個非常有意思的小細節(jié)：我們那個機器人的夾爪開合非常快。這是為了服務(wù)于快速控制，能夠做拋接這類高動態(tài)的任務(wù)，是我們設(shè)計的一個優(yōu)勢。但是在養(yǎng)老院，因為夾爪開合快，會有聲音，可能會嚇到老人家。這是一個非常實際的小問題，是在這個特定場景里才會碰到的。諸如此類的問題在不同場景中會有不同的體現(xiàn)。當(dāng)然，更多不那么偏向與人交互的，比如商業(yè)型或任務(wù)驅(qū)動型的場景，挑戰(zhàn)可能更多的是需要力觸覺反饋、需要做精細操作，或者在比較密集的一堆試管中抓到想要的那一個。這些是靈巧性和精準度的挑戰(zhàn)。

唐小引：您剛才舉的養(yǎng)老院的例子，后面的解決方案是什么？

王佳楠：這應(yīng)該會有不同的解決方案，是我們同事在持續(xù)跟進的。我覺得在機器人領(lǐng)域，很多問題沒有是非對錯，而是一個取舍。

唐小引：最后，對于年輕的，或者想要觀望、投身具身智能的開發(fā)者，您有什么建議或心得體會可以分享嗎？

王佳楠：我覺得一件非常重要的事情是，具身智能是一個非常有前景，但也很長的一條路。這個過程中一定會碰到非常多的問題，所以希望大家能有信念感，去關(guān)注自己的目標是什么，需要解決什么樣的問題，并對自己當(dāng)前碰到的問題有一定的耐心和容忍度。因為你在創(chuàng)造歷史，這不是一條之前大家都走過的路。

其次，要抱著一個共創(chuàng)共贏的心態(tài)，我們公司也是如此。因為整個市場未來的預(yù)期非常大，而這個問題不是一個人、一個學(xué)校或一個機構(gòu)能夠短期內(nèi)自己解決的。我們需要集合大家的力量，尤其是前沿開發(fā)者的力量。我們需要不斷地收集反饋，了解有什么困難，無論是從硬件層還是算法側(cè)。當(dāng)這個強大的社區(qū)建立起來之后，每個人都是其中的貢獻者和受益者。所以希望大家可以多進行交流，多反饋，一起抱著共贏的心態(tài)來解決問題。

唐小引：我之前聽別的專家提醒，要對熱技術(shù)有冷思考，說具身智能是一個“一將功成萬骨枯”的方向，所以如果要投身，一定要想清楚。您的側(cè)重點更像是在這個方向上如何堅持下來。

王佳楠：對，其實不沖突。你確實要先想好，自己是不是有這樣的信念，是不是真的想解決這個問題。一旦你確定了，就請多多堅持，多一點耐心。

唐小引：好，謝謝王佳楠老師為我們帶來的精彩分享。我們今天的節(jié)目就到這里，謝謝大家，我們下期再見。

↓想要觀看完整視頻的小伙伴可戳~

關(guān)于《萬有引力》：

這是由 CSDN &《新程序員》執(zhí)行總編唐小引主理的對話欄目。技術(shù)趨勢多變，一不留神總擔(dān)心錯過。正在發(fā)生的技術(shù)事件，對于我們開發(fā)者意味著什么？我們面臨的諸多困惑從何尋找答案？《萬有引力》即志在于此，直面事件與困惑，抽絲剝繭，解讀技術(shù)真相。

欄目定位：一檔面向開發(fā)者群體，聚焦解讀技術(shù)真相的對話欄目。
視頻觀看平臺：CSDN 視頻號、CSDN 網(wǎng)站 & App
多形式：文章、視頻、音頻都會有，持續(xù)關(guān)注 CSDN 公眾號都可獲取，歡迎大家關(guān)注！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.