網易首頁 > 網易號 > 正文申請入駐

具身智能：形態(tài)、行動、感知與學習的協同作用

2026-04-06 18:44:42　來源: CreateAMind

上海舉報

分享至

Embodied Intelligence: A Synergy of Morphology,Action, Perception and Learning

具身智能：形態(tài)、行動、感知與學習的協同作用

https://dl.acm.org/doi/pdf/10.1145/3717059

具身智能強調智能受到大腦、身體與環(huán)境緊密耦合的影響。它通過信息感知和與環(huán)境的物理交互過程持續(xù)且動態(tài)地生成。在過去的幾年中，具身智能的研究范圍也在不斷擴大，并受到了來自不同領域的廣泛關注。與此同時，大量與具身智能相關的研究成果被提出，尤其是在最近幾年。在本文中，我們從具身智能是形態(tài)、行動、感知與學習四者協同作用的視角出發(fā)，對其進行了全面綜述，并對現有研究進行了系統的總結與分類。具體而言，由于具身智能是所有這些組成部分協同作用的結果，而非各自獨立發(fā)揮作用，我們主要關注形態(tài)、行動、感知與學習這四個組成部分之間的關聯，并指出未來研究可以從它們的內在聯系中獲益的領域。

CCS概念：? 計算機系統組織 → 機器人自主性；
附加關鍵詞與短語：具身智能，形態(tài)，行動，感知，學習

1 引言

具身智能是一種計算方法，用于通過考慮智能體與其環(huán)境之間的嚴格耦合（這種耦合受到智能體自身身體、感知與運動系統以及大腦的限制的調節(jié)），來設計和理解具身且處于情境中的智能體的智能行為[23]。具身智能強調智能受到大腦、身體與環(huán)境緊密耦合的影響。它通過信息感知和與環(huán)境的物理交互過程持續(xù)且動態(tài)地生成。具身智能是生物體在復雜環(huán)境中生存的基礎，廣泛存在于植物、動物及其他生物有機體中。Held 和 Hein [70] 通過著名的“小貓實驗”驗證了視覺、發(fā)育與運動之間的關系。在該實驗中，兩只新生小貓被放在同一個房間里。一只可以主動自由移動，另一只則通過特殊設計的裝置被動地執(zhí)行相同的運動。盡管兩只小貓接收到相同的視覺刺激，但一段時間后觀察到，主動小貓發(fā)育出了正常的感官-運動系統，而被動小貓則表現出嚴重的感官-運動障礙。該實驗有力地證明了具身學習的重要性。

在本文中，我們討論具身人工智能，這并非一個新概念。早在 20 世紀 50 年代，艾倫·圖靈就指出，構建智能機器的一種方法是賦予它感知世界的能力，并讓它自行發(fā)展[184]。在經典的人工智能書籍和教科書中，智能體的定義是通過傳感器感知環(huán)境，并通過執(zhí)行器作用于該環(huán)境[159]。因此，身體-環(huán)境交互一直是研究、模擬和擴展智能的重要途徑。當前，由大數據、深度學習及圖形處理器支持的人工智能技術在視覺感知、語言處理和語音處理等領域取得了前所未有的成功。然而，更側重于動作執(zhí)行的機器人領域尚未取得同樣成功的成果。此外，即使在前述取得巨大成功的領域中，大多也是在受限環(huán)境的假設下實現的。一旦面向開放環(huán)境，當前的人工智能技術仍面臨巨大挑戰(zhàn)。造成這一問題的核心原因在于，我們更多地關注了智能體的感知和學習能力，而未充分挖掘其動作和行為能力。具身人工智能的提出正是為了強調身體的作用，特別是其對智能行為的影響。相反，忽略身體影響的智能技術被稱為離身智能。需要注意的是，在離身智能研究中，動作并非完全被忽略，但通常更側重于模擬大腦活動以做出決策并實現動作，例如下棋和玩電腦游戲。此外，在離身智能研究中身體也并非完全被忽略，但身體通常僅被用來被動執(zhí)行指令。

在過去的幾年中，出現了一些從不同角度探討具身智能的教程和綜述論文。我們在此進行簡要分析并闡明本文的動機。參考文獻[153]最初揭示了一個事實，即更高層次的認知和智能行為需要從自下而上的方式來理解，并建立了一個具身智能架構。自此，具身智能引起了越來越多的關注。尤其是在最近幾年，具身智能在機器人學、計算機視覺和機器學習等領域變得相當熱門。當前的綜述論文主要分為兩類。第一類緊密沿襲參考文獻[152, 153]的研究路線。參考文獻[79]從時間尺度的角度對具身智能進行了綜述，并討論了在復雜的自主與自適應系統中交互如何起作用。參考文獻[173]討論了編碼在身體中的物理智能。然而，具身智能關注的是智能體的身體、大腦與環(huán)境之間的緊密耦合。需要指出的是，物理智能也支持利用身體產生動作、進行感知和學習，但它并未考慮其與大腦及環(huán)境的關系。第二類綜述更關注與機器學習、計算機視覺及基礎模型高度相關的最新進展，其中總結了一些更具體的研究課題，如視覺語言導航、基礎模型及模擬器[47, 53, 122]。參考文獻[116]對具身人工智能進行了較為全面的綜述，但忽略了形態(tài)與動作之間的聯系。與上述兩類不同，參考文獻[157]系統討論了具身智能的歸納偏置，分析了形態(tài)、表示與學習的作用，并描述了智能體與環(huán)境之間的能量交換。然而，參考文獻[157]的目標是強調具身智能中的挑戰(zhàn)與機遇，并提出可能顯著推動機器人學習領域當前技術發(fā)展水平的研究方向。在本文中，我們將具身智能視為形態(tài)、行動、感知與學習的協同作用，并對現有研究進行了全面綜述與分類。我們主要關注形態(tài)、行動、感知與學習這四個組成部分之間的聯系，并基于身體、大腦與環(huán)境的緊密耦合，提供了一個統一的具身智能框架。

本文組織如下：第2節(jié)簡要介紹發(fā)展歷史；第3節(jié)聚焦于所提出的具身智能架構；第4節(jié)介紹一些研究前沿；第5節(jié)給出結論。

2 漫長的過去與短暫的歷史

具身智能擁有漫長的過去，卻只有短暫的歷史。亞里士多德、查爾斯·達爾文、莫里斯·梅洛-龐蒂、克洛德·貝爾納、沃爾特·坎農、馬丁·海德格爾、諾伯特·維納、讓·皮亞杰、詹姆斯·吉布森等人的一系列工作，為具身智能在哲學、生理學、心理學和認知科學領域的研究奠定了堅實的基礎。當前最具代表性的觀點是：大腦在具身智能中發(fā)揮著重要作用，但它并非認知的起源。由于感知與行動之間存在一個動態(tài)循環(huán)，感知與認知通過身體-環(huán)境交互建立起一種相互依存的關系。因此，感知-行動循環(huán)實際上是認知的核心。這一框架模糊了感知與認知之間的界限。這與參考文獻[8]中所提到的內容是一致的：一旦我們開始探究動物在實際世界中所使用的機制，就很難判斷感知在哪里結束，認知又從哪里開始。

然而，現代人工智能起源于1950年代的達特茅斯會議，此后相當長一段時期內，人工智能研究主要局限于符號處理范式（亦稱符號主義）。這種方法在實際應用中的局限性很快顯現出來，從而催生了聯結主義的發(fā)展。聯結主義包括多層感知機、前饋神經網絡、循環(huán)神經網絡，以及當前在學術界和工業(yè)界廣泛流行的深度神經網絡方法。這種利用神經網絡模擬認知科學的方法在適應性、泛化性和學習等方面確實取得了巨大進展，但并未解決智能體與真實物理世界交互中的挑戰(zhàn)性問題，并且在可解釋性等方面也表現出很大的局限性。

事實上，符號主義和聯結主義的根本問題在于它們忽視了與物理世界的交互。莫拉維克悖論最初于20世紀80年代提出，該悖論指出：計算機像成年人一樣下棋相對容易，但要像一歲兒童一樣具備感知和行動能力卻相當困難甚至不可能。有趣的是，當我們審視當今人工智能蓬勃發(fā)展的成就時，確實仍然難以找到解決這一問題的根本性突破。羅德尼·布魯克斯曾提出，智能需要身體，強調智能是具身的且與環(huán)境密切相關。這一觀點推動了以具身人工智能為代表的行為主義的誕生。需要注意的是，本文所指的“EAI”是利用人工智能方法對具身智能進行的模擬，它不同于生物體固有的具身智能。本文聚焦于具身人工智能。除非另有說明，本文后續(xù)內容中提到的“具身智能”和“離身智能”分別指代“具身人工智能”和“離身人工智能”。

具身智能與離身智能并非相互排斥。在符號主義、聯結主義和行為主義中都可以找到具身智能和離身智能的影子，只是各有側重。它們也共享相同的目標，包括理解生物系統、模仿智能行為以及設計人工智能體。在大數據、深度學習及圖形處理器的驅動下，離身智能在以互聯網信息處理為代表的領域取得了巨大成功，而與機制和材料高度相關的具身智能則已成為智能機器人的核心基礎。

在探索智能的過程中，具身智能與離身智能應當相互補充、協同發(fā)展，共同促進對智能的理解、模擬與擴展。具身智能與離身智能的緊密結合，是實現通用人工智能的必要條件。

3 具身智能架構

在本節(jié)中，我們構建了一個統一的具身智能框架，該框架由形態(tài)、行動、感知和學習四個模塊組成（圖1）。由于具身智能是所有這些模塊協同作用的結果，我們更多地關注它們之間的連接（圖1中的連線），而非模塊本身。為此，本節(jié)將介紹與圖1中連線相對應的八個子節(jié)。由于圖1中的連線8?（從學習到行動）實際上是許多現有研究的基礎，我們首先介紹它，然后再依次介紹其他連線。

3.1 基于學習的行動生成（L → A）

本子節(jié)對應于圖1中從學習到行動的連線8?，聚焦于利用機器學習方法生成行動。實際上，行動生成問題在經典控制理論和現代控制理論中已有數百年的廣泛研究。在經典控制領域，應用最廣泛的PID控制器通過調節(jié)比例項、積分項和微分項這三個參數來工作，相當方便且有效。然而，參數調整需要豐富的工程經驗，這限制了此類方法在更復雜場景中的應用。隨后，在20世紀50年代，基于狀態(tài)空間模型的現代控制理論得以建立。這類方法高度依賴白箱模型來獲取控制器參數，并能夠完成完整的穩(wěn)定性分析。然而，對于復雜的機器人和過程控制系統，難以獲得精確的模型，數學計算與實際應用之間始終存在較大差距。所有這些局限性促使人們考慮引入人工智能技術來開發(fā)新的智能控制方法，其中強化學習方法變得越來越受歡迎。

強化學習的基本思想應歸功于20世紀50年代由理查德·貝爾曼建立的馬爾可夫決策過程[9]，智能體基于當前狀態(tài)選擇最優(yōu)行動。在此基礎上，克里斯·沃特金斯于1989年提出的Q-learning算法[196]為強化學習奠定了基礎。然而，強化學習也存在收斂困難、泛化能力差等局限性。隨著深度學習的發(fā)展，深度Q網絡[127]將卷積神經網絡的特征提取能力與強化學習的行動學習能力無縫結合，在人機棋類對弈中取得了巨大成功，再次激發(fā)了強化學習領域的新一輪研究熱潮。近期研究表明，強化學習也廣泛應用于生物智能[134]。

目前，強化學習方法已成為具身智能的重要方法。需要注意的是，強化學習算法的設計是機器學習領域關注的問題[187]。我們可以直接使用現成的強化學習算法，如PPO [167]和SAC [66]，這些算法被最廣泛地用于為智能體生成行動。需要做的是確定狀態(tài)空間、行動空間和獎勵函數，這些都與具體任務密切相關。從這個意義上說，L → A是圖1中其他連線的基礎。

3.2 基于形態(tài)的行動生成（M → A）

本子節(jié)對應于圖1中從形態(tài)到行動的連線1?，強調形態(tài)計算。通過形態(tài)計算，在與環(huán)境交互時，原本需要由大腦完成的部分計算可以卸載到身體上。身體被用來提高計算效率并進一步控制自身的行為。這種現象在日常生活中相當普遍。例如，一個人可以輕松地抓取一個物體，而無需仔細計算運動軌跡和接觸力。近年來，隨著機構學、軟體機器人等領域的發(fā)展，形態(tài)計算正迎來新的機遇[72, 138]，并在Sim2Real遷移和低功耗計算方面已經展現出巨大優(yōu)勢[23]。

3.2.1 典型示例。利用形態(tài)計算實現對更復雜行為控制的一個典型例子是20世紀90年代研發(fā)的被動行走機器人（圖2）[37, 125]。通過設計特殊的形態(tài)結構，該機器人無需主動控制輸入即可在緩坡上實現穩(wěn)定的步態(tài)。這項工作摒棄了動力學建模與控制中對機器人關節(jié)控制的嚴格要求，使機器人能夠完全依賴自身的形態(tài)來控制其行為。

近年來，更多新穎的形態(tài)結構不斷涌現。參考文獻[52]探索了利用形態(tài)計算實現四足機器人快速奔跑的方法。參考文獻[103]利用動態(tài)形態(tài)計算為蛇形機器人生成周期性步態(tài)。參考文獻[10]從自然系統和人工系統中的顯示、感知和交互等方面闡述了形態(tài)計算在觸覺感知中的應用。受沙漠蝗蟲的啟發(fā)，參考文獻[201]研究了動物腿部適應不同地面的控制方法，并在玻璃、砂巖、木材和網格等表面上進行了機器人動態(tài)粘附實驗。

然而，由于增加機器人系統的形態(tài)計算可能會降低總體能量需求和控制器的復雜度，因此建立了一個能量視角，將機器人表征為機器與其環(huán)境之間為實現特定目標集而進行的能量與信息交換[95]。這反過來促使我們開發(fā)用于能量收集及其他益處的形態(tài)計算。例如，參考文獻[59]評估了跳躍運動中肌肉的形態(tài)計算，參考文獻[92]利用機器人自適應形態(tài)、控制及后續(xù)行為之間的相互聯系，驗證了大腦與身體之間的緊密耦合可以通過能量收集來提高能效[170]，這一點值得進一步研究。

總體而言，該領域的研究工作主要與機構設計密切相關，且大多涉及人工干預。參考文獻[54]從可編程動態(tài)系統的角度提出了形態(tài)計算的形式化分析方法，并指出形態(tài)計算不僅適用于機器人，還可以廣泛應用于化學系統、統計物理等科學領域。然而，目前仍缺乏從人工智能技術角度對形態(tài)計算進行系統性的指導。由于形態(tài)計算的巨大潛力，許多學者一直在積極探索該領域。盡管形態(tài)計算的完整理論模型尚未建立，但已經出現了兩類相對成熟的方法：儲層計算和信息論。

3.2.2 用于形態(tài)計算的物理儲層計算。儲層計算是形態(tài)計算中最常用的方法[81]，屬于動態(tài)系統分析方法。在儲層計算模型中，物理形態(tài)被視為一個物理儲層計算設備[131]。儲層計算模型的計算機制是一種神經網絡結構，其中中間層的參數隨機固定，僅需訓練輸出層的參數。因此，由于只需解決一個線性優(yōu)化問題，網絡訓練變得非常方便。由于儲層計算具有強大的動態(tài)系統描述能力，它已成為分析形態(tài)計算的有力工具。

然而，由于儲層內部參數不需要顯式學習，因此可以利用物理身體的動力學來實現儲層計算。參考文獻[68]利用質量-彈簧系統構建了一個儲層計算模型，并詳細分析了其動態(tài)特性，為形態(tài)計算提供了一個通用的儲層計算模型（圖3(a)）。因此，后續(xù)工作主要是構建不同的物理儲層計算模型來實現形態(tài)計算。從這個意義上說，對儲層計算模型的研究可以有效指導形態(tài)計算設備的設計。一個典型的例子是，如果前述質量改為剛性桿，就可以形成張拉整體結構（見圖3(b)）。這是一種由受拉構件連接剛性元件的穩(wěn)定結構。參考文獻[148]使用四個執(zhí)行器控制一個具有24個自由度的張拉整體機器人，展示了張拉整體的計算能力。最近，參考文獻[149]提出了一個用于張拉整體機器人力學建模與控制的統一框架。

在四足機器人步態(tài)控制任務中（圖4(a)），研究者發(fā)現直接使用傳統儲層計算模型中的簡單線性層難以實現復雜的形態(tài)控制，因此引入了非線性層以進一步提升儲層計算模型的性能[42]。參考文獻[74]驗證了仿生魚機器人系統也滿足儲層計算模型中的回聲狀態(tài)特性，并且利用魚形機器人的游動動作可以顯著提升其形態(tài)計算能力（見圖4(b)）。參考文獻[12]指出，折紙結構也能具備足夠的動態(tài)性能，從而擁有足夠的形態(tài)計算能力來模擬高階非線性系統，并以此實現了一種新穎的機器人爬行策略（見圖4(c)）。此外，參考文獻[130]利用儲層計算模擬了人類皮膚的形態(tài)計算能力，參考文獻[182]則利用機器人的自然動力學來識別風向。近年來，儲層計算，特別是物理儲層計算發(fā)展迅速，其通過物理設備實現儲層計算，與具身形態(tài)計算高度相關。參考文獻[131]對物理儲層計算的最新進展進行了詳細綜述。除了物理儲層計算之外，當前利用各種物理形態(tài)實現神經網絡學習的方法也引起了不同領域研究者的極大關注。

此外，軟體機器人近年來受到越來越多的關注，并取得了巨大進展。與剛性機器人相比，軟體機器人在可變形性、靈活性、安全性等方面具有更好的特性，更適合在復雜路面上驅動以及操縱未知物體[89]。需要指出的是，由于軟體機器人身體動力學復雜，其控制非常具有挑戰(zhàn)性，但從具身形態(tài)計算的角度來看，這種復雜的動力學反而是一種有價值的計算資源[109]，因此軟體機器人成為儲層計算的理想工具。受章魚的啟發(fā)，參考文獻[132]將章魚臂用作儲層計算設備，通過從其物理身體讀取線性和靜態(tài)輸出，能夠模擬復雜的非線性行為，并且無需外部控制器，通過收斂到極限環(huán)即可實現閉環(huán)控制?；谶@項工作，參考文獻[133]展示了這類軟體機器人對非線性連續(xù)函數的逼近和控制能力。參考文獻[90]進一步利用這一機制實現了水中的物體定位（圖5）。此外，參考文獻[48]用軟體手擴展了具身形態(tài)計算的范圍，并開發(fā)了一種用于氣動驅動軟體手的儲層模型。參考文獻[208]指出，軟體材料長時間浸泡在水中后產生的褶皺有助于實現某些計算任務，并將其應用于主動觸覺感知。參考文獻[137]利用軟體觸須傳感器進行形態(tài)計算，實現了主動距離估計。參考文獻[46]研究了調節(jié)軟體硅膠夾持器阻尼特性的方法，實現了動態(tài)形態(tài)計算?？梢钥闯?，軟體機器人作為一種非常有前途的機器人形態(tài)，已成為具身形態(tài)計算的重要發(fā)展方向。相信軟體機器人的發(fā)展必將推動新一輪具身形態(tài)計算的熱潮。

3.2.3 形態(tài)計算的信息論方法。盡管基于動態(tài)系統的方法，特別是儲層計算模型，已經取得了巨大成功，但這類方法主要旨在定性模擬具身形態(tài)計算，缺乏定量評估能力，這限制了對形態(tài)計算機制的進一步深入分析，而信息論方法在這方面具有明顯優(yōu)勢。實際上，評估形態(tài)計算系統性能最重要的事情是分析原本應由“大腦”承擔的計算中有多少被卸載到了“身體”。受此想法的啟發(fā)，參考文獻[58]指出，對形態(tài)計算進行定量分析需要建立一個包含大腦、執(zhí)行器、傳感器和環(huán)境的認知系統因果模型。

此外，一些工作從分析控制復雜度的角度來評估形態(tài)智能。例如，參考文獻[158]利用概率最優(yōu)控制方法，通過優(yōu)化控制器復雜度來分析機器人的形態(tài)能夠承擔多少計算工作。參考文獻[38]比較了不同形態(tài)對應的控制器的熵，以分析形態(tài)如何影響行為。參考文獻[150]研究了在微觀尺度上使用熵來表征機器人具身性的方法?！傲畠r控制”也為形態(tài)智能提供了另一種途徑，即系統必須充分利用具身智能的作用來追求廉價控制。參考文獻[155]進一步將此思想引入強化學習，建立了一個鼓勵形態(tài)計算的新的優(yōu)化目標。與參考文獻[58]的框架相比，這些工作通過間接分析控制器的復雜度來分析形態(tài)的作用。最近，參考文獻[49]指出，簡單性通常是在逐個行動的基礎上量化的，通過約束狀態(tài)與行動之間的互信息可以獲得簡單行動，這滿足了策略的復雜度要求。需要注意的是，這些定量分析工作大多是與實際物理形態(tài)無關的理論研究。如何結合具體的物理形態(tài)實現對形態(tài)計算的定量分析，仍然存在巨大挑戰(zhàn)。

3.2.4 小結。總的來說，該領域的研究工作主要探討如何將“大腦”負責的計算任務卸載到“身體”，以及如何準確評估“身體”所承擔的形態(tài)計算。這是一個融合了機構學、材料學和控制技術的新型交叉學科方向。除了人工設計形態(tài)結構之外，形態(tài)計算的理論也取得了長足的進步，包括儲層計算模型和信息論分析方法。高維機器人控制領域中常見的“維度災難”問題，有望通過形態(tài)帶來的優(yōu)勢得到有效克服，我們也將此稱為“形態(tài)的祝福”。

3.3 基于行動的形態(tài)控制（A → M）

本子節(jié)對應于圖1中從行動到形態(tài)的連線2?。形態(tài)結構被用來簡化對特定行動的控制。對于具身智能體而言，無論其形態(tài)多么復雜，都具有某種“結構性”特征。這種結構信息有助于減小行動生成的優(yōu)化空間，保證解的可行性和可解釋性。

在為具有復雜形態(tài)的智能體設計控制器時，傳統的強化學習并未利用智能體的形態(tài)特征，而僅僅是將來自智能體不同部位的觀測簡單拼接起來，并直接輸出所有控制變量。這導致控制變量的搜索空間很大，并且學習到的控制變量難以在不同形態(tài)之間遷移。基于行動的形態(tài)控制的主要任務是如何有效地將形態(tài)信息整合到行動控制器的學習過程中。最直接的想法是對智能體的形態(tài)信息進行編碼以解決形態(tài)控制問題。參考文獻[31]提出了顯式編碼和隱式編碼兩種方法。對于顯式編碼，不同關節(jié)的相對位姿被拼接成一個向量，這有助于對機器人的運動學結構進行建模。這種編碼方法利用了一些先驗信息，但僅限于簡單的拼接操作，僅適用于某些機械臂，而不適用于更復雜的形態(tài)。對于隱式編碼，形態(tài)的編碼是在迭代優(yōu)化學習策略的過程中進行優(yōu)化的，這意味著算法不僅搜索從狀態(tài)到行動的最優(yōu)映射，同時還發(fā)現形態(tài)的最優(yōu)編碼。盡管該方法在具有不同自由度的同類型機械臂之間的遷移能力上表現出良好性能，但它給優(yōu)化帶來了新的困難，并且機器人的先驗形態(tài)信息沒有得到充分利用。

目前，更先進的技術，如圖神經網絡和Transformer [185]，被廣泛用于高效地表示形態(tài)信息，并直接用于提高強化學習的效率。更重要的是，直接考慮形態(tài)信息的控制器在跨平臺遷移中表現出良好的性能，并且在控制新型具身智能體時具有顯著優(yōu)勢。

3.3.1 用于形態(tài)控制的圖神經網絡。在強化學習領域，許多工作引入圖結構來提高學習效率。但其中大多數僅限于使用圖結構來描述智能體所處的環(huán)境，而非智能體自身的形態(tài)結構[161, 169]。參考文獻[192]建立了一種基本的形態(tài)圖模型方法，其中節(jié)點代表不同的關節(jié)，邊代表關節(jié)之間的依賴關系。利用該圖模型，可以直接使用圖神經網絡的消息傳遞機制來處理各個關節(jié)之間的關系。在每個學習迭代中，每個節(jié)點可以將其狀態(tài)信息分發(fā)給相鄰節(jié)點，每個節(jié)點綜合其他節(jié)點發(fā)送的狀態(tài)信息來更新自身狀態(tài)。通過這種方式，形態(tài)信息被有效地納入學習過程中，有助于控制器更快地學習。在此基礎上，參考文獻[16]引入了參數凍結技術來訓練圖神經網絡，以解決高維連續(xù)控制問題。盡管參考文獻[192]提出的方法有效利用了形態(tài)信息，但需要為圖結構中對應于智能體不同部分的不同節(jié)點設計不同的策略。參考文獻[78]提出了一種使用圖結構針對不同形態(tài)智能體的統一控制策略。其核心思想是將智能體的形態(tài)分解為不同的獨立模塊，但其實質仍然依賴于相鄰節(jié)點的消息來影響策略。這樣，可以為不同模塊獨立設計控制策略，并針對不同形態(tài)實現統一的控制器。這也為控制器設計的預訓練模型提供了啟示。最近，參考文獻[199]使用圖神經網絡來描述智能體各模塊之間的結構信息，指出結構相似的模塊可以共享控制策略。通過將此結構信息融入基于模型的強化學習中，顯著縮小了搜索空間，并在物理實驗中驗證了結果（圖6）。

總的來說，使用圖神經網絡進行形態(tài)控制的初衷在于：形態(tài)信息能夠產生有利于學習控制器的歸納偏置。然而，目前能夠處理的機器人的自由度和類型仍然相對有限。需要進一步的研究來適應形態(tài)差異顯著的情況下的高效遷移。一般而言，對于形態(tài)結構簡單的智能體，不同的形態(tài)描述方法之間差異不大。對于形態(tài)復雜的智能體，圖結構方法相比簡單形態(tài)的方法表現出更優(yōu)越的性能。在實際使用中，需要利用圖模型準確捕捉智能體的形態(tài)特征。

3.3.2 用于形態(tài)控制的Transformer。盡管圖模型在形態(tài)控制中發(fā)揮著積極作用，但機器人的形態(tài)通常是一種稀疏圖結構，經過多輪消息傳遞后關鍵信息可能會消失，這就是所謂的“過度平滑”問題。近年來，Transformer作為一種基于自注意力機制的模型受到了廣泛關注[185]。如果將注意力設計為“邊到頂點”的聚合單元，Transformer可以被視為全連接圖上的圖神經網絡。參考文獻[101]直接使用Transformer實現不同組件之間的消息傳遞，而編碼器和解碼器可以分別作用于不同的組件。盡管這種方法展示了Transformer的潛力，但它忽略了機器人真實的物理形態(tài)。參考文獻[73]進一步揭示了節(jié)點位置信息對自注意力機制的作用，并將形態(tài)信息嵌入到Transformer模型中，用于異構形態(tài)的聯合策略學習。它克服了傳統圖神經網絡中稀疏結構導致的過度平滑問題。此外，針對大規(guī)模機器人形態(tài)控制問題，參考文獻[62]將機器人形態(tài)作為Transformer的輸入，通過構建“Metamorph”來學習通用策略，以同時控制大量不同的機器人，為具身形態(tài)學習的大規(guī)模預訓練模型奠定了基礎（圖7）。

3.3.3 形態(tài)遷移。對于不同形態(tài)之間的形態(tài)控制遷移，由于圖神經網絡及類似方法直接描述了形態(tài)的特征，因此在形態(tài)相似的智能體之間觀察到了良好的遷移性能。然而，當形態(tài)差異較大時，遷移性能會下降，因為不同形態(tài)之間對應的狀態(tài)空間和行動空間存在顯著差異。

為此，參考文獻[69]提出了一種對策略進行分層解耦的方法，其中僅遷移高層策略，而低層策略仍獨立學習。由于高層策略與低層策略之間存在耦合，如果不同形態(tài)智能體的低層策略差異顯著，高層策略的遷移也難以成功。因此，引入互信息來最小化形態(tài)與低層行動之間的差異，從而實現不同智能體低層策略的對齊?？傮w而言，當前大多數工作仍處于仿真階段，如何在真實機器人（尤其是仿生機器人和人形機器人）上實現這些方法，仍然是一個極具挑戰(zhàn)性的問題。

3.3.4 小結。由于高維度、非線性和強耦合等因素，使用強化學習方法實現對復雜智能體的形態(tài)控制極具挑戰(zhàn)性。然而，形態(tài)信息提供了非常重要且有用的先驗信息，能夠顯著約束搜索空間。因此，以適當的方式將形態(tài)信息引入學習算法中，以提高控制器的學習效率，并在將控制策略遷移到其他未知形態(tài)時保證性能，這一點至關重要，這也體現了“形態(tài)的祝福”。當前，圖神經網絡和Transformer是用于描述形態(tài)結構的代表性方法。這些工作仍然主要在仿真環(huán)境中進行，所學策略在遷移到物理系統時會遇到許多困難。盡管為不同機器人設計統一的形態(tài)控制器非常有吸引力，但仍存在諸多困難。受近年來自然語言和計算機視覺等領域預訓練模型的啟發(fā)，針對不同形態(tài)的統一預訓練大模型也是未來的一個重要研究方向。

3.4 感知驅動的形態(tài)變換（P → M）

本子節(jié)對應于圖1中從感知到形態(tài)的連線3?，其中智能體根據環(huán)境感知信息在線變換形態(tài)。形態(tài)變換在我們的生活中相當常見。例如，當人們在冰面上快速滑行時，會本能地降低身體以保持平衡；鳥類受驚后會快速扇動翅膀飛走。這種形態(tài)變換在機器人領域也經常出現，特別是對于兩棲機器人和可變形機器人而言，它們能夠通過適應環(huán)境和任務，在感知驅動下改變自身的身體結構或參數。由于在線形態(tài)變換與感知信息相耦合，因此需要較高的實時性。最近，參考文獻[171]報道了一種多模態(tài)移動機器人，它通過改變附屬部件來增強其運動能力（圖8(a)）。在變換其輪子、腿和螺旋槳之后，它可以切換為無人地面車輛、移動倒立擺、無人機系統等。它依靠形態(tài)變換在不同地形間穿行。此外，參考文獻[140]提出的四足機器人可以在不同地面上行走時動態(tài)調整腿長以適應不同地形（見圖8(b)）。另一個典型例子是參考文獻[177]報道的兩棲飛行-驅動車輛。參考文獻[94]提出了一種變色龍軟體機器人，可以模仿變色龍根據環(huán)境改變自身顏色。參考文獻[202]利用熱、化學或電刺激持續(xù)驅動液態(tài)金屬液滴運動，并使輪式機器人改變重心以產生滾動力矩。

3.4.1 小結。感知驅動的形態(tài)變換與硬件高度相關。盡管有許多相關的工作，但仍然缺乏標準化的設計原則。此外，由于形態(tài)變換高度依賴于材料和機構領域，其實際實現仍然面臨巨大挑戰(zhàn)。

3.5 學習驅動的形態(tài)優(yōu)化（L → M）

本子節(jié)對應于圖1中從學習到形態(tài)的連線4?，聚焦于利用學習技術實現形態(tài)優(yōu)化。在生物學中，形態(tài)優(yōu)化現象很常見。生物體的形態(tài)在進化過程中被優(yōu)化以適應環(huán)境。例如，四肢是從魚鰭進化而來的，在形態(tài)進化趨于穩(wěn)定之后，學習到了更好的直立行走行為。此外，形態(tài)參數還可以通過后天運動進一步優(yōu)化。受此啟發(fā)，我們可以通過協同優(yōu)化來搜索更適用于控制策略學習的形態(tài)。對具身智能體的形態(tài)和控制策略進行聯合優(yōu)化，有助于更高效地完成任務。如圖9所示，智能體在學習跨越障礙物行走的同時，其腿部形態(tài)也得到了優(yōu)化。

參考文獻[135]指出，人類更擅長設計物理系統而非智能控制系統?；趯W習的大腦-身體協同進化思想在具身智能領域早期就受到了廣泛關注[151]，有時也被稱為發(fā)育機器人和人工生命等。參考文獻[172]首次使用進化學習框架在仿真中實現了形態(tài)與控制器的協同優(yōu)化。一個3D剛體機器人被表示為有向圖基因型，并使用圖上的進化算法來優(yōu)化機器人的形態(tài)。這些工作受到了廣泛關注，因為它們有助于設計出更好適應環(huán)境和任務的機器人形態(tài)[4, 19, 76, 107, 119, 124, 174]。參考文獻[5]指出，形態(tài)與控制的協同進化類似于大腦-身體的協同作用，但忽略了環(huán)境的影響。該研究驗證了環(huán)境復雜性對形態(tài)復雜性的影響。盡管自本世紀初以來，形態(tài)與控制的協同優(yōu)化已經取得了一些進展，但優(yōu)化過程受限于軟件和硬件仿真條件，并未取得重大突破。在過去十年中，隨著制造技術、圖形仿真與渲染技術以及計算技術的快速發(fā)展，形態(tài)與控制協同優(yōu)化方法取得了巨大成就。

目前，該領域的工作主要包括形態(tài)參數和結構的優(yōu)化，使用的方法主要包括強化學習[63, 65]和遺傳優(yōu)化[71]。近年來，也有僅使用強化學習同時優(yōu)化結構和參數的工作。該領域需要解決的問題不僅包括形態(tài)的高效表示，還包括算法的高效優(yōu)化。

3.5.1 進化強化學習方法。早期的形態(tài)與控制協同優(yōu)化問題主要基于進化搜索方法，其中進化搜索空間很大（包括形態(tài)參數和控制器參數的搜索）。近年來，該領域的工作主要集中在針對特定任務需求的不同編碼方法的研究上[34, 97, 142]。盡管形態(tài)和控制應該聯合優(yōu)化，但它們實際上是在不同的尺度上優(yōu)化的。以生物為例，形態(tài)的變化更像是一個進化過程，而控制器的設計在給定特定形態(tài)后更像是一個后天學習過程。因此，一個很自然的想法是使用進化優(yōu)化方法來優(yōu)化形態(tài)結構和參數，并使用強化學習方法來實現控制器參數的優(yōu)化。基于參考文獻[192]提出的圖神經網絡控制器，參考文獻[193]將機器人形態(tài)設計描述為一個圖搜索問題。它引入了物種的概念，并設計了添加和刪除節(jié)點的突變操作，從而在圖結構上實現進化搜索。為了使用圖神經網絡作為控制器，參數可以在控制器之間共享，從而大大減少了控制器的學習時間。參考文獻[63]開發(fā)了一個進化環(huán)境和一個稱為“深度進化強化學習”的計算框架，用于探索具身智能與環(huán)境之間的關系。該論文還通過形態(tài)進化學習機制驗證了進化生物學中的“鮑德溫效應”，即生物體習得的行為會影響物種的進化。這種方法相當高效，因為進化算法本質上等價于零階優(yōu)化。

3.5.2 直接強化學習方法。隨著強化學習的快速發(fā)展，一些工作嘗試直接使用強化學習來協同優(yōu)化形態(tài)和控制[65]。參考文獻[165]使用PPO聯合計算形態(tài)參數和控制參數（圖10）。這對于學習來說是困難的，因為形態(tài)搜索空間很大，并且形態(tài)與控制相互耦合。為此，作者通過僅優(yōu)化指定機器人組件的參數（而非機器人的結構）來限制形態(tài)搜索空間。在此基礎上，參考文獻[164]使用強化學習實現了腿式軟體機器人的形態(tài)搜索和控制策略學習，并進一步實現了從仿真到真實的遷移。針對自組裝智能體，參考文獻[146]將形態(tài)和控制統一在行動空間中。形態(tài)搜索和控制設計被描述為一個強化學習問題，并設計了相應的動態(tài)圖網絡控制器，使其形態(tài)與機器人形態(tài)對齊。參考文獻[65]使用強化學習聯合學習形態(tài)和控制策略以跨越障礙物行走。參考文獻[214]在學習過程中將形態(tài)變換和控制優(yōu)化分為兩個階段，并使用策略梯度方法聯合優(yōu)化形態(tài)和控制行動。最近，參考文獻[117, 118]將圖神經網絡引入形態(tài)與控制協同優(yōu)化的強化學習框架中，為形態(tài)學習中的仿真到真實遷移提供了一條可行途徑。

3.5.3 物理實現。盡管形態(tài)與控制協同優(yōu)化的學習過程通常在仿真環(huán)境中進行，但人們一直試圖在物理世界中實現學習到的形態(tài)。早在2000年，參考文獻[107]就使用3D打印技術實現了進化得到的形態(tài)。然而，人們也發(fā)現仿真環(huán)境與物理環(huán)境之間存在巨大差異。在仿真中表現良好的形態(tài)，在物理制造出來后無法達到預期的性能[75]。為了解決這個問題，參考文獻[18]提出了一種連續(xù)形態(tài)建模方法。參考文獻[96]研究了如何將仿真到真實的遷移效果也納入優(yōu)化過程中。參考文獻[156]進一步針對撲翼研究了這種仿真與真實的差異與形態(tài)復雜度之間的關系，結果表明仿真到真實的差距實際上是非單調的。對于不同類型的機器人，一些工作首先在仿真中進行形態(tài)進化，然后利用遷移技術在物理機器人上實現它們。例如，關于腿式機器人[141, 160]、軟體機器人[98]和模塊化機器人[6]的工作主要遵循仿真到真實的遷移途徑。隨著機器人組件種類日益豐富和成本降低，直接在物理系統中優(yōu)化智能體形態(tài)成為可能。參考文獻[20]使用機械臂操作不同的立方體模塊，通過對模塊進行編碼并對組裝后形態(tài)的性能進行物理評估，實現了進化優(yōu)化（圖11）。最近，參考文獻[139]設計了一種四足機器人，其股骨和脛骨上安裝了線性執(zhí)行器，允許改變腿長?；谶@些優(yōu)化，獲得了一種直接進行物理形態(tài)進化的學習方法，并在不同地形上進行了實驗?？傮w而言，直接應用于物理系統的形態(tài)優(yōu)化研究仍處于起步階段，可優(yōu)化的參數非常有限。到目前為止，形態(tài)優(yōu)化已相對成功地應用于軟體機器人和機器人手的結構設計中。

過去幾年，機器人形態(tài)進化的進展相對緩慢。一個重要的原因是人們只關注了剛性元件的有限組合。針對這個問題，參考文獻[71]利用遺傳算法實現了包含多種材料屬性的體素化軟體機器人的形態(tài)優(yōu)化。參考文獻[34]研究了不同材料的體素模型形態(tài)，這些材料大致模擬了骨骼、組織、肌肉等。參考文獻[33]進一步將控制系統嵌入到機器人形態(tài)的物理仿真中，提出了所謂的“進化電生理軟體機器人”。最近，參考文獻[97]使用直接編碼方法實現了3D體素軟體機器人的形態(tài)進化，并將其應用于生物體實現（圖12）。由于3D體素軟體機器人的形態(tài)優(yōu)化、控制和制造都非常困難，一些工作開始轉向2D體素軟體機器人的進化學習[126]。參考文獻[88]研究了軟體機器人中的“變態(tài)”現象。這些工作大多主要考慮形態(tài)進化本身，較少考慮環(huán)境交互過程中的控制優(yōu)化。為此，參考文獻[11]提出將進化優(yōu)化與強化學習技術相結合，實現軟體機器人形態(tài)與控制的協同設計。針對基于2D體素的軟體機器人，開發(fā)了一個Evolution Gym環(huán)境（圖13）。Evolution Gym中的機器人由許多“細胞”作為基本單元組成，包括軟細胞、剛性細胞和能夠主動收縮或擴張的執(zhí)行器細胞。這使得機器人可以在形狀上自由進化，最終完成在不同地形上移動和操縱物體等一系列任務。

另一個典型的形態(tài)與控制協同優(yōu)化應用是機器人手形態(tài)優(yōu)化。優(yōu)化后的形態(tài)應該能夠適應需要操縱和抓取的物體。參考文獻[1]應用進化策略來優(yōu)化機器人夾持器的形態(tài)，并引入圖元網絡來提高搜索效率。此外，還實現了對定制化兩指夾持器形態(tài)的微調。針對強力抓取、捏取抓取和側向抓取，參考文獻[144]將手的形態(tài)和控制參數投影到共同的潛在空間中，并提出了一種貝葉斯優(yōu)化算法來搜索最佳的手部形態(tài)（圖14）。最近，參考文獻[206]從計算機圖形學的角度，基于籠狀變形模型設計了一種通用的形態(tài)表示方法。這種方法的優(yōu)點在于可以用更少的參數描述豐富的形態(tài)。通過將該模型與可微分模擬器相結合，形成了一種端到端的學習方法。

3.5.4 小結。當前大多數研究工作都在仿真環(huán)境中得到驗證。如何將仿真器中的形態(tài)進化結果遷移到物理系統，或者直接在物理系統中進行進化，是一個值得進一步探討的前沿研究方向。此外，值得注意的是，在機械領域已經有許多成熟的形態(tài)設計方法。如何將這些經驗性信息，以及相關的物理約束和外部知識，與數據驅動的學習方法相結合，以協同優(yōu)化形態(tài)和控制，將是提高學習效率的有效工具。

3.6 感知驅動的行動生成（P → A）

本子節(jié)對應于圖1中從感知到行動的連線5?。環(huán)境感知信息被用來引導智能體生成行動，以實時與環(huán)境交互。這種范式在眾多機器人任務中最為常見。例如，在自動駕駛領域，視覺感知及其他感知方式被用于自主導航。許多機器人操作任務也借助視覺感知來生成抓取合成。當前大多數機器感知研究也屬于這一類別。

3.6.1 傳統視覺操作與導航。在過去的幾十年中，傳感器和感知算法發(fā)展迅速。許多最新的硬件和算法已被集成到機器人平臺中。典型的常用傳感器包括Kinect、RealSense和事件相機等。此外，用于目標檢測、識別、分割和跟蹤等傳統任務的計算機視覺算法[211, 226]在深度學習時代得到了進一步發(fā)展。在此背景下，感知-行動任務得到了極大發(fā)展，其中機器人操作和視覺導航是兩個代表性任務。

對于機器人操作任務，早期工作主要屬于分析方法[13]的范疇，即使用接觸模型來計算合適的接觸力和扭矩。然而，分析方法需要對象的完整知識，而這在僅有部分且?guī)в性肼暤母兄畔⒌那闆r下很難獲得。隨著深度學習技術在計算機視覺領域的巨大成功，越來越多的數據驅動方法被提出用于機器人操作[136]。此外，端到端方法（即單個網絡直接從視覺輸入回歸出行動）變得越來越普遍。在視覺導航任務中，智能體需要規(guī)劃一條合理的路徑到達目的地。借助視覺同時定位與建圖（SLAM），智能體能夠很好地感知和理解其周圍環(huán)境[22]。近年來，更先進的SLAM算法，如度量-語義SLAM [166]和動態(tài)SLAM [195]，已被提出用于處理動態(tài)環(huán)境。傳統的機器人視覺導航通常遵循全局路徑規(guī)劃結合局部運動控制的多階段范式，這需要大量的先驗知識和工程設計工作。與機器人操作類似，越來越多的端到端學習方法被提出，直接將視覺輸入映射為運動指令[205]。毫無疑問，感知驅動的行動生成在機器人領域中極為常見。我們僅關注兩個重要的新興方向——多模態(tài)融合和語言引導——這兩個方向也可以結合成一個統一的、以語言為條件的多模態(tài)感知驅動行動生成框架（圖15）[204]。

3.6.2 多模態(tài)感知驅動的導航與操作。多模態(tài)感知被廣泛用于導航。一般來說，視覺和深度信息對于移動機器人是必需的。Kinect、RealSense、超聲波和激光雷達常用于室內和室外場景[50]。一系列多模態(tài)數據集已為研究和工業(yè)目的而開發(fā)[56, 217]。最近，其他感知模態(tài)，如4D毫米波雷達，在一些極端天氣條件下展現了潛在應用價值[191]。此外，多模態(tài)感知對于某些單感知模態(tài)難以解決的任務也至關重要。例如，視覺、觸覺和聽覺模態(tài)常常被融合在一起以識別物體的不同屬性。參考文獻[14]回顧了在機器人操作中集成多模態(tài)感知所取得的進展。參考文獻[111]系統地解決了視覺-聽覺-觸覺模態(tài)融合用于材料識別時的弱配對問題。近年來，多模態(tài)感知已被用于更廣泛和復雜的任務，如精確抓取[194]和手中操作[176]。

3.6.3 語言條件下的導航與操作。另一個重要方向是將語言與感知相結合，從而提供與人類的自然交互界面。一個代表性任務是視覺語言導航（VLN），其中智能體通過將語言與其視覺感知以及生成的導航行動對齊來執(zhí)行導航指令[53]。智能體需要同時理解導航指令和視覺感知信息，然后生成相應的導航行動。參考文獻[3]提出了VLN問題的基本框架，并在MatterPort3D環(huán)境中建立了一個基準。當前對VLN任務的研究涉及計算機視覺、自然語言處理和跨模態(tài)處理中的許多最新方法，以幫助智能體更好地解決任務。隨著VLN的成功，許多工作將此思想擴展到操作場景，形成了所謂的視覺-語言-操作（VLM）任務[220]。從本質上講，VLM表現出與VLN相似的特征，但可能面臨更多挑戰(zhàn)，因為操作通常需要更細粒度的行動空間和更復雜的規(guī)劃。

3.6.4 小結。感知驅動的行動生成任務在機器人技術中非常常見。隨著深度學習和計算技術的快速發(fā)展，將感知信息直接投影到行動空間的端到端模型已成為解決這類問題的主流方法。此外，多模態(tài)感知和語言條件下的行動任務在實際場景中變得越來越流行。然而，將自然語言、多模態(tài)感知和復雜行動三者對齊仍然存在巨大挑戰(zhàn)。

3.7 行動驅動的感知改進（A → P）

本子節(jié)對應于圖1中從行動到感知的連線6?，強調感知可以通過有目標的探索得到改進。該領域的研究工作早在20世紀80年代就引起了關注，當時主動感知首次被系統性地討論[7]。在主動感知中，智能體在智能控制下采取運動，以改進其對環(huán)境的感知方式。理論上已經證明，在引入運動之后，傳統計算機視覺領域的許多不適定或非線性問題變成了適定和線性問題[2]。從那以后，主動感知被廣泛應用于機器人技術，并成為具身智能的重要組成部分[186]。

早期，信息論方法是主動感知的典型方法。例如，參考文獻[45]將許多視覺問題歸結為狀態(tài)估計問題，并使用信息論方法來研究狀態(tài)估計中的最優(yōu)傳感器選擇，這為主動感知的貝葉斯方法奠定了基礎[147]。這些方法大多使用條件熵或互信息來衡量不確定性，但通常泛化能力較差。近年來，強化學習逐漸成為實現主動感知的重要方法[143]。下面，我們總結幾種典型的主動感知任務，并指出將語義和語言融入主動感知任務的最新趨勢。

3.7.1 主動視覺感知。任何典型的計算機視覺任務（檢測、識別等）都可以通過引入行動轉化為相應的“主動”版本。在此我們列舉一些典型的主動視覺感知任務。其一是主動目標檢測[67]，即待檢測的目標不在初始視野內，智能體需要探索環(huán)境以發(fā)現目標，或者通過某種智能控制策略調整相機位姿，以更好地檢測被遮擋或尺度較小的目標。主動目標識別任務[84]旨在當當前視野中提取的特征不足以區(qū)分目標時，通過調整相機位姿來獲得新的視野。例如，要識別一個人，從正面識別比從后腦勺識別要容易得多。還有一種主動目標跟蹤任務[222]。傳統的視覺目標跟蹤任務需要準確檢測視頻流中的目標并進行時序關聯。當目標移出視野時，跟蹤算法就無法再正常工作。為此，主動目標跟蹤可以實時調整相機位姿，使運動目標始終保持在視野內。

3.7.2 視覺語義導航。近年來，一個重要的趨勢是研究語言條件下的主動感知。這方面最典型的任務是視覺語義導航（VSN）（圖17）。與使用較長語言導航指令的VLN不同，VSN僅要求用戶提供一個語義目標物體，然后智能體便可在環(huán)境中自主搜索該目標。此類語義目標可以通過語義標簽[210]或物體圖像[225]給出。VSN任務實際上是主動目標檢測和識別任務的擴展。由于VSN任務中待檢測的目標是用語義信息描述的，這為與人的交互提供了可能。

目前，VSN模型大多在仿真環(huán)境中訓練，這導致了仿真環(huán)境與真實環(huán)境之間的差距。參考文獻[114]討論了具身不匹配問題，即實際行動空間與仿真環(huán)境中的行動空間不匹配。參考文獻[216]利用機器人自身的能力，結合3D感知信息來提高其物體發(fā)現能力。參考文獻[57]構建了一個實際的物理場景，以全面評估不同方法在仿真環(huán)境和物理環(huán)境中的性能差異。此外，該研究還指出模塊化設計方法顯著優(yōu)于端到端學習方法。

然而，由于場景的先驗信息通常能為物體發(fā)現帶來很大便利，一些方法利用場景先驗來實現高效的物體發(fā)現[210]。但這些工作忽略了一個重要問題：隨著時間的推移，場景本身可能會發(fā)生各種意想不到的變化。忽視場景的動態(tài)性會嚴重降低物體發(fā)現能力的性能，也給長期部署帶來困難。參考文獻[224]建立了一種動態(tài)時空場景圖來解決這個問題，該場景圖利用智能體在日常探索過程中收集的信息進行實時更新，從而動態(tài)適應環(huán)境的變化。參考文獻[100]將動態(tài)場景圖更新形式化為鏈接預測問題，并設計了一個動態(tài)模擬器來生成動態(tài)場景。參考文獻[106]提出通過監(jiān)測對話來動態(tài)獲取和實時預測人員的位置?？偟膩碚f，動態(tài)場景的處理仍處于相當初步的階段。當前，主動感知任務正在快速發(fā)展。許多新任務，如重排[197]、視聽導航[30, 113]和整理[162]等已被提出。視覺、聽覺、觸覺等多種感知模態(tài)也被應用于主動感知任務中[17, 112]。

3.7.3 具身問答。具身問答（EQA）任務[40, 60]是主動感知領域中的一個更高級的課題。在EQA任務中，智能體從3D環(huán)境中的隨機位置出發(fā)，主動探索環(huán)境以回答給定的自然語言問題（圖18）。然而，當前EQA任務的發(fā)展在語言理解、任務規(guī)劃、視覺感知和行動執(zhí)行等方面仍面臨許多困難。

3.7.4 小結。主動感知是一類典型的具身智能任務，在該任務中，智能體在采取行動的同時改進了感知。它呈現出一種“以時間換空間”的特征（圖16），這實際上是一把雙刃劍。因此，由于其復雜性和部署難度，其應用仍然相當有限。近年來，語義和語言越來越多地被融入主動感知中，這可能為主動感知的廣泛應用提供更多機會。然而，針對動態(tài)場景的主動感知仍然極具挑戰(zhàn)性。

3.8 行動驅動的具身學習（A → L）

本子節(jié)對應于圖1中從行動到學習的連線7?。學習是具身智能的基本組成部分，只有當智能體具備自主更新自身知識和技能的能力時，它才能適應不斷變化的開放環(huán)境。當前，利用豐富的互聯網數據構建了各種大規(guī)模數據集，預訓練的感知模型取得了前所未有的成功。然而，在這種學習范式下，數據采集和模型學習的過程是分離的。一個數據集是否真正適合某個學習任務仍然是一個懸而未決的問題。此外，在訓練模型之前必須執(zhí)行數據清洗和數據標注等操作，這遠遠不能滿足自主學習的要求。

利用具身智能體的行動來改進感知性能，實際上是人類學習的方式。例如，當人類看到一個新物體時，我們會自然地操作該物體或從不同視角觀察它以主動探索它，然后我們會意識到，無論從哪個視角看這個物體，它都是同一個物體。我們在這個行動-學習循環(huán)中不斷學習。探索過程實際上是一個數據采集和標注的過程。受此啟發(fā)，具身智能體被鼓勵去探索那些預訓練感知模型可能表現不佳的區(qū)域。然后可以收集探索過程中觀察到的數據并進行標注，以進一步改進感知模型。這種行動驅動的具身學習范式通常可以分為三個階段：探索策略學習、訓練樣本收集和應用部署。它將數據采集和模型學習無縫結合，并能在探索過程中持續(xù)提升智能體的能力。它已成為具身智能中一個非常有前景的方向。其主要成果可以分為面向感知的學習和面向表示的學習，具體如下。

3.8.1 通過學習改進感知。參考文獻[28]引入了一種語義好奇心獎勵，利用當前幀與前一幀語義地圖的一致性來引導智能體探索環(huán)境，并收集有助于提高模型性能的數據（圖19）。參考文獻[26]構建了3D全局場景語義地圖，該地圖可以反投影到2D空間以生成偽標簽，從而實現自監(jiān)督學習。同時，使用3D語義體素的數量作為獎勵，以鼓勵智能體探索具有更多語義信息的位置。參考文獻[190]分析了熟悉樣本和不熟悉樣本在具身學習過程中的不同作用，并設計了一種新的自監(jiān)督學習方法。上述所有工作均在仿真環(huán)境中實現。進一步地，參考文獻[87]基于語義分布的不確定性學習探索軌跡，并嘗試進行物理實現。參考文獻[219]提出了真實場景中的3D具身數據集，包括視覺數據和密集點云數據。它利用不同視角下3D感知結果的一致性來收集數據。

當前這些工作大多面向一些通用的感知模型，如目標檢測和目標分割。具身學習也可以與某些特定任務相結合，以實現一些有目標的特定任務。例如，參考文獻[104]提出了一種智能體自動學習構建場景圖的通用方法。參考文獻[123]提出了具身NeRF，旨在自動收集高質量圖像以構建3D場景。

除了直接改進感知模型的性能之外，另一類研究通過自主行為學習直接進行特征表示學習[198]。參考文獻[21]從一系列游戲中探索了好奇心驅動的表示學習。參考文獻[154]利用機械臂通過簡單的觸覺傳感器與物體進行物理交互，以幫助學習視覺特征，并取得了有希望的結果。參考文獻[207]進一步提出了DensePhysNet，通過主動執(zhí)行一系列動態(tài)交互來學習物體的若干物理屬性。

3.8.2 小結。可以看出，行動驅動的具身學習能夠提供一種學習機制，該機制可進一步用于某些下游任務，如感知或理解。其核心是利用具身智能體的行動進行學習，從而彌合數據采集與模型訓練之間的鴻溝。通過這種方式，智能體的具身特性得到了充分利用。

4 討論

4.1 具身人工智能的優(yōu)、劣與難

在深度學習技術驅動的離身智能研究中，我們觀察到其在感知和學習任務中表現出的優(yōu)越性能，但由于其黑箱特性和可解釋性差，存在安全性問題。此外，其訓練過程中的收斂分析仍然是一個難點。在本節(jié)中，我們對具身智能的優(yōu)勢（Good）、劣勢（Bad）和難點（Ugly）進行全面分析和評估。

4.1.1 優(yōu)。具身智能最重要的特點是引入了“身體與環(huán)境的交互”，從而引入了行動維度。如果能夠巧妙地利用身體，許多困難的任務會變得更容易。例如，從背面觀察一個人時很難識別出該人。為了解決這個問題，離身智能的典型方法是利用先驗知識或數據驅動的方法提取更好的特征，而具身智能的典型方法是移動到一個更好的視角，從而使識別任務變得更容易。此外，適當利用身體形態(tài)信息也可以顯著簡化控制器的設計。例如，合理設計飛機的氣動構型可以利用環(huán)境實現更靈活的運動，而單純依賴控制算法的設計則非常困難。

4.1.2 劣。傳統的具身智能過分強調身體和環(huán)境的作用，而忽視了知識和數據的作用。這樣一來，大腦和身體的發(fā)展是不平衡的。此外，由于與環(huán)境的物理交互，具身智能的安全性也是一個非常具有挑戰(zhàn)性的問題。例如，在物體識別任務中，如果模型達到了95%的識別準確率，它可以被部署到一些實際應用中；而在具身智能系統中，即使是1%的失敗率（例如在手術中）也可能帶來致命的后果。

4.1.3 難。具身智能強調智能產生于環(huán)境、身體和大腦的緊密耦合。這一過程需要整合形態(tài)、行動、感知、學習，甚至語言理解。由于形態(tài)、感知、行動、學習和語言屬于不同的領域，且具有顯著不同的特性，實現它們之間的對齊非常具有挑戰(zhàn)性。然而，具身智能的應用需要環(huán)境感知、語言理解、行為控制等各個組件的完美實現。因此，很難以一種優(yōu)雅的端到端方式來實現它。

4.2 具身智能與機器人學

具身智能與機器人學密切相關，兩者在許多情況下被相互混淆。具身智能的核心在于智能產生于身體與環(huán)境的交互。這里的“身體”不僅限于機器人。實際上，任何物理實體（例如，詹姆斯·瓦特發(fā)明的著名的離心調速器）或非物理實體（例如，數字人和仿真智能體）都是適用的。因此，具身智能更側重于通用理論、方法和技術的研究，而機器人可以被視為具身智能的一種體現形式。對于機器人本身而言，其智能行為可能來源于具身智能，也可能不是。

然而，我們可以將“具身智能”這個詞解讀為用“具身的”來修飾“智能”。其中的“智能”通?？梢灾敢曈X檢測、語言問答等智能任務，這些屬于離身智能的范疇。但通過在前面加上“具身的”，我們得到了諸如具身視覺檢測和具身問答等新任務。從這個意義上說，具身智能可以理解為離身智能的擴展，旨在向機器人領域邁進。另一方面，在機器人學領域，由于機器人通常具有物理身體，早期人們很少用“具身的”來修飾相關研究工作。當前，機器人學與具身智能領域確實已經深度融合。

5 具身智能前沿

5.1 來自離身機器學習的啟示

傳統機器學習領域所倡導的有監(jiān)督學習方法要求訓練集和測試集明確分離，并且需要提供準確的標簽。這顯然會阻礙智能體對動態(tài)和開放環(huán)境的適應。幸運的是，機器學習領域也意識到了這個問題，并做出了巨大努力來解決它。自監(jiān)督學習提供了一種新的學習范式來減輕標注壓力。通過各種手段為無標簽樣本構建偽標簽，可以在特征學習階段取得良好效果[86]。此外，終身學習雖然起源于機器人學領域[183]，但近年來在機器學習領域也受到了廣泛關注，并在識別和檢測等任務中提出了各種克服災難性遺忘的方法[175]。它也已擴展到強化學習領域，為具身智能體在真實環(huán)境中的性能提升帶來了巨大機遇。受這些離身機器學習成果的啟發(fā)，我們認為自監(jiān)督學習和終身學習的無縫結合也為具身智能提供了一條有前景的路徑。

5.2 形態(tài)的作用

當前在仿真環(huán)境中研究的許多具身導航任務通常只使用簡單的行動空間，并未考慮智能體的形態(tài)特征[99]。此外，這些任務對環(huán)境有較高的約束，通常需要可通行的拓撲地圖，并且不考慮避障等問題。如前所述，在具身智能中，形態(tài)是產生智能的重要工具，也是體現智能的重要途徑。它被視為具身智能的核心。然而，形態(tài)計算、形態(tài)控制和形態(tài)優(yōu)化等方向尚未成為支撐具身智能發(fā)展的重要研究方向。一個重要原因是形態(tài)的成功強烈依賴于材料，而材料在選擇、驅動和設計方面仍然存在巨大挑戰(zhàn)[39]。近年來，軟材料在具身智能中得到了廣泛應用，因為軟體機器人中材料的固有特性能夠以剛性機器人無法實現的方式降低機械和算法復雜度。這為未來的工作提供了廣闊的研究空間。

5.3 仿真到真實

隨著計算機圖形學的快速發(fā)展，視覺仿真技術可以為具身智能研究提供逼真的平臺，并為建立標準化基準奠定良好基礎[15]。目前，有許多仿真平臺直接應用于具身智能任務，如AI2THOR [43]、Matterport3D [25]、Habitat [163]和iGibson [168]。然而，盡管當前仿真環(huán)境中的視覺效果越來越逼真，但仿真環(huán)境不可能覆蓋真實世界的所有方面。此外，當前仿真環(huán)境中的感知信息大多局限于視覺模態(tài)。在模擬聽覺、觸覺等其他感知模態(tài)方面仍然存在巨大困難。當我們將仿真中學習到的控制策略遷移到真實世界時，由于難以對具身智能體的動力學進行建模，我們將面臨巨大的行為差距。因此，在仿真環(huán)境中訓練的具身智能體在直接遷移到物理世界時仍然面臨嚴重的遷移問題，這被稱為Sim2Real問題。目前，主要有兩種方法來解決這個問題。一種方法是使用各種手段豐富仿真環(huán)境，例如域隨機化[129]；另一種方法是盡可能縮小仿真環(huán)境與物理環(huán)境之間的感知和行動空間差距。例如，參考文獻[27, 115]提出了語義感知方法。參考文獻[121]提出了一種環(huán)境增強方法以增加訓練仿真環(huán)境的多樣性。參考文獻[114]考慮了行動空間的具身不匹配問題。參考文獻[115]建立了一種Sim2Real方法，利用語義和高級規(guī)劃來對齊仿真世界和物理世界。參考文獻[221]為可泛化的主動目標跟蹤構建了一種結構感知的表示。參考文獻[227]同時包含虛擬子集和真實子集用于訓練。

5.4 多模態(tài)具身智能與語言 grounding

“多模態(tài)”在當前具身智能研究中被頻繁提及[102]。最近發(fā)布的VIMA被稱為多模態(tài)人工智能系統[85]。但這里的“多模態(tài)”通常指視覺、語言、聲音等，更側重于解決視覺環(huán)境感知與人類指令和意圖之間的關系。從本質上講，多模態(tài)融合仍然局限于離身智能領域。具身智能強調身體與環(huán)境的交互。這種交互包括多種不同的模態(tài)，如視覺、聽覺和觸覺。如何有效融合這些異質的多模態(tài)信息以實現多模態(tài)具身感知，是一個需要關注的重要問題[194]。目前，視覺和聽覺是研究相對較多的領域[29, 55, 189]，相應的傳感器也在快速發(fā)展。觸覺感知的研究相對滯后，這嚴重制約了具身智能的發(fā)展，但它對于身體與環(huán)境之間的物理交互至關重要[110]。它可以用來確保操作的安全性、穩(wěn)定性和靈活性，并且能夠獲取其他感知模態(tài)難以捕捉的獨特信息。

語言grounding領域也是具身人工智能和機器人學的一個關鍵領域[61]。Grounding指的是智能體將其內部的語言表示和符號與外部世界中的指稱對象以及內部狀態(tài)進行內在連接的能力。因此，具身機器人必須學會將“紅色”和“球”等詞與外部玩具（球）及其感知屬性（如紅色）聯系起來。但grounding并不一定需要將內部符號與外部對象直接連接。事實上，即使是抽象詞匯也可以間接地與感官運動經驗和內在感受相連接[24]。

5.5 用于具身人工智能的大語言模型

近年來，大語言模型受到了廣泛關注。特別是GPT等大語言模型的出現，為機器人應用帶來了許多新的范式。參考文獻[85]開發(fā)了一種用于操作任務的多模態(tài)提示。參考文獻[105]研究了預訓練的視覺語言模型如何有益于語言條件下的機器人操作。參考文獻[215]和[44]嘗試使用大語言模型來解決多機器人協作問題中的任務分配，并展示了有希望的結果。參考文獻[91]展示了人工智能生成內容在機器人操作中的一些有趣應用。最近，參考文獻[36]通過21個機構的合作，匯集了來自22個不同機器人的數據集，展示了527種技能。所有這些嘗試都顯示了大語言模型在機器人應用中的強大能力。然而，我們也必須看到，盡管這些技術的引入可能為具身智能的應用帶來新的思路和機遇，但具身智能的許多關鍵挑戰(zhàn)并未真正得到解決。特別是，大語言模型更擅長解決高級任務規(guī)劃和人與計算機的語言交互問題，而對于導航和操作任務中的低級控制，仍然沒有理想的解決方案[209]。事實上，大語言模型的出發(fā)點與最初的具身智能存在某種程度的矛盾。此外，我們更應該關注如何利用大語言模型來研究具身智能，而不是天真地直接使用大語言模型來實現具身智能。

5.6 多智能體協作

多智能體協作是具身智能不可或缺的一部分。與一些在簡單離身環(huán)境中學習多智能體協作策略的工作[64, 80]不同，已經涌現出大量在具身視覺環(huán)境中學習多智能體協作策略的研究，多智能體強化學習已成為學習多智能體協作策略的主流方法[32, 35]。在參考文獻[82, 83]中，兩個智能體學習在動作層面協作搬運家具。一些典型的具身任務，如具身問答和具身導航，也已擴展到多智能體設置[181, 188]。然而，大多數多智能體協作任務只考慮同質智能體，但已有工作嘗試利用異質智能體的不同能力來處理更復雜的任務[128]。此外，多智能體協作也帶來了智能體之間通信機制的挑戰(zhàn)。參考文獻[145]分析了異質智能體之間的不同通信機制。參考文獻[93]將通信信息納入多智能體強化學習中。值得注意的是，除了多智能體協作外，已有研究表明多智能體之間的競爭也能促進智能體的技能學習能力[77, 203, 223]。隨著任務日益復雜，多智能體協作顯然將變得越來越重要和必要[51]。

5.7 具身人工智能的安全性與脆弱性

以深度學習為代表的人工智能技術中的安全問題已引起越來越多的關注。一些像素級的攻擊會導致整個智能系統識別失敗甚至決策失敗。對于具身智能系統而言，由于涉及物理行動執(zhí)行和交互，其安全問題更應該得到重視。一方面，我們看到許多現有的具身感知任務在面對未見過的場景或物體時性能顯著下降，并且在仿真環(huán)境中訓練的策略遷移到物理環(huán)境也面臨巨大挑戰(zhàn)。另一方面，即使在一些成功的應用場景中，具身探索的性能也可能受到某些攻擊的影響。例如，參考文獻[108]通過向環(huán)境添加紋理效果直接降低了具身問答的準確性。參考文獻[218]研究了針對視覺語言導航任務的拜占庭魯棒聯邦具身智能體學習。針對視聽導航，聲源的攻擊也可能導致導航任務失敗[213]。在具身智能的背景下，出現多少種攻擊方式，就會出現多少種防御方式。這將是未來很長一段時間內的重要課題。

6 結論

在本文中，我們回顧了具身智能，特別是具身人工智能的發(fā)展歷程。從形態(tài)、行動、感知和學習的視角，提出了一個統一的具身智能框架，該框架主要關注這些組成部分之間的連接，而非它們本身。根據所提出的框架，我們對現有研究進行了全面的總結和分類。此外，我們還指出了未來研究可以從這些內在聯系中獲益的領域。由于具身智能是形態(tài)、行動、感知與學習的協同作用，學術界既面臨著巨大的機遇，也面臨著需要整合多個不同學科技術的挑戰(zhàn)。

原文：https://dl.acm.org/doi/pdf/10.1145/3717059

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.