![]()
編輯丨%
過去兩年,具身智能(embodied AI)走向一個明確方向:把視覺、語言和行動統一進一個大模型。這類模型被稱為Vision-Language-Action(VLA)模型——它們可以看、能聽懂指令,還能直接輸出動作。
但機器人學界正狂熱地追逐越大越好的 VLA 大模型的同時,一個根本性的問題卻被悄悄擱置:這些動輒數十億參數、需要數天微調、運行時還要燒 GPU 的龐然大物,真的適合那些有明確規則和約束的結構化任務嗎?
塔夫茨大學(Tufts University)的一支團隊給出了一個響亮的否定答案。研究團隊設計了一場「漢諾塔」操縱任務的公平對決:一方是當前最先進的開源 VLA 模型 π0,另一方則是一個結合了 PDDL 符號規劃與擴散策略的神經符號架構(NSM)。
結果令人震驚——在 3 塊漢諾塔任務上,NSM 成功率高達 95%,而 VLA 僅 34%;在面對未訓練過的 4 塊版本時,VLA 全軍覆沒,NSM 仍能達到 78% 的成功率。更諷刺的是,VLA 微調消耗的能量是 NSM 訓練的近 100 倍。
相關的研究以「The Price Is Not Right: Neuro-Symbolic Methods Outperform VLAs on Structured Long-Horizon Manipulation Tasks with Significantly Lower Energy Consumption」為題,將于 5 月在維也納國際機器人與自動化會議上發表,并發表于會議論文集。
![]()
論文鏈接:https://arxiv.org/abs/2602.19260
端到端 vs 神經符號
前文中所述的塔漢諾問題(Towers of Hanoi)是一款經典問題,這個任務具備三個關鍵特征:明確的規則約束 、長時間規劃(long-horizon) 與強結構依賴,正是檢驗「推理能力」的理想場景。
在這任務中,π0 等模型在抓取、擺放等短程操作上雖然表現出色,但當任務需要多步推理、遵守特定規則(如漢諾塔的「大不能壓小」)時,問題就暴露了——VLA 需要從演示中隱式地學習這些約束,而訓練數據中任何細微的偏差或多樣性都可能讓模型無所適從。
而 NSM 則采用「分層」設計。高層用PDDL符號規劃器,基于從少量演示中提取的抽象規則生成符號化計劃;低層用擴散策略將計劃轉化為連續控制動作。這種設計將「推理」與「執行」解耦,規則清晰、可解釋性強。
![]()
圖 1:VLA 模型與 NSM 實驗比較概述。
研究團隊在 Robosuite 仿真環境中設計了三個難度遞增的任務:單次抓取放置、3 塊漢諾塔、4 塊漢諾塔(后兩者未見訓練)。對比對象包括:
- E2E-VLA:端到端微調,僅接收「玩漢諾塔」這一條高層指令。
- PG-VLA:在外部規劃器提供的最優子任務序列指導下微調,以隔離執行能力。
- NSM:僅從50個簡單的「堆疊」演示中學習,從未見過完整的漢諾塔求解過程。
![]()
圖 2:數據集中的示例觀測數據。
訓練數據上,VLA 消耗了 300 個完整漢諾塔軌跡,而 NSM 只用了 50 個堆疊演示。硬件上所有實驗在同一臺 RTX 4090 上完成,并精確記錄了 GPU/CPU 的功耗和能量消耗。
碾壓性的結果差距
在最基礎的三塊塔漢諾任務中:
- 神經符號模型成功率:95%
- 最優VLA模型成功率:34%
差距接近3 倍。
當任務稍微增加復雜度(4塊)時:
- 神經符號模型仍能完成任務:78% 成功率
- 所有VLA模型:完全失敗
表 1: 訓練硬件指標,比較 VLA LoRA 微調與 NSM 訓練。
![]()
這意味著 VLA 不僅性能較低,而且幾乎沒有結構泛化能力。但這并非是結束,更關鍵的差距還在二者的能耗對比上。在訓練階段,VLA 微調能耗要高出神經符號方法近兩個數量級(≈100倍)。即使是推理階段,能耗也有接近 10 倍的差距。
VLA 的失敗主因并非規劃錯誤,而是低級執行上的偏差——反復抓取失敗、放置位置不準。訓練數據中的隨機擾動(塊位置偏移1cm)本意是增強穩健性,反而讓模型難以鎖定精確目標。在某些極端情況下,同一子任務指令的演示若區別較大,則很有可能出現對模型的強烈干擾,并進一步帶來極高的失敗率。
表 2:實驗的功耗、能耗及任務表現。
![]()
能源風險與未來方向
研究團隊將神經符號系統與熟悉的大型語言模型如 ChatGPT 或 Gemini 進行了類比。后者只是試圖預測序列中的下一個詞或動作,但這并不完美,可能導致結果失真或者出現錯誤的信息。而且,它們的能源消耗往往與任務本身不成比例。
VLA 或許更適合開放環境下的短程、靈活操作,而工業裝配、實驗室自動化、規則明確的物流任務,神經符號架構可能是更務實的選擇。大規模部署時,能耗固然是一個不容小覷的問題。正如論文所言,「通用」不一定意味著更合算。
相關鏈接:https://techxplore.com/news/2026-03-neuro-ai-slash-energy.html
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.