網易首頁 > 網易號 > 正文申請入駐

95% vs 34%成功率、能耗降低近100倍：神經符號方法擊敗VLA模型

2026-03-23 14:07:50　來源: ScienceAI

河北舉報

分享至

編輯丨%

過去兩年，具身智能（embodied AI）走向一個明確方向：把視覺、語言和行動統一進一個大模型。這類模型被稱為Vision-Language-Action（VLA）模型——它們可以看、能聽懂指令，還能直接輸出動作。

但機器人學界正狂熱地追逐越大越好的 VLA 大模型的同時，一個根本性的問題卻被悄悄擱置：這些動輒數十億參數、需要數天微調、運行時還要燒 GPU 的龐然大物，真的適合那些有明確規則和約束的結構化任務嗎？

塔夫茨大學（Tufts University）的一支團隊給出了一個響亮的否定答案。研究團隊設計了一場「漢諾塔」操縱任務的公平對決：一方是當前最先進的開源 VLA 模型 π0，另一方則是一個結合了 PDDL 符號規劃與擴散策略的神經符號架構（NSM）。

結果令人震驚——在 3 塊漢諾塔任務上，NSM 成功率高達 95%，而 VLA 僅 34%；在面對未訓練過的 4 塊版本時，VLA 全軍覆沒，NSM 仍能達到 78% 的成功率。更諷刺的是，VLA 微調消耗的能量是 NSM 訓練的近 100 倍。

相關的研究以「The Price Is Not Right: Neuro-Symbolic Methods Outperform VLAs on Structured Long-Horizon Manipulation Tasks with Significantly Lower Energy Consumption」為題，將于 5 月在維也納國際機器人與自動化會議上發表，并發表于會議論文集。

論文鏈接：https://arxiv.org/abs/2602.19260

端到端 vs 神經符號

前文中所述的塔漢諾問題（Towers of Hanoi）是一款經典問題，這個任務具備三個關鍵特征：明確的規則約束、長時間規劃（long-horizon）與強結構依賴，正是檢驗「推理能力」的理想場景。

在這任務中，π0 等模型在抓取、擺放等短程操作上雖然表現出色，但當任務需要多步推理、遵守特定規則（如漢諾塔的「大不能壓小」）時，問題就暴露了——VLA 需要從演示中隱式地學習這些約束，而訓練數據中任何細微的偏差或多樣性都可能讓模型無所適從。

而 NSM 則采用「分層」設計。高層用PDDL符號規劃器，基于從少量演示中提取的抽象規則生成符號化計劃；低層用擴散策略將計劃轉化為連續控制動作。這種設計將「推理」與「執行」解耦，規則清晰、可解釋性強。

圖 1：VLA 模型與 NSM 實驗比較概述。

研究團隊在 Robosuite 仿真環境中設計了三個難度遞增的任務：單次抓取放置、3 塊漢諾塔、4 塊漢諾塔（后兩者未見訓練）。對比對象包括：

E2E-VLA：端到端微調，僅接收「玩漢諾塔」這一條高層指令。
PG-VLA：在外部規劃器提供的最優子任務序列指導下微調，以隔離執行能力。
NSM：僅從50個簡單的「堆疊」演示中學習，從未見過完整的漢諾塔求解過程。

圖 2：數據集中的示例觀測數據。

訓練數據上，VLA 消耗了 300 個完整漢諾塔軌跡，而 NSM 只用了 50 個堆疊演示。硬件上所有實驗在同一臺 RTX 4090 上完成，并精確記錄了 GPU/CPU 的功耗和能量消耗。

碾壓性的結果差距

在最基礎的三塊塔漢諾任務中：

神經符號模型成功率：95%
最優VLA模型成功率：34%

差距接近3 倍。

當任務稍微增加復雜度（4塊）時：

神經符號模型仍能完成任務：78% 成功率
所有VLA模型：完全失敗

表 1：訓練硬件指標，比較 VLA LoRA 微調與 NSM 訓練。

這意味著 VLA 不僅性能較低，而且幾乎沒有結構泛化能力。但這并非是結束，更關鍵的差距還在二者的能耗對比上。在訓練階段，VLA 微調能耗要高出神經符號方法近兩個數量級（≈100倍）。即使是推理階段，能耗也有接近 10 倍的差距。

VLA 的失敗主因并非規劃錯誤，而是低級執行上的偏差——反復抓取失敗、放置位置不準。訓練數據中的隨機擾動（塊位置偏移1cm）本意是增強穩健性，反而讓模型難以鎖定精確目標。在某些極端情況下，同一子任務指令的演示若區別較大，則很有可能出現對模型的強烈干擾，并進一步帶來極高的失敗率。

表 2：實驗的功耗、能耗及任務表現。

能源風險與未來方向

研究團隊將神經符號系統與熟悉的大型語言模型如 ChatGPT 或 Gemini 進行了類比。后者只是試圖預測序列中的下一個詞或動作，但這并不完美，可能導致結果失真或者出現錯誤的信息。而且，它們的能源消耗往往與任務本身不成比例。

VLA 或許更適合開放環境下的短程、靈活操作，而工業裝配、實驗室自動化、規則明確的物流任務，神經符號架構可能是更務實的選擇。大規模部署時，能耗固然是一個不容小覷的問題。正如論文所言，「通用」不一定意味著更合算。

相關鏈接：https://techxplore.com/news/2026-03-neuro-ai-slash-energy.html

聲明：包含AI生成內容

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.