2024年,強化學習奠基人理查德·薩頓與他的導師安德魯·巴托共同獲得了圖靈獎。
這個獎項來得不算早。過去三十年,薩頓的理論支撐了AlphaGo、ChatGPT等系統的進化,但他三十年前寫下的理論,直到今天才被具身智能行業真正理解:
智能體要從試錯中學習,要從真實經驗里進化。
2023年,薩頓參與創辦非營利研究機構Openmind。2025年4月,薩頓在聯合發表的文章《歡迎來到經驗時代(Welcome to the Era of Experience)》中,再次一針見血地指出:
“新一代智能體,必須擁有像人類一樣在長時間尺度上不斷推進的經驗流,在真實的物理反饋中實現自我進化。”
這一次,除了理論之外,薩頓把目光投向了更遠的地方。
今年5月,薩頓與他山科技在加拿大正式簽約,以長期合作的形式共同推進一個名為“機器人幼兒園”的項目。
![]()
一位圖靈獎得主,與一家中國觸覺公司一拍即合,共同為具身智能的下一個十年提前做出了判斷:訓練機器人的全新路徑,也許就在真實的觸摸與試錯之中。
具身智能,缺的是“第一人稱經驗”
他山科技CEO馬揚給出了一個很直白的判斷。機器人要干活,無非解決兩個問題:一個是機器人自己在物理世界的里移動,通過雙足、四足、輪式等途徑,很多公司都在做。
另一個就是操作目標物體,用手去抓、去放、去擰,行為流暢且不會被上一個動作的偏差打斷。這兩件事加起來,基本能覆蓋目前人類需要機器人做的90%-95%的工作。
從一開始,他山科技想的就是從觸覺切入,做好后面這件事。
2017年他山科技剛成立的時候,大多數機器人廠商都在做移動平臺,展示的是跑跳翻滾的能力。然而,人類90%以上的物理交互,其實是通過手指完成的。手指不像腿,它要一直和不同的目標物體接觸,感知、決策、調整,是一個難而持續的過程。
把具身智能的“手指位置”解決好,觸覺感知能力是一個核心變量,也是“讓機器人干活”的底層方法論。在這條路上,他山科技一做就是將近十年。
具身智能的主流訓練方向,依賴的是靜態數據集下端到端的模仿,就像在套用題庫。人類演示的數據,本質上是第二人稱經驗,機器人在學習人的做法,但不能親手“摸”出來,也就無法理解物理世界的運作規律。
他山科技很早就意識到這條路線面臨的問題:正如人類幼年時需要從模仿和實踐中成長,機器人“啟蒙”訓練需要的不僅是模仿,更是屬于自己的第一人稱經驗。
在行動中感知后果、在反饋中調整行為的訓練方式,可能是最接近能讓具身智能進行“自我訓練”的方法論。
這個判斷,與薩頓的想法不謀而合。
薩頓提出的“經驗流”概念,要求智能體的學習過程與行為過程完全融合,每一次行動都是數據采集,每一次反饋都是訓練信號。因此,能提供第一人稱體驗的真實環境,是這個概念落地的關鍵。
然而,它長期停留在理論層面,也正是因為真實的物理環境提供不了低成本、高頻率、標準化的交互反饋。長期以來,具身智能行業都在致力于解決大腦與眼睛的問題,缺少一個能夠精準感知物理接觸的通道。
觸覺是物理交互中最核心的感知通道。機器人接觸一個物體的時候,觸覺傳感器能夠實時反饋接觸點的三維力分布、物體的局部形變以及滑移趨勢。有了這些信息,機器人才能迅速調整力量、角度,決定收緊或者放松。
高精度的觸覺感知技術不斷涌現,補齊了機器人曾經缺失的“傳入神經”,薩頓為代表的理論先驅也開始重點關注這一領域。2025年11月,薩頓在中國走訪,主動聯系參訪的兩家具身智能企業之一,就是他山科技。
![]()
薩頓走訪他山科技
他山科技是觸覺感知賽道上技術儲備最完整的公司。
他山科技自研的觸覺傳感器,力分辨率達到0.01N,這個精度“類似一根頭發絲掉到手指上的力”。憑借在AI觸覺感知技術及全棧觸覺解決方案的多年研發,攻克了觸覺多維感知信號同時解析的全球技術難題,構建起“芯片-傳感器-算法模型-場景應用”的完整技術體系。
當大多數觸覺傳感器廠商還停留在單一維度的力測量或簡單的電容變化時,他山科技已經實現了三維力、材質識別、接近覺和協同感知等同步解析。
更重要的是,他山科技把觸覺感知能力做到了量產,過去兩年里,他們的產品已經進入商業化階段,開始為主流靈巧手廠商批量交付。2025年,他山科技占據人形機器人觸覺傳感器賽道超過80%的市場份額。
![]()
TS-VT視觸融合訓練平臺
薩頓在他山科技參觀后,雙方快速推進合作,除了方法論契合之外,也是因為在他山科技的大樓里,他看到了一個已經把觸覺感知從實驗室推向了產業落地的團隊。
于是,在強化學習理論發布三十年之后,理論與技術在具身智能領域實現了雙向奔赴:學術泰斗找到了能夠將理論工程化的盟友,他山科技補上了觸覺加速機器人訓練的理論拼圖。
機器人幼兒園,在真實環境中“啟蒙”
雙方合作的落腳點,具體形態而言就是“機器人幼兒園”。
在他山科技,薩頓看到中國的小學生上機器人課,驚嘆于國內的具身啟蒙環境如此開放,人與機器人能夠更自然地相處,機器人幼兒園的想法由此萌生。
機器人幼兒園是一套面向機器人持續學習的觸覺與多模態經驗訓練平臺,它把真實物理環境、仿真環境、多臺機器人本體、觸覺與多模態感知設備、任務課程、數據采集和評測機制整合在一起,讓機器人在反復接觸、嘗試、失敗和修正中形成可訓練的經驗。
為什么叫幼兒園?馬揚說,現在的具身智能很像一個0到3歲階段的嬰兒。我們在視頻里看到機器人能做到各種事情,覺得很厲害,實際上成功率并不高,而且它自己也不知道自己是成功還是失敗。“它只是做出來了,人們就會鼓掌”。
人類的正確示范,其實很難讓機器人理解到自己做對了什么。因為“正確”這件事很模糊,在一個很大的范圍內。只有錯誤是有邊界的,足夠多的錯誤實驗,才能讓一個機器人知道任務的邊界在哪里,下一次操作時應該如何調整。
“具身智能的安全感也不是大家一起畫一條線界定出來的,而是它在客觀交互中逐步探索出來的。”
馬揚深信,就像人的安全本能不僅是靠閱讀手冊獲得的,也是在一次次接觸、跌倒、調整中長出來的,機器人也一樣,只有通過足夠多的真實試錯,它才能理解什么是不安全的。如果機器人能自己劃出安全的操作邊界,既保護了機器人自身,也能演繹出對他人的安全性。
薩頓參訪他山科技后,雙方就合作事項快速推進,2026年5月11日完成了簽約。
簽約儀式上,薩頓談到合作的意義:“早在我們讀研究生的時候,就有人提出制造一個像嬰兒一樣的機器人,讓它與世界互動并通過經驗成長。這個想法在當時幾乎不可能實現,現在我們有了足夠的算力,也有了足夠多的機器人經驗,但我認為一直缺失的關鍵因素,是明確認識到這個理想的價值。它需要的不只是資金,更重要的是時間和堅持。”
薩頓表示,在參訪他山科技的時候,他驚喜地發現,這家中國公司理解到了這一點。整個合作計劃是五年的周期,目標是找到最適合具身智能的學習方法論。
![]()
簽約儀式現場
接下來,“機器人幼兒園”將搭建真實環境,放置機器人本體在其中完成訓練。盡管初期以同構本體的形式訓練,馬揚相信,在持續學習的探索之下,異構的機器人在后期不會成為太大的學習障礙。因為一個智能體如果理解了任務的底層邏輯,本體形態不同,也不會阻礙學習和經驗的傳遞。
與之相比,現在更重要的是直面真實的環境變量。
馬揚直言,具身智能行業的硬件已經達到了60分的水平,欠缺的是推理能力和持續學習的能力。缺少這兩樣能力,就沒法做到更好的泛化和演繹,整個行業會被拖著去卷參數,找不到更廣闊的應用空間。
因此,早期學習必須與真實環境不斷交互,搭建的訓練環境不能再刻意回避真實場景中的變量和不利因素,否則,機器人學到的經驗天花板很低,很難再向前走。
他山科技與薩頓之間的合作,也是為了找到一套新的路徑。"在這件事情上,沒有什么高科技,只有方法論的選擇。"
商業化的前提,是能“邊干活邊學習”
方法論最終還是要在應用場景里檢驗。馬揚對于商業化落地也有一個很務實的判斷:未來三到五年,具身智能最可能率先進入的,不會是那些高邏輯性、高時效要求的場景。
它更適合替代一類特定的工作:人不想干,容錯率又不能太低。
這類工作有三個特征:任務重復,但不是完全固定的流水線;對成功率要求非常高,失敗一次可能就會直接中斷,需要強人工干預;單次任務的時效要求相對寬松,不需要秒級響應。
馬揚舉了幾個例子:一個是服務業場景,北美餐館里的洗碗工。他們的工作是把碗碟沖一下,放進洗碗機,動作很簡單,但枯燥繁重。目前,美國有幾百萬人在這個崗位上,機器人如果能把這個動作的成功率做到足夠高,就能釋放巨大的商業價值。同時,洗碗這個任務沒有太高的時效要求,一晚上洗完就行。但對成功率的要求很高,打碎一個碗,整個流程就得停下來。
農業加工領域有一個更具體的案例。潛江的小龍蝦加工廠里,“小龍蝦去頭”這個步驟一直要靠人來完成。因為小龍蝦大小不一樣,殼的軟硬度隨季節變化,對設備的觸覺感知技術要求很高。一個工廠每年在這道工序上的人力成本高達數千萬元,高峰時段,一兩千人在產線上干活。
他山科技花了半年時間,先做模仿學習和仿真訓練,再讓機器人在真實產線上用強化學習反復自主練習。最終把剝蝦成功率提到了95%以上,在高效去除蝦頭的同時完整保留蝦黃,提高產品價值結構。目前,他山科技智能化剝蝦設備已經與頭部小龍蝦加工企業達成合作,首期簽約100臺。
![]()
他山科技智能化剝蝦設備
這些場景的選擇邏輯很清晰。機器人目前還不能去和人比推理速度,但很適合去填補那些自動化做不了、人又不愿意干的缺口。觸覺感知則是解鎖這些場景的鑰匙。因為它提供實時反饋,機器人可以在執行過程中靈活調整力度和角度,不需要完美預設的軌跡。
如果行業內的大部分精力都放在訓練機器人去模仿人,那么具身智能的“天花板就是人本身”。要突破這個天花板,需要整個行業一起探索。
馬揚一直強調,比起他山科技自身的壁壘,他更希望看到的是有更多同行加入進來,一起往正確的方向去推動。他山科技和薩頓希望要建立一個開放、共享的研發基礎設施,吸引全球學術界和產業界共同探索具身智能持續學習的方法論。
現階段,他山科技和薩頓作為發起方會聚焦于把平臺搭起來。而未來,整個體系將逐步面向行業開放,他山科技的產業鏈上下游、全球高校、科研機構可能都會成為這個合作項目中的生態伙伴。
觸覺感知與持續學習的結合,正在為具身智能的下一個十年鋪路。
薩頓的答案,已經寫在了真實經驗流的設想中。而他山科技即將用一座機器人幼兒園,把這個答案變成可執行的工程方案,讓具身智能在真實的物理世界中,學會在“錯誤”中成長。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.