4月19日,北京,2026人形機器人半程馬拉松鳴槍。
21.0975公里的賽道上,300多位人形機器人選手邁開雙腿,像真正的運動員一樣向前奔跑。賽道兩側(cè),觀眾舉起手機,無人機低空掠過,轉(zhuǎn)播設(shè)備緊緊跟隨,這是一場屬于機器人的競技盛宴,全世界的目光都在聚焦于此。
不少人注意到,賽道邊還有一位“機器人攝像師”,背著一套專業(yè)拍攝設(shè)備,靈活地穿梭在賽道側(cè)方,時而加速跟拍領(lǐng)跑選手,時而放慢腳步捕捉掉隊選手的細節(jié)。它的運鏡流暢、構(gòu)圖精準(zhǔn),甚至在選手之間的縫隙中找到了幾個堪稱教科書級的動態(tài)特寫鏡頭。
![]()
(當(dāng)虹科技“機器人攝像師”拍攝的比賽畫面)
現(xiàn)場觀眾有人忍不住問:這位“機器人攝像師”的操作員在哪?
答案是:杭州。一家咖啡廳里。
操控這臺四足機器人的工程師,桌前放著一杯美式,眼前的手機上實時顯示著1200公里外北京賽場的畫面。他滑動屏幕,千里之外的“機器人攝像師”就在賽道上改變跟拍路線,鏡頭也緩緩轉(zhuǎn)向。整個過程延遲極小,就像他本人站在賽場邊上一樣。
令人意外的是,這場看似不可能實現(xiàn)的產(chǎn)品驗證,竟由一家不生產(chǎn)機器人本體的公司當(dāng)虹科技完成。
他們目前正在探索與驗證的東西,遠不止“機器人攝像師”拍攝機器人跑馬拉松這么簡單。
01.
機器人行業(yè)最不愿意面對的真相
本屆馬拉松賽場,近四成人形機器人在試圖提升自主性,減少對近距離遙操的依賴。然而,這正是當(dāng)下機器人行業(yè)最不愿意面對的真相。
企業(yè)是為了展示自主性,但真實的場景中,完全自主的機器人其實離我們還很遠。
因為現(xiàn)實世界里,一只突然出現(xiàn)的動物、一輛違停的貨車、一灘沒人清理的積水、一段信號突然中斷的盲區(qū),任何一個教科書上沒寫的意外,都可能讓一臺自主機器人當(dāng)場宕機。“理想環(huán)境”這四個字,本身就是一個巨大的限定條件。
更關(guān)鍵的問題是:當(dāng)機器人在核輻射區(qū)域、火山口、地震廢墟里遇到意外時,你不可能派一個人跑過去重啟它。
大家可能還記得,2011年福島第一核電站事故后,機器人被大量用于高輻射、狹窄、人員難以進入的環(huán)境調(diào)查與后續(xù)退役作業(yè),但第一批機器人到了現(xiàn)場后卻犯難了,不是因為輻射影響硬件,而是在極端環(huán)境下,通信鏈路斷了,數(shù)據(jù)傳不出來,操作員看不見里面的情況。
我們制造機器人的初衷,是讓它代替人去到人不想去、不能去、去了有危險的地方。但現(xiàn)實是,大部分機器人依然離了人就趴窩,部分場景也不放心完全放手。
近期我們在調(diào)研中就聽到一個很現(xiàn)實的故事。廣東一家做清潔機器人的公司,產(chǎn)品已經(jīng)賣到全國幾十個城市。每當(dāng)新項目交付,都需要派工程師飛到當(dāng)?shù)兀?-5天時間完成機器人在新環(huán)境中的部署調(diào)試,建圖、標(biāo)路徑、調(diào)參數(shù)、跑測試。一個熟練的部署工程師,全公司不超過10個。但每個月要交付的項目有幾十個。人飛不過來,而且后期出現(xiàn)問題,還要往現(xiàn)場跑。
這就遠程遙操價值在2026年被越來越多人看見的原因。它不是一個錦上添花的功能,而是機器人從能用到敢用,從近距離遙操到具身智能之間,那座必須跨過去的橋。
02.
從替身到自主,這座橋如何跨越?
這座橋如何跨過?并不是一躍而過。機器人大講堂在與多位行業(yè)專家交流后發(fā)現(xiàn),這座橋少不了四道“橋拱”支撐,并且每個支撐都指向一個無法繞開的現(xiàn)實需求。
第一道支撐是機器人作為替身,幫助人類去危險或者去不了的地方。福島核泄漏十五年過去了,前面提到的問題,依然是全球核工業(yè)的噩夢。其實,不只是核電站。火山口的氣體采樣、地震廢墟里的生命搜索、深海管道的裂縫檢測、高空輸電線路的覆冰巡查,所有這些場景都有一個共同特征,人進不去,但信息必須出來。
前面提到的當(dāng)虹團隊,去年完成了一次技術(shù)驗證,操控一臺四足機器人,跨越1700公里,從遠端控制室實時操控它走進烏蘭察布一座火山的邊緣地帶,完成了氣體數(shù)據(jù)采集和高清影像回傳。這無疑就是人類替身的最佳表現(xiàn)形式。
![]()
(跨越1700多公里,當(dāng)虹科技工作人員“隔空”指揮機器狗探火山)
第二道支撐是分身能力,讓一個專家變成十個。前面提到的清潔機器人公司,后來他們接入了遠程遙操模塊。部署工程師坐在總部,遠程接管機器人的傳感器和運動控制,在線完成環(huán)境建圖和路徑規(guī)劃。一個人一天可以處理3-4個城市的部署任務(wù),效率直接翻了好幾倍。
“讓稀缺的專家資源脫離物理空間的限制,實現(xiàn)一人多機、一人多地的效率躍升。”北京一所重點大學(xué)控制學(xué)院的教授也和我們說,這對于許多已經(jīng)實現(xiàn)批量化部署機器人廠商來說尤其關(guān)鍵。如果你的產(chǎn)品每賣到一個新客戶,都需要派一個人去駐場,那你的商業(yè)模型永遠是線性的。只有當(dāng)你能遠程交付、遠程運維、遠程處理異常時,你的業(yè)務(wù)才真正可能指數(shù)級增長。
第三道支撐是數(shù)據(jù)。對于關(guān)注具身智能賽道的玩家來說,這可能是最性感的部分。目前全球具身智能領(lǐng)域最大的瓶頸是什么?不是算法,不是算力,不是硬件。而是數(shù)據(jù)。更準(zhǔn)確地說,是真實世界中、真實物理交互的操作數(shù)據(jù)。
大語言模型可以在互聯(lián)網(wǎng)上找到幾乎無限的文本數(shù)據(jù)來訓(xùn)練。但一臺機器人在不規(guī)則地形上邁步、在復(fù)雜障礙間穿行、在變化光照下識別目標(biāo)的操作數(shù)據(jù),從哪里來?答案是從人類的操控中來。對一些復(fù)雜、危險場景來說,超遠距離遠程遙操在實現(xiàn)替身、分身的同時,還在同步積累數(shù)據(jù)——操作員在這個時刻看到了什么畫面,做出了什么決策,發(fā)出了什么指令,機器人的關(guān)節(jié)如何響應(yīng),地形如何變化,任務(wù)是否完成。這些數(shù)據(jù)都能夠成為未來具身智能模型的燃料。
最后一道支撐是兜底,遠程遙控其實也是自主智能的最后一道安全網(wǎng)。這一層可能是最容易被忽視的,也是最重要的。目前人形機器人與具身智能行業(yè)里最主流的機器人部署模式,叫自主化,機器人按預(yù)設(shè)路線自動行走,自動拍照,自動記錄數(shù)據(jù),不需要人干預(yù)。但每一個做過現(xiàn)場部署的人都知道,不需要人干預(yù)只是一個美好的愿望。
03.
為什么這件事比看起來難十倍?
看到這里,可能有人會覺得:遠程遙操不就是視頻傳輸+遠程控制嗎?視頻會議不是都在用嗎?無人機沒有遠程操控不是也在飛嗎?
如果你真的這么想,說明你還沒走進過現(xiàn)場。用一個最直觀的對比來說明遠程遙操與普通視頻通信之間的鴻溝:你在辦公室里開視頻會議,畫面卡了一秒,你最多皺個眉頭。但一臺機器人在核電站內(nèi)部執(zhí)行精密操作,畫面卡了一秒,操作員可能在那一秒內(nèi)發(fā)出了一條錯誤的運動指令,導(dǎo)致機器人撞上了反應(yīng)堆容器壁。
再比如無人機操控依賴圖傳可以飛很遠,這是因為無人機是在天上飛,缺少遮擋,而機器人我們要放在狹小、復(fù)雜的環(huán)境里面,圖傳技術(shù)在建筑物遮擋的情況下畫面很快就會出現(xiàn)卡頓。
這就是延遲這個參數(shù)在不同場景下的分量差異。
那么遠程遙操到底難在哪? 其實,遠程遙操對通信鏈路的要求,至少要闖過四道關(guān)。每一項,都是一道工業(yè)級的硬題目。
![]()
(跨越1300公里,身處山西文博會現(xiàn)場的當(dāng)虹科技工作人員,遠程操控機器人直播西湖)
首先是延遲問題。人類神經(jīng)系統(tǒng)從眼睛接收畫面到大腦產(chǎn)生反應(yīng),極限是100毫秒左右。也就是說,如果視頻傳輸?shù)难訒r超過100ms,操作員的反應(yīng)就會出現(xiàn)時延,他看到的畫面已經(jīng)是過去式,而他基于過去的畫面做出的操作,又會在未來的某個時刻才生效。這種時延在日常視頻通話中可以忍受,在遠程操控精密機器人時可能是致命的。
其次是畫質(zhì)。機器人回傳的畫面不是給人看個大概的,而是需要提供給操作員做精確決策。變電站巡檢要看清表計讀數(shù),管道巡檢要看清焊縫裂紋,夜間巡邏要在幾乎全黑的環(huán)境下識別人形。這就要求在極限壓縮的前提下,還要做畫質(zhì)增強,例如去抖、去霧、夜視增強、超分辨率重建,這些都非常考驗一個公司的技術(shù)積淀。
第三道關(guān),是我們要提到的多模態(tài)。不同模態(tài)的信息作用不一樣,比如攝像頭最大的優(yōu)勢,是信息豐富,但容易受到光照等環(huán)境影響;雷達點云數(shù)據(jù)則擅長識別障礙物的準(zhǔn)確位置,擅長回答“離我多遠”“空間結(jié)構(gòu)是什么樣”。
目前空間視頻、激光雷達、紅外與多光譜、單目深度感知等先進技術(shù),更多用于智能網(wǎng)聯(lián)汽車等領(lǐng)域,尚未在機器人行業(yè)內(nèi)得到廣泛應(yīng)用。我們了解到的案例是,當(dāng)虹科技已經(jīng)能對機器人的多模態(tài)數(shù)據(jù)進行處理了,這樣操控人員不僅能看到高清影像,還能通過三維空間數(shù)據(jù)感知地形起伏、障礙物距離,獲得接近真實的臨場感。
![]()
(當(dāng)虹科技BlackEye Vision融合處理視頻、音頻、激光雷達、圖像、信令、文本等多模態(tài)數(shù)據(jù))
在解決延遲、畫質(zhì)、多模態(tài)的問題后,機器人想要進入更廣環(huán)境,想要哪里都能用,還有全網(wǎng)適配的問題。因為未來機器人的價值,恰恰體現(xiàn)在信號不好的地方,地下管廊、遠洋船舶、沙漠油田、高海拔礦區(qū)、火山口。這些場景的實際部署中,可能面臨4G、5G、衛(wèi)星、專網(wǎng)、自組網(wǎng)等不同通信環(huán)節(jié)。鏈路必須能識別所有網(wǎng)絡(luò)制式、適應(yīng)所有帶寬條件、在任何一種網(wǎng)絡(luò)上都跑得起來。甚至在短暫斷網(wǎng)后,還要能自動恢復(fù)連接、補傳關(guān)鍵數(shù)據(jù)。這些都對技術(shù)實現(xiàn)提出了近乎苛刻的要求。
這四道關(guān),任何一道單拿出來都夠一家公司啃幾年。全部做到工業(yè)級可用,需要的不是靈感,是積累。
04.
一個不像機器人公司的關(guān)鍵玩家
有意思的是,在遠程遙操這個領(lǐng)域,我們發(fā)現(xiàn)了開頭提到的這個很不尋常的角色——當(dāng)虹科技。
如果你在機器人領(lǐng)域沒聽過這個名字,那也很正常。因為這家公司過去三十年干的事情,和機器人關(guān)系并不大。1994年,這家公司開始做視頻編碼。那時候中國還在用模擬電視,數(shù)字電視都還是個概念。此后的三十年里,他們給央視做了8K超高清編碼系統(tǒng),給衛(wèi)星運營商做了衛(wèi)星視頻壓縮傳輸。他們的核心技術(shù)一直在一條線上:怎么把又多又重的視頻數(shù)據(jù),在又窄又不穩(wěn)定的通信管道里,又快又清晰地傳過去。
視頻壓縮、低延時傳輸、弱網(wǎng)適配、畫質(zhì)增強,這些當(dāng)虹科技在做的關(guān)鍵詞串起來看,恰恰和前面列出的遠程遙操的四道技術(shù)難題有著高度重合。這不是巧合,更像是技術(shù)演化的必然路徑。
我和同事在調(diào)研后感嘆,當(dāng)虹做遠程遙操,不是跨界,而是降維。他們用三十年積累的視頻編碼能力,把遠程遙操的端到端延時壓到了80毫秒,比人類神經(jīng)反應(yīng)極限更快,這意味著操作員看到的畫面和真實場景之間幾乎沒有時差,操控手感接近就在現(xiàn)場。
他們的視頻壓縮算法,常規(guī)場景下能實現(xiàn)10倍左右的壓縮比,保證畫質(zhì)基本不變,在衛(wèi)星鏈路等極限帶寬場景下,壓縮比可以拉到10-100倍。這意味著衛(wèi)星鏈路上,其依然能傳輸可用的高清視頻流,這在任何需要遠程控制的行業(yè)都是相當(dāng)硬核的能力。
還有多模態(tài)融合傳輸、全網(wǎng)自適應(yīng)切換、AI畫質(zhì)修復(fù)與增強,這些他們所具備的能力也并不是重頭研發(fā)的,而是在過去三十年的廣電、航天、公安項目中反復(fù)打磨過的成熟技術(shù)模塊,現(xiàn)在被重新融合,裝進了一個叫BlackEye Vision的超遠距離遠程遙操系統(tǒng)里。這使得一個做了三十年視頻傳輸?shù)墓荆贸鲆惶讖难訒r到壓縮到畫質(zhì)到網(wǎng)絡(luò)全鏈條打通的解決方案,突然出現(xiàn)在機器人賽道上,卻并不令人意外。
當(dāng)然,更值得關(guān)注的是他們選擇的切入領(lǐng)域。“我們不生成機器人‘身體’,但賦予機器人‘靈魂’和‘技能’。”在調(diào)研中,當(dāng)虹產(chǎn)品經(jīng)理提到的這句話讓我們?yōu)橹徽稹T瓉恚?dāng)虹不做機器人本體。不做關(guān)節(jié)電機,不做運動控制算法,不做具身大模型。他們只做一件事:通信鏈路層和多模態(tài)融合。用一個可能不太嚴(yán)謹(jǐn)?shù)苤庇^的比喻,如果把機器人比作人的身體,具身大模型是大腦,運動控制是小腦和脊髓,那當(dāng)虹做的就是神經(jīng)系統(tǒng),連接大腦和四肢的那根高速通道。沒有神經(jīng)系統(tǒng),大腦再聰明,四肢再靈活,也只是一堆互不相關(guān)的零件。但當(dāng)虹將它們串了起來。
![]()
(跨越1700多公里,當(dāng)虹科技工作人員“隔空”指揮機器狗探火山)
最終,當(dāng)虹提供的標(biāo)準(zhǔn)化遠程遙操能力模塊,可以被任何機器人本體廠商集成。無論是四足機器狗、輪式巡檢機器人、人形機器人,接入這個模塊就能獲得超低延時、超高壓縮、多模態(tài)融合的遠程遙操能力。
對本體廠商來說,這意味著不需要自己重新造一遍通信鏈路的輪子。面向電力、公安、石油、應(yīng)急等行業(yè)客戶,當(dāng)虹提供端到端的巡檢解決方案。不只是給你一個通信模塊,而是從機器人選型、任務(wù)規(guī)劃、遠程操控、數(shù)據(jù)回傳到報告生成的全鏈條交付。
對行業(yè)客戶來說,這意味著不需要自己去做機器人+通信+平臺的系統(tǒng)集成。當(dāng)虹還提供一個多機器人匯聚控制平臺。這類似一個操控中臺,能同時管理不同品牌、不同類型的多臺機器人,統(tǒng)一調(diào)度、統(tǒng)一監(jiān)控、統(tǒng)一數(shù)據(jù)管理。這個架構(gòu)讓我想到了一個類比:智能家居領(lǐng)域的米家。
在智能家居早期,每個品牌的設(shè)備都有自己的App、自己的協(xié)議、自己的生態(tài)。用戶買了五個品牌的設(shè)備,手機上要裝五個App。后來米家做了一件事:統(tǒng)一協(xié)議、統(tǒng)一平臺、統(tǒng)一控制,不管你是什么品牌的燈、什么品牌的鎖、什么品牌的攝像頭,接入米家就能統(tǒng)一管理。
機器人行業(yè)今天也面臨同樣的碎片化問題。一個電力公司可能同時采購了三家廠商的巡檢機器人,每家的操控系統(tǒng)互不兼容,數(shù)據(jù)格式各不相同。當(dāng)虹想做的,是在通信和控制這一層建立一個統(tǒng)一平臺,讓不同品牌的機器人都能說同一種語言。
這讓我們突然意識到,一個做了三十年視頻技術(shù)的老兵,正在用模塊+方案+平臺的三層架構(gòu),在機器人行業(yè)里構(gòu)建一個關(guān)于連接的基礎(chǔ)設(shè)施。
05.
結(jié)語與未來
人形機器人馬拉松背后,其實讓更多人看到一個更本質(zhì)的問題上。
行業(yè)里有一種聲音認為,遠程遙操是機器人走向具身智能必經(jīng)之路,但只是一個過渡階段的產(chǎn)物,等具身智能成熟了,機器人完全自主了,遙操就沒用了。
這種觀點的邏輯缺陷在于,它假設(shè)了一個機器人100%自主的終局。但如果你看看自動駕駛行業(yè)的發(fā)展就會明白,L5級別的完全自動駕駛,喊了十年了,至今沒有任何一家公司敢說不需要人類介入。
機器人也是一樣。即使在最樂觀的技術(shù)預(yù)期下,未來十年內(nèi),人類遠程監(jiān)督+異常接管仍然會是絕大多數(shù)商用機器人的標(biāo)配運營模式。更重要的是,正如前文所述,遠程遙操本身就是具身智能訓(xùn)練數(shù)據(jù)的核心來源。如果沒有大量的人類遙操數(shù)據(jù),具身大模型的訓(xùn)練在固定訓(xùn)練場必然存在局限性。
所以遠程遙操不會消失。它會從操控工具演化為數(shù)據(jù)管道,最終成為機器人產(chǎn)業(yè)的基礎(chǔ)設(shè)施。
就像互聯(lián)網(wǎng)時代的TCP/IP協(xié)議,你不會天天想起它的存在,但沒有它,整個數(shù)字世界就無法運轉(zhuǎn)。
遠程遙操之于機器人,也將如此。
![]()
(工程師使用手機遙操機器人拍攝馬拉松中段)
回到文章開頭那個杭州咖啡廳里的工程師。
他那天在北京賽道上操控的只是一臺攝像機器狗,完成的只是一次直播跟拍任務(wù)。但他所使用的那條通信鏈路,已經(jīng)實現(xiàn)了80毫秒延時、千公里級距離、公網(wǎng)環(huán)境下的實時操控。這條鏈路所承載的可能性,遠遠超出了一場馬拉松轉(zhuǎn)播。
核電站、火山口、地震廢墟、深海、礦井、太空,所有人類想抵達但無法抵達的地方,都在等待這樣一條鏈路。
機器人跑完了馬拉松。但對于遠程遙操來說,真正的長跑才剛剛開始。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.