![]()
編輯|Sia
那個(gè)一句話生成完整物理世界、做出 GitHub 最大開源機(jī)器人項(xiàng)目的團(tuán)隊(duì),又出手了。
![]()
去年底,Genesis 物理引擎一經(jīng)開源,就在機(jī)器人圈刷屏:只需要一句話,就能生成可交互的物理世界,用來訓(xùn)練和測(cè)試機(jī)器人。
現(xiàn)在,這家創(chuàng)下硅谷具身智能賽道最大種子輪融資紀(jì)錄(1.05 億美元)的 Genesis AI,終于公布了自己的首個(gè)機(jī)器人基礎(chǔ)模型 GENE-26.5。
![]()
它能自主完成一個(gè)涉及 20 多步操作的烹飪?nèi)蝿?wù),還能解魔方、彈鋼琴、制作奶昔、操作實(shí)驗(yàn)室移液、整理線束…… 這些是長(zhǎng)時(shí)序,需要精細(xì)力控、雙手協(xié)調(diào)、in-hand manipulation 和工具使用的任務(wù),遠(yuǎn)超很多機(jī)器人 demo 的簡(jiǎn)單抓取或重復(fù)動(dòng)作,且是完全自主、1x 真實(shí)速度播放。
Genesis 表示,這些任務(wù)不是為單點(diǎn) demo 單獨(dú)設(shè)計(jì)的,而是由同一個(gè)模型、同一套硬件平臺(tái)、同一套數(shù)據(jù)策略和同一套控制棧完成。
視頻一經(jīng)放出,立刻刷屏,也把不少機(jī)器人從業(yè)者看炸了。
Eclipse Ventures 合伙人 Seth Winterroth 在社交平臺(tái)上直言,自己在機(jī)器人行業(yè)前沿待了十多年,見過過去幾年幾乎所有號(hào)稱實(shí)現(xiàn)「通用操作能力」突破的團(tuán)隊(duì)。
但 Genesis 放出的東西,「和自己之前見過的完全不是一個(gè)級(jí)別」。
![]()
![]()
![]()
![]()
![]()
![]()
GENE-26.5 能做什么?
官方演示里,最有代表性的任務(wù)是做飯。
這是一個(gè)約 4 分鐘的長(zhǎng)程任務(wù),包含 20 多個(gè)子任務(wù)。機(jī)器人需要單手打蛋、切番茄、用毛巾、鹽磨、打蛋器、刀、鍋鏟、煎鍋等工具,還要完成雙手協(xié)同操作。
![]()
另一個(gè)更接近商業(yè)化應(yīng)用的場(chǎng)景,是實(shí)驗(yàn)室移液。
機(jī)器人要抓取移液槍、插入槍頭、轉(zhuǎn)移液體、密封試管、按下離心機(jī)的小按鈕,再把試管放入轉(zhuǎn)子中。這個(gè)流程要求毫米級(jí)精度、工具使用、精細(xì)手部協(xié)調(diào),以及對(duì)小尺寸物體的穩(wěn)定操作。
![]()
還有一個(gè)炫技但很說明問題的任務(wù):解魔方。Genesis 稱,這是他們所知第一次有通用雙手機(jī)器人系統(tǒng)完成魔方求解。它不是靠特殊機(jī)械夾具,而是用外部求解器生成動(dòng)作指令,再由模型執(zhí)行。
![]()
他們甚至還讓機(jī)器人挑戰(zhàn)了 Rush E 鋼琴曲。這首曲子以高難度著稱,超出普通人類極限。前段時(shí)間,朗朗在巴黎里昂車站與鋼琴博主斗琴彈的就是這個(gè)曲子。
![]()
工業(yè)場(chǎng)景里,則包括線束整理。這被 Genesis 稱為汽車行業(yè)的圣杯任務(wù)之一,因?yàn)榫€纜、膠帶等軟體物體非常難處理,需要雙手協(xié)同、柔性物體控制和精確纏繞。
![]()
更關(guān)鍵的是,對(duì)于演示任務(wù)中的大多數(shù)挑戰(zhàn)性技能,GENE 只需要不到 1 小時(shí)的任務(wù)特定機(jī)器人數(shù)據(jù)。對(duì)于 20 秒以內(nèi)的技能,這相當(dāng)于少于 200 條 episode。
這正是 Genesis 想證明的能力:不是每個(gè)任務(wù)都從零訓(xùn)練,而是讓機(jī)器人越來越接近少量數(shù)據(jù)快速部署。
不是只把模型訓(xùn)大
然而,Genesis 并不認(rèn)為通用操作能靠「把模型訓(xùn)大」直接解決。
Genesis 聯(lián)合創(chuàng)始人兼 CEO 周銜的說法:
模型一直是目標(biāo),因?yàn)楦玫哪P鸵馕吨玫闹悄堋?/p>
但他們很快意識(shí)到,光做模型還不夠。機(jī)器人不是純數(shù)字 AI,它需要模型、傳感器、執(zhí)行器、控制系統(tǒng)、數(shù)據(jù)采集和評(píng)測(cè)體系一起工作。
任何一層不夠強(qiáng),都會(huì)拖累整體表現(xiàn)。
于是,Genesis 選擇了全棧路線。GENE-26.5 也不是一個(gè)孤立模型,而是一整套系統(tǒng),包括:
接近人手的機(jī)器人硬件、低成本人類數(shù)據(jù)采集體系、從零構(gòu)建的仿真評(píng)測(cè)棧、面向機(jī)器人的多模態(tài)基礎(chǔ)模型,以及低延遲高精度控制系統(tǒng)。
這就是 Genesis 所說的 full-stack robotics。
仿真,成了模型迭代加速器
機(jī)器人模型還有一個(gè)老問題:評(píng)測(cè)太慢。一個(gè)機(jī)器人、一個(gè)人類評(píng)估員、一次只能跑一個(gè)任務(wù)。每次模型 checkpoint 都要實(shí)機(jī)測(cè)試,效率極低。
Genesis 的解法,是把仿真系統(tǒng)作為閉環(huán)評(píng)測(cè)核心。
他們認(rèn)為,真實(shí)世界評(píng)測(cè)當(dāng)然重要,但仿真在可控性、可復(fù)現(xiàn)性和規(guī)模化上優(yōu)勢(shì)巨大。GENE-26.5 的開發(fā)中,Genesis 構(gòu)建了大量仿真評(píng)測(cè)任務(wù),覆蓋不同光照、背景、物體屬性、場(chǎng)景配置和任務(wù)指令。
![]()
官方給出的一個(gè)說法是:圖中的每個(gè)數(shù)據(jù)點(diǎn)都代表 200 個(gè)評(píng)測(cè)設(shè)置、超過 150 小時(shí)機(jī)器人執(zhí)行時(shí)間;如果放到真實(shí)世界里做,整張圖需要 2700 小時(shí)的人機(jī)評(píng)測(cè)。
這也是他們?nèi)ツ觊_源 Genesis 物理引擎的意義所在。仿真不是展示工具,而是機(jī)器人基礎(chǔ)模型迭代的加速器。
一雙「人手」,為什么這么重要?
其新一代 Genesis Hand 1.0,被設(shè)計(jì)成和人手 1:1 尺寸匹配,擁有 20 個(gè)主動(dòng)、可反驅(qū)自由度,手掌和手指覆蓋柔性材料,用來模擬人類皮膚的軟接觸特性。
![]()
![]()
為什么一定要做人形手?今天很多機(jī)器人公司還在用兩指夾爪,因?yàn)樗?jiǎn)單、穩(wěn)定、工程上好控制。但問題也很明顯:它和人類真實(shí)操作世界的方式差太遠(yuǎn)。
Genesis 的判斷是,如果機(jī)器人手能盡可能接近人手,就能大幅縮小機(jī)器人研究里常說的「具身差距」。這樣一來,人類日常工作中的動(dòng)作數(shù)據(jù),就更容易遷移到機(jī)器人身上。
這也是 Genesis 自研機(jī)器人手的核心邏輯:不是為了炫技,而是為了收集更多可用數(shù)據(jù)。
公司聯(lián)合創(chuàng)始人 Théophile Gervet 表示,接近人手的設(shè)計(jì)可以讓他們收集到比過去更多的數(shù)據(jù),從而訓(xùn)練出能完成更多任務(wù)的模型。
真正的關(guān)鍵,是那只數(shù)據(jù)手套
在技術(shù)博客里,Genesis 反復(fù)強(qiáng)調(diào)一個(gè)觀點(diǎn):世界上最有價(jià)值的物理技能,藏在人類雙手的隱性知識(shí)里。
裝配工的手感、實(shí)驗(yàn)員的精度、廚師的速度,這些能力過去幾乎沒有被系統(tǒng)記錄下來。為此,Genesis 構(gòu)建了一個(gè)以人為中心的數(shù)據(jù)引擎,主要包括三類數(shù)據(jù):
- 一類是手套數(shù)據(jù),采集高精度手部運(yùn)動(dòng)和觸覺信號(hào);
- 一類是第一視角視頻,記錄真實(shí)任務(wù)中的自然行為;
- 還有一類是第三視角視頻,用互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)覆蓋更多物理交互場(chǎng)景。
![]()
其中最關(guān)鍵的,是他們自研的數(shù)據(jù)采集手套。這只手套使用 EMF 手指追蹤和密集觸覺傳感,可以在不明顯干擾人類工作的情況下,把真實(shí)工作過程變成機(jī)器人訓(xùn)練數(shù)據(jù)。
Genesis 的設(shè)想是,未來實(shí)驗(yàn)室技師、制造業(yè)工人等都可以在正常工作時(shí)佩戴這種手套。相比笨重的數(shù)據(jù)采集設(shè)備,它更輕、更便宜,也更接近很多行業(yè)本來就在使用的安全手套。
這也是 Genesis 給出的通用操作擴(kuò)展路徑:先在人類演示數(shù)據(jù)上預(yù)訓(xùn)練,再用少量機(jī)器人數(shù)據(jù)對(duì)齊,最后通過真實(shí)世界和仿真反饋持續(xù)迭代。
不過,這里也有一個(gè)現(xiàn)實(shí)問題:工人是否愿意戴著手套和攝像頭,去訓(xùn)練未來可能替代自己的機(jī)器人?
Genesis 方面目前還沒有給出明確答案,只表示相關(guān)細(xì)節(jié)還沒完全確定,是否額外支付報(bào)酬也會(huì)由客戶和員工之間決定。
![]()
![]()
![]()
這些結(jié)果共同突顯了一個(gè)明顯的趨勢(shì):擴(kuò)展數(shù)據(jù)和計(jì)算能力可以提高泛化和適應(yīng)效率。
為了讓模型真正聽話,他們還重做了控制棧
Genesis 還在博客里披露了一個(gè)容易被忽略、但非常關(guān)鍵的細(xì)節(jié):他們替換了雙臂機(jī)器人原廠控制器,自己重寫了一套控制中間件。
原因是,機(jī)器人執(zhí)行動(dòng)作時(shí),模型輸出和真實(shí)電機(jī)動(dòng)作之間會(huì)累積延遲、跟蹤誤差和控制器偽影。
對(duì)于從人類動(dòng)作中學(xué)習(xí)的機(jī)器人來說,這些誤差會(huì)放大人到機(jī)器人的差距。
Genesis 自研控制系統(tǒng)后,端到端延遲最低可做到3 毫秒;在 15cm 圓形軌跡跟蹤測(cè)試中,原廠控制器平均誤差約20mm,他們的系統(tǒng)降到約2mm,相當(dāng)于提升一個(gè)數(shù)量級(jí)。
![]()
Genesis AI 的自研硬件與模型在控制精度上,相比于現(xiàn)成解決方案(Off-the-shelf)的顯著優(yōu)勢(shì)。
這解釋了為什么 Genesis 一再強(qiáng)調(diào)「全棧」。不是為了技術(shù)敘事好聽,而是因?yàn)樵跈C(jī)器人里,模型、硬件、控制、數(shù)據(jù)和評(píng)測(cè)必須同時(shí)成立。
下一個(gè)目標(biāo):不只是手,而是全身機(jī)器人
GENE-26.5 這個(gè)名字也有玄機(jī):其中的26.5 指向 2026 年 5 月
Genesis 表示,這只是第一版,之后還會(huì)快速迭代。公司認(rèn)為,機(jī)器人模型迭代的真正瓶頸在評(píng)估,而他們自研的仿真系統(tǒng)可以幫助加速訓(xùn)練和測(cè)試。
總結(jié)來看,GENE-26.5 不是 Genesis 的終點(diǎn),更像是它的第一張系統(tǒng)能力展示牌。它想證明的是:通用機(jī)器人并不是先學(xué)會(huì)走路,再慢慢學(xué)會(huì)干活。
相反,真正有價(jià)值的入口,可能是一雙能穩(wěn)定、靈巧、可泛化地和世界接觸的手
因?yàn)榇蠖鄶?shù)體力勞動(dòng),本質(zhì)上不是機(jī)器人在世界里移動(dòng),而是改變世界。導(dǎo)航可以把世界簡(jiǎn)化成障礙物和可通行空間;行走主要處理和地面的接觸,規(guī)律相對(duì)穩(wěn)定。
但操作不一樣。機(jī)器人要面對(duì)未知物體的形狀、重量、摩擦、動(dòng)態(tài)變化,還要在長(zhǎng)任務(wù)鏈里保持毫米級(jí)精度。一個(gè)動(dòng)作偏幾毫米,后面可能全錯(cuò)。
所以 Genesis 認(rèn)為,機(jī)器人如果能可靠地和物理世界發(fā)生復(fù)雜接觸,其他能力才有意義。
Genesis 的路線也很清晰:用接近人手的硬件縮小具身差距;用人類工作數(shù)據(jù)擴(kuò)大訓(xùn)練規(guī)模;用仿真系統(tǒng)加速閉環(huán)評(píng)測(cè);用低延遲控制減少執(zhí)行誤差;最后,把這一切喂給機(jī)器人基礎(chǔ)模型。
也難怪投資人會(huì)把它稱作「最強(qiáng)通用操作演示」。
公司接下來還計(jì)劃發(fā)布首個(gè)通用機(jī)器人,而且不是只有一雙手,而是完整的全身機(jī)器人。換句話說,Genesis 這次展示的不是終點(diǎn),而是起手式。
機(jī)器人領(lǐng)域,新的狠角色已經(jīng)亮牌。
https://www.genesis.ai/blog/gene-26-5-advancing-robotic-manipulation-to-human-level
文中視頻鏈接:https://mp.weixin.qq.com/s/6jbIVQzSQ2nf1HY1xk-BOg
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.