<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      拒絕“出廠即巔峰”!具身訓練系統(tǒng)再進化:LWD讓機器人自主開啟“打怪練級”

      0
      分享至


      智東西
      作者 江宇
      編輯 漠影

      當前具身智能的發(fā)展,正卡在一個越來越明確的瓶頸上:數(shù)據(jù)規(guī)模與真實世界經(jīng)驗的不足

      過去幾年,VLA等大模型讓機器人在“預訓練階段”取得了顯著進展,但一旦進入真實部署環(huán)境,問題隨之暴露——面對復雜、多變的物理世界,模型能力很難持續(xù)提升,依然高度依賴人工標注數(shù)據(jù)和重復訓練

      這也意味著,具身智能尚未真正進入“規(guī)模化增長”的階段。

      僅依賴實驗室數(shù)據(jù)或仿真環(huán)境,很難支撐機器人能力的持續(xù)演進;真正能夠帶來躍遷的,仍然是來自真實世界、持續(xù)積累的高質(zhì)量交互數(shù)據(jù)。但問題在于:這些數(shù)據(jù)從哪里來?

      現(xiàn)階段,大量訓練數(shù)據(jù)仍依賴人工示教或遙操作采集,規(guī)模有限、成本高昂,且難以覆蓋開放環(huán)境中的復雜長尾場景。

      要讓數(shù)據(jù)規(guī)模真正“滾動起來”,唯一可行的路徑,是讓機器人走出實驗室,在真實場景中長期運行,并將交互經(jīng)驗持續(xù)回流。

      也正是在這一背景下,上海創(chuàng)智學院和智元具身研究中心聯(lián)合發(fā)布了最新成果羅劍嵐團隊提出LWD(Learning While Deploying)大規(guī)模強化學習訓練系統(tǒng)。該工作由創(chuàng)智學院導師,智元首席科學家羅劍嵐團隊完成。嘗試將“部署”本身轉化為學習過程的一部分。


      這項工作并不聚焦單一算法突破,更給出了一種更具工程可行性的方案——通過在真實世界中持續(xù)運行機器人,并將其行為數(shù)據(jù)統(tǒng)一回流與更新,讓每一臺機器人既是任務執(zhí)行者,也是持續(xù)產(chǎn)生學習信號的數(shù)據(jù)源,從而推動通用策略在部署過程中不斷進化

      一、讓數(shù)據(jù)飛輪在物理世界自主狂奔

      傳統(tǒng)模仿學習范式下,非完美的運行軌跡往往被視為“廢數(shù)據(jù)”直接丟棄,機器人只能從成功的人類演示中刻板地模仿。

      LWD的核心顛覆在于,它構建了一個由真實世界強化學習驅動的閉環(huán)數(shù)據(jù)飛輪

      在這個飛輪中,機器人集群在真實任務中自主執(zhí)行并積累異構的交互經(jīng)驗,無論是完美的成功軌跡、試錯后的自我恢復、還是人類為了覆蓋邊界情況而引導的失敗案例,都會被統(tǒng)一輸送至云端的共享重放緩沖區(qū)。

      強化學習機制使得這些在傳統(tǒng)視角下的“失敗”或“意外”數(shù)據(jù),全部轉化為了指導模型規(guī)避錯誤、優(yōu)化價值評估的寶貴經(jīng)驗。

      隨著集群部署規(guī)模的擴大和運行時間的累積,數(shù)據(jù)飛輪的轉速不斷提升,云端持續(xù)更新的強策略又會定期下發(fā)給機器人,形成真正的自主造血閉環(huán)。

      二、強化學習算法深層進化:在嘈雜數(shù)據(jù)中,精準捕捉“進步”信號

      將強化學習應用于真實世界部署的大規(guī)模機器人集群,面臨著極端的算法挑戰(zhàn)。

      不同機器人在不同任務中產(chǎn)生的數(shù)據(jù)極其龐雜,包含著完全不同的指令、長短不一的操作過程,以及非常稀疏的獎勵反饋。

      為了在這些充滿噪聲的“異質(zhì)數(shù)據(jù)”中穩(wěn)定提取有用的學習信號,LWD創(chuàng)新性地引入了分布隱式價值學習(DIVL)算法。

      簡單來說,以往的算法像是在給機器人的表現(xiàn)打一個固定的“平均分”,但在復雜環(huán)境中這種打分極不準確;而DIVL則讓機器人學會去理解表現(xiàn)的“概率分布”,它不再只看一個點,而是觀察整個可能性的區(qū)間。

      這讓機器人在很少得到明確獎勵的情況下,也能精準判斷哪些動作風險更高、哪些動作更值得嘗試,從而有效解決了評價不準、容易過度樂觀的老大難問題。

      與此同時,針對VLA模型通過多步去噪產(chǎn)生動作的特點,傳統(tǒng)的更新方式計算量大且容易跑偏。

      LWD結合了Q-learning with Adjoint Matching(QAM),為模型找到了一條數(shù)學上的“進化捷徑”,讓復雜的策略更新不再需要推倒重來,而是通過局部調(diào)整就能實現(xiàn)快速迭代,保證了機器人在大規(guī)模部署時的學習效率。


      三、煉就“通才策略”:挑戰(zhàn)5分鐘長程復雜操作的極限成功率

      為了驗證這套訓練框架的實戰(zhàn)表現(xiàn),研究團隊在智元G1雙臂機器人集群上進行了大規(guī)模的真實世界部署測試

      測試涵蓋了八項極具挑戰(zhàn)性的多模態(tài)操作任務,包括四類考驗語義識別與泛化的商超貨架動態(tài)補貨任務,以及泡功夫茶、榨果汁、調(diào)酒、裝鞋入盒等四類長程連貫操作任務。


      ▲評測任務示意圖。(A)調(diào)制雞尾酒;(B)沖泡功夫茶;(C)制作果汁;(D)裝鞋入盒;(E)商超補貨。

      在這些持續(xù)時間長達5到8分鐘、包含數(shù)十個接觸豐富且存在長程依賴的物理交互任務中,LWD展現(xiàn)出了壓倒性的優(yōu)勢。


      ▲各任務逐步成功率的實驗結果

      實驗數(shù)據(jù)顯示,經(jīng)過在線真實經(jīng)驗積累后,LWD訓練出的單一通用策略在所有任務上的平均成功率達到了驚人的0.95,遠超純行為克隆(0.76)以及先進的離線強化學習基線如RECAP(0.86)和 Dagger-SOP(0.82)。


      ▲八項真實世界操作任務的主要結果,涵蓋四類商超補貨任務和四類長程任務。結果顯示,LWD(在線)取得了最高的整體平均成績,并在四項長程任務中全部獲得最高分,同時在商超補貨任務中也保持在最優(yōu)或接近最優(yōu)水平。


      ▲調(diào)制雞尾酒

      尤其在最考驗中間錯誤恢復與長期信用分配的長程任務中,LWD在線更新后的成功率實現(xiàn)了極大幅度的躍升,證明了基于物理世界經(jīng)驗的持續(xù)學習是突破復雜操作天花板的有效路徑。


      ▲圖中展示了功夫茶任務中一次成功執(zhí)行(左)和一次失敗執(zhí)行(右)的價值曲線。結果表明,所學習到的價值能夠對任務完成進度提供有意義的表征。

      結語:把“部署”變成能力增長起點,讓機器人在真實世界持續(xù)進化

      在具身智能的產(chǎn)業(yè)化進程中,LWD推動的不僅是算法框架的升級,更是機器人能力迭代方式的一次重要轉向。

      長久以來,業(yè)界習慣將“部署”視為模型訓練的終點,而LWD的提出證明了,自主改進應當成為通用機器人策略的基本屬性。

      學習不應是“出廠即封存的靜態(tài)能力”,而必須成為部署之后在真實世界里一直延續(xù)的進化過程。

      只有賦予機器人從海量無序的真實物理交互中自主提取“養(yǎng)分”、持續(xù)自我進化的能力,其才能真正打破被人工標注數(shù)據(jù)框定的舒適區(qū),在千行百業(yè)的復雜、開放場景中長久地釋放商業(yè)價值。


      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      馬德里半決賽菲斯惹了最不該惹的人,外媒稱辛納或退羅馬賽

      馬德里半決賽菲斯惹了最不該惹的人,外媒稱辛納或退羅馬賽

      網(wǎng)球之家
      2026-05-01 22:39:21
      蔚來練就爆款秘籍:15.98萬起的樂道L80,讓市值一夜暴漲百億

      蔚來練就爆款秘籍:15.98萬起的樂道L80,讓市值一夜暴漲百億

      超電實驗室
      2026-04-29 18:39:51
      阿斯麥CEO:讓中國繼續(xù)落后,銷往中國光刻機落后尖端技術10年!

      阿斯麥CEO:讓中國繼續(xù)落后,銷往中國光刻機落后尖端技術10年!

      聊歷史的阿稼
      2026-04-30 19:39:20
      “富人才不會把女兒養(yǎng)這么胖”,家長曬女兒喝60元礦泉水,被群嘲

      “富人才不會把女兒養(yǎng)這么胖”,家長曬女兒喝60元礦泉水,被群嘲

      番外行
      2026-04-22 14:51:19
      34年后,《縱橫四海》憑什么還能收割票房?

      34年后,《縱橫四海》憑什么還能收割票房?

      閃存獵手
      2026-04-16 11:05:49
      斯諾克運動拯救者:奧沙利文并非不可或缺,我們從來不缺天才球員

      斯諾克運動拯救者:奧沙利文并非不可或缺,我們從來不缺天才球員

      楊華評論
      2026-05-01 22:18:39
      美國防部與7家AI公司達成協(xié)議

      美國防部與7家AI公司達成協(xié)議

      界面新聞
      2026-05-01 19:46:04
      “反向泡腳”最為危險?醫(yī)生:60歲以上老人,不能犯3個泡腳習慣

      “反向泡腳”最為危險?醫(yī)生:60歲以上老人,不能犯3個泡腳習慣

      芹姐說生活
      2026-05-01 22:13:44
      李澤楷做夢也想不到,為他連生3個兒子的梁洛施,會與馬浴柯戀愛

      李澤楷做夢也想不到,為他連生3個兒子的梁洛施,會與馬浴柯戀愛

      借你一生
      2026-05-01 14:58:29
      川航小姐姐,紅裙黑絲,太美了

      川航小姐姐,紅裙黑絲,太美了

      微微熱評
      2026-05-01 17:34:57
      南朝第一才子,被公開處決了

      南朝第一才子,被公開處決了

      最愛歷史
      2026-04-29 15:36:43
      張凌赫片場兩度倒地!低血糖只是借口?身高190cm體重曝光引眾怒

      張凌赫片場兩度倒地!低血糖只是借口?身高190cm體重曝光引眾怒

      白面書誏
      2026-04-29 19:18:48
      張?zhí)鞇圻@衣服拉太開了吧

      張?zhí)鞇圻@衣服拉太開了吧

      小椰的奶奶
      2026-04-28 08:47:57
      倒反天罡,鄭州女子被兩條狗咬到見骨,狗主補辦狗證,反過來索賠

      倒反天罡,鄭州女子被兩條狗咬到見骨,狗主補辦狗證,反過來索賠

      千言娛樂記
      2026-05-01 13:18:59
      荷蘭經(jīng)濟部長曾言:是我讓安世脫離中國,這一切全部為荷蘭與歐洲

      荷蘭經(jīng)濟部長曾言:是我讓安世脫離中國,這一切全部為荷蘭與歐洲

      真實世界
      2026-04-30 17:46:41
      查爾斯在美國國會說“基督教是精神支柱”,議員們?nèi)w鼓掌——但你真的聽懂了嗎?

      查爾斯在美國國會說“基督教是精神支柱”,議員們?nèi)w鼓掌——但你真的聽懂了嗎?

      守望的田野
      2026-04-30 17:42:53
      因凡蒂諾宣布參加下屆國際足聯(lián)主席選舉,若當選將成唯一連任四屆主席

      因凡蒂諾宣布參加下屆國際足聯(lián)主席選舉,若當選將成唯一連任四屆主席

      懂球帝
      2026-05-01 10:23:10
      62339人!大連梭魚灣刷新紀錄

      62339人!大連梭魚灣刷新紀錄

      半島晨報
      2026-05-01 22:27:26
      許家印案塵埃落定,幫他瞞天過海14年的審計巨頭栽了

      許家印案塵埃落定,幫他瞞天過海14年的審計巨頭栽了

      流蘇晚晴
      2026-05-01 20:40:19
      三觀炸裂!44歲李小璐五一曝美照,網(wǎng)友:像包容成龍一樣包容她

      三觀炸裂!44歲李小璐五一曝美照,網(wǎng)友:像包容成龍一樣包容她

      小叨娛樂
      2026-05-01 18:17:44
      2026-05-01 23:16:49
      智東西 incentive-icons
      智東西
      智東西,AI產(chǎn)業(yè)新媒體,專注報道人工智能的前沿技術發(fā)展,和技術應用帶來的千行百業(yè)產(chǎn)業(yè)變革。
      11742文章數(shù) 117060關注度
      往期回顧 全部

      科技要聞

      DeepSeek發(fā)布多模態(tài)論文又連夜刪除

      頭條要聞

      8歲女孩跟隨鄰居長江游泳溺亡 鄰居曾抓住她又脫手

      頭條要聞

      8歲女孩跟隨鄰居長江游泳溺亡 鄰居曾抓住她又脫手

      體育要聞

      無奈!約基奇:這要在塞爾維亞 全隊早被炒了

      娛樂要聞

      馬筱梅產(chǎn)后身材恢復超好 現(xiàn)身戶外直播

      財經(jīng)要聞

      GPU神話松動,AI真正的戰(zhàn)場變了

      汽車要聞

      限時9.67萬起 吉利星越L/星瑞i-HEV智擎混動上市

      態(tài)度原創(chuàng)

      教育
      時尚
      游戲
      公開課
      軍事航空

      教育要聞

      五一首日熱度爆棚!秦淮區(qū)中招會傳來最新消息!

      這個夏天,彩色褲子又火了!

      LPL第二賽段:打破魔咒,讓一追二,IG三局戰(zhàn)勝WBG

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      伊朗:持續(xù)推進海上封鎖的行為不可容忍

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 精品视频国产香蕉尹人视频| 国产人妻人伦精品一区| 国产精品久久欧美久久一区| 国产精品视频一区二区猎奇| 女女互磨互喷水高潮les呻吟| 国产成人亚洲综合图区| 欧美最猛性xxxxx免费| 日本一木五区| 在免费jizzjizz高清在线播放 | 日本欧美久久久久免费播放网| 亚洲AV成人无码久久精品黑人| 精品国产三级a∨在线欧美| 性色高清无码| 中文字幕日本一区二区在线观看 | 亚洲图片在线| 亚洲老女人伦理片| 嫩草在线视频www免费观看| 日韩欧美亚洲综合久久| AAA免费无码| 久久久日韩精品一区二区 | 草草浮力地址线路①屁屁影院| 91欧美在线久久一区黄瓜| 久久久女人与动物群交毛片| 成年午夜无码av片在线观看| 国产成人综合久久久久久| 男女啪动最猛动态图| 亚洲不卡视频| 国产精品美女久久久久久久久| 无码色综合视频| 好大好硬好湿好爽再深一点视频| 日韩午夜精品免费理论片| 无码在线观看123| 人妻中出无码中字在线| 潘金莲a级片| 一本色道久久综合亚洲精品按摩 | 人妻无码一区二区在线影院| 亚洲综合伦理| 亚洲中文字幕乱码av波多ji| 国内99精品激情视频精品| 国产精品片211在线观看| 337p日本大胆欧美人视频|