<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      圖靈獎得主Sutton:用1967年的公式,解決流式強化學習一大缺陷

      0
      分享至



      編輯|Panda

      2024 年底,一篇題為「流式深度強化學習終于跑通了」的論文(arXiv:2410.14606)在學界引發廣泛討論。作者來自阿爾伯塔大學的 Mahmood 團隊,他們花了大量篇幅描述一個令人尷尬的現實:強化學習作為一種天生應該「邊走邊學」的方法,在深度神經網絡時代卻幾乎無法做到這一點。只要去掉回放緩沖區、只要把批量大小設為 1,訓練就會崩潰。他們稱之為「流式壁壘」(stream barrier)

      那篇論文提出的 StreamX 系列算法,靠著精細調配的超參數、稀疏初始化和各種穩定化技巧,勉強越過了這堵墻。

      然而不到一年半后,同一課題組的一位成員,連同來自 Openmind 研究院的合作者,給出了一個截然不同的答案:流式壁壘的根源不是「數據不夠多」,而是「步長選錯了單位」



      • 論文標題:Intentional Updates for Streaming Reinforcement Learning
      • 論文地址:https://arxiv.org/pdf/2604.19033v1
      • 代碼庫:https://github.com/sharifnassab/Intentional_RL

      一腳油門,開出了多大的坑

      想象你正在駕車學習停車入庫。教練告訴你每次「踩油門 0.1 秒」。問題在于,同樣踩 0.1 秒,上坡、下坡、空載、滿載,車子前進的距離可能天差地別。有時候差一厘米恰好入庫,有時候差 30 厘米直接撞墻。

      傳統梯度學習的步長,做的正是這件事:它規定參數每次移動多大,但對函數輸出到底改變了多少,則完全沒有控制。在批量訓練時,成百上千個樣本的誤差平均下來,極端情況被稀釋掉了,問題并不明顯。但在「流式」環境下,每一步只有一個樣本,沒有平均可言。一旦梯度方向不穩定,更新幅度就會忽大忽小 —— 今天前進 30 厘米,明天后退 50 厘米,學習過程在劇烈震蕩中崩潰。

      這種「過沖與欠沖」(overshooting and undershooting)現象在強化學習里尤為嚴重,因為每個時間步的梯度不僅幅度各異,方向也在高速變化。

      重新定義「一步該做多少」

      來自 Openmind 研究院的 Arsalan Sharifnassab 與阿爾伯塔大學的 Mohamed Elsayed、A. Rupam Mahmood 和 Richard Sutton 等人,近日發表的論文中提出了一個換一個角度思考的方案:與其指定參數移動多少,不如直接指定函數輸出該改變多少。

      這個想法并不是憑空而來的。1967 年,日本學者 Nagumo 和 Noda 在論文《A learning method for system identification》中就在自適應濾波領域提出了「歸一化最小均方差」(NLMS)算法;本質上也是用期望的輸出變化來反推步長,而不是反過來。只不過那個算法只適用于簡單的線性場景。

      研究者們將這一思路推廣到了深度強化學習。他們稱之為「意圖更新」(Intentional Updates):每次更新之前,先明確「我希望這一步實現什么」,然后反推出應該用多大的步長。

      對于價值學習(即預測未來獎勵),他們定義的意圖是:每次更新后,當前狀態的價值預測誤差應該縮小一個固定比例 —— 例如縮小 5%,不多也不少。對于策略學習(即優化決策行為),他們定義的意圖是:當前動作的選擇概率,每一步只允許改變一個「適度」的量

      用駕車的比喻來說:這就好比司機在每次操作前先決定「我要讓車向前移動 20 厘米」,然后根據當前路況(坡度、載重)自動計算該踩多深的油門,而不是每次都踩同樣的深度聽天由命。

      圖靈獎得主與他的拼圖

      論文的署名之一,是 Richard S. Sutton——2024 年圖靈獎得主,被廣泛稱為「現代強化學習之父」。

      Sutton 在學界的地位大約相當于物理學里的費曼:他不僅提出了時間差分學習(TD learning)和策略梯度(policy gradient)這兩個現代強化學習的基礎框架,還與 Andrew Barto 合著了該領域最權威的教材《Reinforcement Learning: An Introduction》(現已出至第二版,可免費在線閱讀)。他與 Barto 于 2024 年共享圖靈獎,獎項評語是「為強化學習奠定了概念與算法基礎」。

      獲獎后,Sutton 沒有選擇退休,而是將獎金投入創立的 Openmind 研究院,專門資助那些愿意在「不受商業化壓迫的環境下探索基礎問題」的年輕研究者。這篇新論文,正是從這家非營利機構走出來的。

      而論文一作 Sharifnassab,之前剛剛在 ICML 2025 發表了 MetaOptimize 框架,研究如何在線自動調整學習率。兩個課題的關注點高度一致:如何讓步長本身變得更智能。

      算法細節:比想象中簡潔

      「意圖更新」的數學推導并不復雜,其核心公式可以用一句話描述:步長等于「期望的輸出變化量」除以「梯度方向對輸出的實際影響力」。

      在價值學習中,這個「實際影響力」就是梯度向量的范數(相當于衡量當前參數區域有多「陡」):越陡的地方步長越小,越平的地方步長越大,從而保證每次更新對價值函數的沖擊保持一致。

      在策略學習中,「期望變化量」被定義為與優勢函數成比例:當前動作比平均水平好多少,策略就往那個方向動多少 —— 通過一個跑動平均來歸一化量級,確保長期下來策略改變的幅度穩定在一個可解釋的范圍。

      研究者還將這一核心思想與兩個工程實踐結合:RMSProp 風格的對角縮放(處理不同參數維度量級差異)和資格跡(eligibility traces,幫助獎勵信號向過去時間步傳播)。

      最終形成三個完整算法:用于價值預測的Intentional TD (λ)、用于離散動作控制的Intentional Q (λ),以及用于連續控制的Intentional Policy Gradient







      實驗結果:不靠 GPU 也能打平 SAC

      論文在多個標準基準上評估了這套方法,結果令人印象深刻。

      在 MuJoCo 連續控制任務(包括 Ant、Humanoid、HalfCheetah 等復雜仿真機器人)上,新方法 Intentional AC 在流式設置下(批量大小 = 1,無回放緩沖區)的最終性能,多次接近甚至比肩 SAC—— 一個使用大批量回放緩沖區、幾乎是當前連續控制任務黃金標準的算法。而在計算量上,每次 Intentional AC 更新所需的浮點運算,只有一次 SAC 更新的約 1/140



      在 Atari 和 MinAtar 離散動作游戲上,Intentional Q-learning 的表現同樣與使用回放緩沖區的 DQN 相當,且用同一套超參數設置跑通了全部任務,無需逐個調參。





      研究者還專門驗證了「意圖」是否真的被實現了:他們測量了實際更新量與預期更新量的比值。在禁用資格跡的簡化設置下,這個比值的標準差僅為 0.016 到 0.029,99 分位數均在 1.07 以內;意味著絕大多數時候,更新確實做到了「說好要做多少就做多少」。

      此外,一組消融實驗表明,去掉 RMSProp 歸一化或者 σ 項之后,性能有所下降但仍然有競爭力,而這個「意圖縮放」本身是首要貢獻者,其他組件都是輔助。



      問題還是有的

      「意圖更新」框架在魯棒性上也展示出明顯優勢。當研究者逐一去掉 StreamX 方法所依賴的各種穩定化輔助技巧(稀疏初始化、獎勵縮放、輸入歸一化、LayerNorm)時,Intentional AC 的性能退化明顯少于原始 StreamAC,說明意圖縮放從根源上減少了對外部「拐杖」的依賴。

      但論文也坦誠了一個尚未完全解決的問題:策略學習中,步長依賴于當前采樣的動作,這會使不同動作被隱性賦予不同的「權重」,可能改變策略梯度的期望方向。在 Humanoid 和 HumanoidStandup 任務中,通過測量期望更新方向的余弦相似度,研究者發現這種偏差在關鍵學習階段接近 0.96(幾乎沒有影響);但在 Ant-v4 中,對齊度降至中位數 0.63,說明問題并非總能被忽視。

      作者指出,未來研究應當尋找對動作無關的步長選擇策略,使「意圖」在期望意義下也保持無偏。這是該方向上留給后來者的明確作業。

      結語:讓 AI 像人一樣邊做邊學

      當前主流的大模型訓練范式,依賴海量數據的批量消化:把互聯網上的文字和代碼統統喂進去,反復迭代,最終涌現出令人驚嘆的能力。這套路線已經被證明行之有效,但它從根本上是「先學后用」的:一旦訓練完成,模型就凍結了,無法從后續的每一次實際交互中持續更新。

      流式強化學習所追求的,是另一種截然不同的學習模式:不依賴海量回放,不依賴龐大 GPU 集群,每一步經歷都立刻轉化為參數更新,持續、廉價、自適應。這更接近人類和動物真實的學習方式。

      從 Elsayed 等人 2024 年「終于跑通了」的初步突破,到這篇論文提出的「意圖更新」原則,流式深度強化學習正在以令人意外的速度走向成熟。它不會取代批量訓練的大模型,但對于需要長期在線適應的機器人、邊緣設備,以及任何無法承受大規模回放緩沖區和 GPU 集群的應用場景,這條路線正變得越來越有說服力。

      步長不只是一個超參數,它是 AI 每一步「想做多少」的承諾。當這個承諾終于變得可控,學習本身就穩定了。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      我臥底邊境六年終于回家,飯桌上父親用摩斯密碼敲擊桌子:趕快跑

      我臥底邊境六年終于回家,飯桌上父親用摩斯密碼敲擊桌子:趕快跑

      千秋文化
      2026-05-14 20:24:09
      美國已拒絕伊朗就結束戰爭提出的書面方案,并“重申其強硬立場”尤其是在核問題上,黃金、白銀大跌,原油飆升

      美國已拒絕伊朗就結束戰爭提出的書面方案,并“重申其強硬立場”尤其是在核問題上,黃金、白銀大跌,原油飆升

      每日經濟新聞
      2026-05-15 18:51:36
      標價15元結賬收29.9元,超市陰陽價格套路曝光,網友齊呼離譜……

      標價15元結賬收29.9元,超市陰陽價格套路曝光,網友齊呼離譜……

      柴狗夫斯基
      2026-05-14 20:42:23
      黃仁勛在北京逛街,勇敢嘗試了豆汁,喝完臉都皺了…

      黃仁勛在北京逛街,勇敢嘗試了豆汁,喝完臉都皺了…

      微微熱評
      2026-05-15 15:31:59
      拒絕被挑撥站隊!12歲小玥兒戳破與馬筱梅真實交情,成年人別加戲

      拒絕被挑撥站隊!12歲小玥兒戳破與馬筱梅真實交情,成年人別加戲

      橙星文娛
      2026-05-15 13:59:15
      90后博士后讀研讀博期間,套取科研經費1426萬,被判有期徒刑8年!

      90后博士后讀研讀博期間,套取科研經費1426萬,被判有期徒刑8年!

      高分子科學前沿
      2026-05-14 20:16:04
      再見湖人!再見東契奇!詹姆斯新合同曝光,網友:白菜價

      再見湖人!再見東契奇!詹姆斯新合同曝光,網友:白菜價

      野渡舟山人
      2026-05-15 18:19:22
      串通投標全川35個工程項目、涉案110億余元,四川公安發布十起經濟犯罪典型案例

      串通投標全川35個工程項目、涉案110億余元,四川公安發布十起經濟犯罪典型案例

      封面新聞
      2026-05-15 17:36:02
      俄羅斯超大艦隊進入東海

      俄羅斯超大艦隊進入東海

      烽火觀天下
      2026-05-14 10:58:42
      《桃花塢6》很明顯,徐志勝對方媛很無語!

      《桃花塢6》很明顯,徐志勝對方媛很無語!

      糊咖娛樂
      2026-05-15 15:20:24
      球隊高管:詹姆斯能賣票簽他穩賺 只要是一年合同他要多少給多少

      球隊高管:詹姆斯能賣票簽他穩賺 只要是一年合同他要多少給多少

      羅說NBA
      2026-05-15 20:13:16
      敬完了酒,特朗普訪華畫上句號,從中國臨走之前,終于吐露真心話

      敬完了酒,特朗普訪華畫上句號,從中國臨走之前,終于吐露真心話

      趙昉是個熱血青年
      2026-05-15 20:50:12
      加速心梗惡化的原因:飲酒排第8,排第1的,很多朋友天天做

      加速心梗惡化的原因:飲酒排第8,排第1的,很多朋友天天做

      芹姐說生活
      2026-05-15 15:08:06
      隊記:火箭或與范弗利特重簽合同,三年5000萬美元加球員選項

      隊記:火箭或與范弗利特重簽合同,三年5000萬美元加球員選項

      懂球帝
      2026-05-15 11:07:10
      騰訊掉隊,馬化騰戳破真相

      騰訊掉隊,馬化騰戳破真相

      虎嗅APP
      2026-05-15 16:31:10
      為什么航母速度都在30節左右,30節換成汽車的速度是多快?

      為什么航母速度都在30節左右,30節換成汽車的速度是多快?

      吳王旅行ing
      2026-05-12 23:36:17
      被馬斯克和庫克夾在中間的女人!“玻璃女王”周群飛,僅大專學歷

      被馬斯克和庫克夾在中間的女人!“玻璃女王”周群飛,僅大專學歷

      觀察者海風
      2026-05-15 12:43:32
      馬斯克:真正的狠人,都是從地獄里爬出來的

      馬斯克:真正的狠人,都是從地獄里爬出來的

      阿胖讀書
      2025-08-24 00:39:48
      特朗普松口:中國買伊朗石油,可能不制裁了

      特朗普松口:中國買伊朗石油,可能不制裁了

      桂系007
      2026-05-15 21:40:19
      岳母住我家做飯月給四千,我換親媽來,十五天就后悔的想撞墻

      岳母住我家做飯月給四千,我換親媽來,十五天就后悔的想撞墻

      麥子情感故事
      2026-05-15 14:20:13
      2026-05-15 23:03:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      13006文章數 142649關注度
      往期回顧 全部

      科技要聞

      直降千元起步!蘋果華為率先開啟618讓利

      頭條要聞

      王毅:中美元首會晤 臺灣問題是重點議題之一

      頭條要聞

      王毅:中美元首會晤 臺灣問題是重點議題之一

      體育要聞

      德約科維奇買的球隊,從第6級聯賽升入法甲

      娛樂要聞

      方媛為何要來《桃花塢6》沒苦硬吃?

      財經要聞

      騰訊掉隊,馬化騰戳破真相

      汽車要聞

      高爾夫GTI刷新紐北紀錄 ID. Polo GTI迎全球首秀

      態度原創

      本地
      親子
      教育
      手機
      房產

      本地新聞

      用蘇繡的方式,打開江西婺源

      親子要聞

      上錯運輸車的巴奇

      教育要聞

      不只699,還是數物化奧賽東城三金高中!全國首批特級教師誕生地,剛剛曝光——

      手機要聞

      安卓版CallKit,全量接入!

      房產要聞

      老黃埔熱銷之下,珠江春,為何去化僅3成?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲乱亚洲乱妇无码| 蜜桃视频中文字幕一区二区三区| 99久久国产综合精品1尤物| 漂亮人妻中文字幕丝袜| 亚洲网在线| 福利视频一区二区在线| 欧美性大战久久久久久久蜜桃 | 亚洲国产日韩在线视频| 色午夜久久男人操女人| 伊人大香线蕉精品在线播放| 色综合久久无码五十路人妻| 丝袜一级A片| 欧美国产在线一区| 男人视频一区二区三区| 日韩欧美在线观看成人| 无码成人aⅴ免费中文字幕| 亚洲熟妇无码av在线播放| 麻豆激情在线免费观看视频| 久久久亚洲欧洲日产国码αv| 夜夜影院未满十八勿进| 手机看片1024人妻| 99国产99| 黄色av网站在线观看| 91久久国产热精品免费| 欧洲专线一区二区三区| 国产成人午夜福利院| 亚洲第一区精品日韩在线播放| 少妇与黑人一二三区无码| 国产中文字幕精品视频| 国产精品自拍视频网站| yin荡护士揉捏乱p办公室视频| 国产福利精品导航网址| 视频在线观看一区二区| 色老99久久九九爱精品| 国产日产欧产系列| 日韩无码人妻一区| 成人毛片一区二区| 2024av在线无码中文最新| 成人性生交片无码免费看| 亚洲精品成人A在线观看| 国产精品亚洲丝袜专区|