<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      分布魯棒PAC-貝葉斯控制

      0
      分享至

      Distributionally Robust PAC-Bayesian Control

      分布魯棒PAC-貝葉斯控制

      https://arxiv.org/pdf/2604.10588


      摘要

      我們提出了一種分布魯棒的PAC貝葉斯框架,用于認證基于學習的有限時域控制器的性能。盡管現有的PAC-貝葉斯控制文獻通常假設有界損失以及訓練與部署分布相匹配,但我們明確針對無界損失和環境分布偏移(即仿真到現實的差距)進行了處理。我們通過結合兩條現代研究路線來實現這一目標,即PAC-貝葉斯泛化理論與基于1型Wasserstein距離的分布魯棒優化。通過利用系統級綜合(SLS)重參數化,我們推導出了一個次高斯損失代理項,以及一個因分布偏移導致的性能損失上界。這兩者都直接與閉環映射的算子范數相關聯。對于線性時不變系統,這產生了一個計算可行的基于優化的框架,并能夠為在與訓練所用環境不同的真實環境中部署提供高概率安全證書。

      I 引言

      將機器學習整合到控制理論中,為直接從有限、含噪的數據集中綜合控制策略提供了強大的工具。然而,基于學習的控制器以對分布偏移的脆弱性而聞名,因為它們通常假設用于訓練的數據生成分布與部署(測試)分布相匹配。這種差異,也被稱為仿真到現實的差距,當在標稱條件下訓練的控制器被部署到真實世界時,可能會顯著降低性能,在真實世界中,未建模的擾動可能表現為對抗性擾動。加劇該問題的是由有限訓練數據引起的有限樣本不確定性。

      PAC-貝葉斯[1]框架已成為一種嚴格的方法,用于為隨機學習算法提供高概率的有限樣本泛化保證。利用PAC-貝葉斯技術,文獻[2]中的作者給出了深度神經網絡中第一個非平凡的(non-vacuous)泛化界,這是一項重大突破,也展示了PAC-貝葉斯方法的潛力。

      研究人員也將PAC-貝葉斯方法應用于控制領域,例如在機器人學中需要泛化到未見環境的設置中[3]。在其擴展工作中,他們也處理了訓練與測試分布不匹配的情況,但僅使用了信息論中的f-散度度量,這實際上膨脹了復雜性項。除了假設損失存在硬性上限外,由于分布魯棒性帶來的懲罰只是一個簡單的加性常數項,該常數項不依賴于控制策略。最近,文獻[4]、[5]中的作者探索了非線性控制中的PAC-貝葉斯保證,他們通過采用內在穩定的參數化方式對底層系統進行參數化,以優化并認證所得性能。然而,如前所述,這些工作做出了訓練與部署環境中存在單一數據生成分布的標準假設,并考慮了有限損失。

      分布魯棒(DR)優化[6]方法在控制領域[7]中有著更為顯著的存在,被用于模型預測控制[8]等眾多應用中。DR方法已成為對抗“優化者詛咒”[9]的主要途徑,這是一種與過擬合密切相關的現象。其主要思想是根據圍繞標稱分布[10]的模糊集(ambiguity set)中的最壞分布來優化系統性能。該標稱分布通常是通過抽取有限數量樣本構建的經驗分布。通過借助Wasserstein距離,文獻[11]中的作者提供了概率保證,即真實分布位于經驗分布的模糊集內。

      在本工作中,我們將PAC-貝葉斯控制框架擴展以處理無界損失和分布偏移。事實上,我們提出了一種利用1-Wasserstein距離的分布魯棒PAC-貝葉斯控制框架。通過利用Kantorovich-Rubinstein對偶性[12],Wasserstein魯棒性懲罰明確地將泛化界與依賴于控制器的閉環系統Lipschitz常數聯系起來。該界使我們能夠在控制器設計階段使系統性能對分布偏移具有免疫力。事實上,我們的方法建立了一個魯棒的PAC-貝葉斯界,明確考慮了訓練與部署環境之間潛在的錯位。最后,我們通過系統級綜合(SLS)[13]將這一理論上的分布魯棒PAC-貝葉斯界轉化為適用于LTI系統的計算可行的算法。這相當于一種有效的重參數化,使我們能夠提供關于Lipschitz和次高斯代理項的具體界,這兩者在我們的框架中均依賴于控制器。我們現在準備總結我們的貢獻。

      貢獻: 我們的主要貢獻有兩方面:首先,針對無界Lipschitz損失函數,我們引入了PAC-貝葉斯控制的Wasserstein分布魯棒擴展;其次,通過將框架專門化用于SLS形式的有限時域LTI控制,我們從相同的閉環映射中推導出了關于損失集中性和部署魯棒性的顯式依賴于控制器的證書(certificates)。這些證書導出了一個針對可行控制器的可處理后驗優化問題,以及相對于訓練分布的擾動偏移下的有限樣本保證,而該分布無需被辨識。

      本文的其余部分組織如下:在第二節中,我們為讀者提供關于我們所考慮的動力系統、分布魯棒性的必要背景,并介紹PAC-貝葉斯框架。在第三節中,我們陳述關于Wasserstein 1型距離的分布魯棒PAC-貝葉斯控制的結果。接著,在第四節中,我們在SLS框架下重構該問題,并將我們的結果專門化應用于線性時不變(LTI)系統。基于控制器誘導的閉環映射,我們為次高斯集中性(sub-Gaussian concentration)和魯棒性懲罰項提供了有效的代理(proxies)。在第五節中,我們通過數值算例驗證我們的發現。


      II. 問題表述

      在本節中,我們介紹了我們方法所需的背景知識。我們的目標是為基于 PAC-Bayes 學習理論的學習控制器提供有限樣本保證,并解決學習到的控制器在訓練和部署(測試)環境之間的分布偏移問題。為此,我們在 II-A 節建立了一個抽象的學習控制問題。我們在 II-B 節介紹了概率論中必要的預備知識。在 II-C 節,我們討論分布魯棒性和 Wasserstein 距離。在 II-D 節,我們總結了文獻 [14] 中關于 PAC-Bayes 泛化的一個關鍵結果,我們要將其以分布魯棒的形式擴展到控制設置中。我們在 II-E 節提供了一個簡短的問題陳述。

      A. 系統動力學與控制




      在第四節中,我們將這一抽象設置特化應用于系統級綜合(SLS)形式的有限時域線性時不變(LTI)系統,其中樣本 Z Z 變為擾動軌跡,且 rollout 損失用于衡量加權閉環性能輸出。

      B. 概率論

      PAC-Bayes 界中的核心關注對象是次高斯隨機變量 [15]。

      定義 1(次高斯隨機變量): 一個零均值隨機變量 X X 是次高斯的,如果



      離散隨機變量的定義依此類推。在此我們還注意到,兩個高斯隨機向量之間的 KL 散度具有閉式解。

      C. 分布魯棒性與 Wasserstein 距離




      上述形式也常被稱為分布魯棒 [6] 優化。然而,在我們的情形中,Lipschitz 常數和次高斯方差代理(variance proxy)將不再是靜態對象,它們將依賴于后驗控制器分布。

      D. PAC-貝葉斯學習理


      大多數 PAC-貝葉斯結果在假設損失存在最大上限(maximum cap)的情況下,給出了泛化性能的界。這種設置在機器學習應用中很自然,因為損失通常是有界的(例如 0-1 分類損失)。將其轉化為控制問題可以通過將損失在某個最大值處飽和(saturating)來實現。然而,這帶來了諸如繁瑣的校準以及在接近上界區域不可避免地喪失靈敏度等問題。

      也有針對無界次高斯損失 [17] 的結果,其中假設損失具有一個全局方差代理(global variance proxy)。然而,這通常不適用于動力系統的控制,因為對最壞情況損失進行界定意味著該界是由控制器集合中最差的可能控制器內在決定的。

      出于這個原因,我們采用了針對假設依賴的次高斯損失(hypothesis dependent sub-Gaussian losses)[14] 的最新結果。在此,我們簡要指出,文獻 [14] 中的方法在優化方面還有其他相關含義,但這超出了本文的范圍。用控制領域的術語來說,假設對應于一個控制器。其含義是,集中界(concentration bound)取決于所部署控制器的(期望)性能。由于我們要優化控制器的性能,這兩個目標是一致的。我們陳述適用于我們設置的定理。



      注意,我們從用于訓練的分布 D D 中采樣,并在假設現實世界中的數據生成分布與訓練分布相同的前提下提供部署保證。這通常是一個不切實際的假設,我們將在第三節中解決這一特定問題。

      E. 問題陳述

      在本文中,我們要解決的問題是:確保在一個具有未知數據生成分布的有限樣本訓練環境中訓練出的控制系統,在存在分布偏移的情況下,能夠在部署環境中轉化為可預測的性能。特別是,我們要將定理 1 擴展到部署生成分布與訓練分布不同的情況。

      III. 分布魯棒 PAC-Bayes

      在本節中,我們將定理 1 中的標稱 PAC-Bayes 界與 Wasserstein 魯棒化相結合。我們在第四節中將由此得到的保證專門化應用于有限時域 SLS 控制。

      不同于標準的 PAC-Bayes,我們的目標是提供期望分布魯棒總體(DROP)風險的高概率上界,我們將其定義為:



      A. 基于 Wasserstein 距離的分布魯棒 PAC-貝葉斯






      注意,Wasserstein DROP 風險是圍繞訓練(未知)分布為中心的。魯棒性懲罰項 L ( K ) ρ 現在明確地與每個單獨控制器的幾何靈敏度相關聯。因此,最小化該界需要一種算法來主動優化經驗魯棒風險,從而偏好那些具有較小(期望)Lipschitz 常數的模型,這些模型能在未見環境中產生更好的泛化界。

      IV. 系統級綜合與可處理的后驗優化

      我們現在將 II-A 節中的抽象設置特化應用于有限時域線性時不變(LTI)系統。控制器 K ∈ K 現在是一個有限時域線性因果控制器,而樣本 Z ∈ Z 是一條擾動軌跡。此外,我們利用系統級綜合(SLS)[13] 框架,根據從擾動到狀態-控制軌跡的閉環映射,獲得顯式的次高斯代理項和 Wasserstein Lipschitz 界。

      A. 有限時域 LTI 特化

      考慮一個受加性擾動影響的線性時不變(LTI)離散時間動力系統






      B. 有限時域提升的 SLS 響應

      考慮由 (12) 定義的離散時間 LTI 系統。 定義堆疊向量


      注意,為了簡化符號表示,我們將初始狀態包含在 w w 中。對于有限時域控制器,堆疊的狀態和輸入軌跡是堆疊擾動向量的確定性線性映射:


      關于這些等式的更多細節和推導,讀者可參考[13]。

      C. 子空間參數化

      為了獲得用于PAC-貝葉斯的有限維假設空間,我們將提升的閉環響應矩陣進行向量化。令:






      我們現在針對兩種有用的擾動模型驗證定理 2 的條件:高斯擾動軌跡和幾乎必然有界的擾動軌跡。再次注意,D 是擾動軌跡的訓練分布。

      D. 依賴于控制器的集中性與魯棒性證書

      我們首先從一個關于高斯軌跡的命題開始。

      命題 1(高斯軌跡擾動): 假設:





      E. SLS 形式的魯棒 PAC-Bayes 目標

      將定理 2 給出的 PAC-Bayes 平方根界與 SLS 假設 θ 相結合,得出了關于后驗 Q 的最終學習算法。利用由 (20) 或 (21) 給出的顯式代理 σ ( θ ) ,我們將后驗優化問題表述為



      V. 數值算例

      在下文中,我們使用 Julia [22] 來實現數值算例,并使用 Zygote [23] 作為自動微分后端。優化問題是在 JuMP [24] 中建模的。

      A. 雙積分器

      我們考慮針對離散時間線性系統 (12) 的一個有限時域控制問題,其中





      觀察圖 1,我們可以看到,正如預期的那樣,PAC-Bayes 復雜性項隨著數據的增加而減小。然而,優化過程仍然必須平衡來自 Wasserstein 懲罰項和經驗風險的貢獻,這兩者都是在同一個后驗分布上取平均的。

      圖2展示了我們的方法在存在分布偏移時的有效性。我們可以觀察到,原始(vanilla)PAC-Bayes(即不包含Wasserstein部分的PAC-Bayes項)無法妥善應對環境偏移。從圖中可以清楚地看到,對于所有數據集大小 n n,報告的界均被違反。另一方面,我們的魯棒化方法為實際經驗風險提供了正確的上界。我們還指出,我們的方法在分布偏移的測試數據上表現優于原始方法。兩種方法均在相同的對抗性分布偏移下進行了測試。需要注意的是,所選的分布偏移被設置為在移動訓練數據分布均值的同時,仍保持在認證半徑之內。

      VI.結論與未來工作

      在本工作中,我們將 PAC-貝葉斯泛化分析與 Wasserstein 分布魯棒性相結合,并將所得框架特化應用于 SLS 形式的有限時域 LTI 控制。主要成果是一個顯式且可計算的界,其中集中性和魯棒性均通過加權閉環映射的算子范數進行認證。這為在擾動分布偏移下的隨機可行控制器提供了有限樣本保證。對于未來工作,我們設想將此方法擴展到模型不確定性、次指數損失(如平方范數代價),以及基于學習的魯棒模型預測控制。

      原文鏈接:https://arxiv.org/pdf/2604.10588

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      布魯斯·威利斯30年前爛片逆襲,Netflix前十

      布魯斯·威利斯30年前爛片逆襲,Netflix前十

      時光慢旅人
      2026-05-18 01:38:00
      安理會重磅發聲!中方強硬亮劍:以色列必須無條件撤出

      安理會重磅發聲!中方強硬亮劍:以色列必須無條件撤出

      低調看天下
      2026-05-17 16:59:30
      全網都猜錯了!張蘭突然停更阿姨被臨時調休,真相是汪小菲的用心

      全網都猜錯了!張蘭突然停更阿姨被臨時調休,真相是汪小菲的用心

      阿廢冷眼觀察所
      2026-05-16 16:21:06
      林徽因落選的國徽方案,網友看后感嘆:審美確實厲害,但真不合適

      林徽因落選的國徽方案,網友看后感嘆:審美確實厲害,但真不合適

      浩渺青史
      2026-04-17 13:55:15
      賭王孫女不幸離世終年58歲!追思會內部曝光,親友送別最后一程

      賭王孫女不幸離世終年58歲!追思會內部曝光,親友送別最后一程

      喜歡歷史的阿繁
      2026-05-17 22:27:50
      耿同學扳倒多個學術大拿,本人背景曝光,他這么干的原因找到了

      耿同學扳倒多個學術大拿,本人背景曝光,他這么干的原因找到了

      平老師666
      2026-05-15 21:35:30
      中國為啥能迅速崛起,德國專家給出看法:中國沒覆蓋全民族的宗教

      中國為啥能迅速崛起,德國專家給出看法:中國沒覆蓋全民族的宗教

      抽象派大師
      2026-05-16 15:17:29
      為什么男人每次偷情要開房,女人每次偷情都在車里呢?

      為什么男人每次偷情要開房,女人每次偷情都在車里呢?

      思絮
      2026-04-28 10:25:11
      玩嗨了!黃仁勛在大爺煙斗上簽名,庫克買咖啡,特朗普兒子游長城

      玩嗨了!黃仁勛在大爺煙斗上簽名,庫克買咖啡,特朗普兒子游長城

      青杉依舊啊啊
      2026-05-17 07:47:44
      多名院士調查發現:吃一口久放至黑斑的香蕉,或等于進一次毒?

      多名院士調查發現:吃一口久放至黑斑的香蕉,或等于進一次毒?

      路醫生健康科普
      2026-05-17 19:35:03
      慌了!知名化工平臺暴雷!十億元無法履約!1600家企業錢貨兩空!

      慌了!知名化工平臺暴雷!十億元無法履約!1600家企業錢貨兩空!

      新浪財經
      2026-05-17 12:12:48
      網友說未來盡量別去夜場,小仙女們要化債了!

      網友說未來盡量別去夜場,小仙女們要化債了!

      燈錦年
      2026-05-16 14:42:03
      臺灣回歸終極方案:土地回歸中國,人員自由往來,兩岸統一新路徑

      臺灣回歸終極方案:土地回歸中國,人員自由往來,兩岸統一新路徑

      陳腕特色體育解說
      2026-05-17 21:12:19
      一個人認知在不在你之上,看這4個細節就夠了

      一個人認知在不在你之上,看這4個細節就夠了

      洞見
      2026-04-16 11:35:51
      炸了!溫州砸 23 億干大事,214 萬畝荒山變綠

      炸了!溫州砸 23 億干大事,214 萬畝荒山變綠

      奇葩游戲醬
      2026-05-18 03:26:37
      圖片報:1860球迷惡搞拜仁奪冠慶典,被眼尖的諾伊爾先發現

      圖片報:1860球迷惡搞拜仁奪冠慶典,被眼尖的諾伊爾先發現

      懂球帝
      2026-05-17 21:39:36
      35美元小配件,讓有線CarPlay變無線

      35美元小配件,讓有線CarPlay變無線

      賽博蘭博
      2026-05-17 03:15:05
      99%的女人出軌完男人后,都會默契地做出這3種行為,不信你看看

      99%的女人出軌完男人后,都會默契地做出這3種行為,不信你看看

      加油丁小文
      2026-05-03 08:30:16
      朱珠與老公上海南京西路街邊喝咖啡被偶遇,美的像拍偶像劇!

      朱珠與老公上海南京西路街邊喝咖啡被偶遇,美的像拍偶像劇!

      動物奇奇怪怪
      2026-05-16 12:41:37
      俄烏打完后,俄國際地位會下降到何種地步?看俄羅斯周邊就知道!

      俄烏打完后,俄國際地位會下降到何種地步?看俄羅斯周邊就知道!

      忠于法紀
      2026-05-16 17:49:52
      2026-05-18 04:20:49
      CreateAMind incentive-icons
      CreateAMind
      CreateAMind.agi.top
      1407文章數 19關注度
      往期回顧 全部

      科技要聞

      三大運營商即將免月租?多方回應

      頭條要聞

      內塔尼亞胡與特朗普通話 討論重啟對伊朗軍事打擊

      頭條要聞

      內塔尼亞胡與特朗普通話 討論重啟對伊朗軍事打擊

      體育要聞

      生死戰只拿3分的核心,還有留的必要嗎?

      娛樂要聞

      盧昱曉道歉:認識到問題嚴重性!

      財經要聞

      長鑫科技 預計上半年凈利至少500億元

      汽車要聞

      車長超5米/雙動力可選 昊鉑S600預售權益價18.89萬起

      態度原創

      房產
      時尚
      本地
      手機
      軍事航空

      房產要聞

      老黃埔熱銷之下,珠江春,為何去化僅3成?

      “這條裙子”是今年夏天的頂流!誰穿誰好看

      本地新聞

      用蘇繡的方式,打開江西婺源

      手機要聞

      小米玄戒芯片確認迭代!Air機型取消原因曝光

      軍事要聞

      黎以停火再延長 空襲卻未停止

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 熟女中文网站| 亚洲国产精品无码aaa片| 亚洲啪av永久无码精品放毛片| 性做久久久久久| 午夜专区| 国产女人被狂躁到高潮小说| 宅男噜噜噜66网站在线观看| 欧美成人精品三级网站视频| 天堂在线WWW天堂中文在线| 久久久亚洲综合久久久久87| 亚洲精品一区二区三区蜜| 日日日日日| 一区二区人妻| 国产成人精品怡红院在线观看 | 网友偷拍久久精品视频| 国产做a爱视频免费无遮挡| 一本色综合网久久| 18禁在线永久免费观看| 三级黄色电影网站| 成人午夜高潮免费视频在线观看| 韩国精品一区二区三区无码视频| 日韩精品人妻中文字幕有| 欧洲精品一二三在线| 欧美日韩一区二区三| 在线中文一区字幕对白| 亚洲精品乱码久久久久久久| 人妻丰满av无码中文字幕| 国产成人在线观看免费网站| 精品国产中文字幕懂色| 亚洲男人在线| 欧美日韩人成综合在线播放| 夜夜高潮夜夜爽高清视频| 干中文字幕| 亚洲国产成人无码av在线播放| 国产精品秘入口18禁麻豆免会员| 日韩黄片毛片在线观看| 999精品色在线播放| 日本黄色一区二区三区四区| 开化县| 热久久美女精品天天吊色| 伊人久久大香线蕉AV网|