<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      OpenClaw案例:無需惡意攻擊,日常聊天也能「黑化」Agent!

      0
      分享至


      新智元報道


      【新智元導讀】日常聊天可能在不經意間污染個性化Agent的長期記憶,使其在未來任務中偏離用戶真實意圖。研究人員通過ULSPB基準測試發現,即使無惡意提示,日常對話也可能改變Agent的安全邊界。

      今天的大模型Agent,已經不再只是回答問題的聊天機器人。它們開始擁有長期記憶,能夠跨會話記住用戶偏好、延續任務進度,并調用郵件、日歷、文件、網頁和各種外部工具。

      換句話說,Agent正在從一次性任務執行器,變成一個持續陪伴用戶的個性化協作者。

      但這種能力也帶來了一個更隱蔽的問題:如果Agent會長期記住用戶的習慣和上下文,那么這些記憶本身是否安全?

      過去很多Agent安全研究主要關注顯式攻擊,例如惡意提示詞、間接prompt injection、被污染的網頁內容或工具輸出。

      然而,在個性化Agent場景中,風險未必來自一個明確攻擊者。


      圖 1:沒有惡意提示詞,日常對話也可能「養歪」你的個性化Agent。臨時偏好一旦被寫入長期記憶,就可能在未來變成危險的默認規則。

      研究發現,即使沒有黑客、沒有惡意提示詞、沒有明顯攻擊,普通的日常聊天也可能逐步污染個性化Agent的長期狀態。這種風險不會總是在當前對話里立刻爆發,而是可能被寫入長期記憶,并在未來任務中改變Agent的默認行為。


      論文地址:https://arxiv.org/abs/2605.06731

      Demo:https://xiaoyuxu1.github.io/ULSPB_website/

      一個Agent今天沒有做錯事,并不意味著它沒有把未來做錯事的種子寫進長期狀態。

      Agent長期狀態被「養」歪

      傳統prompt injection更像是一次顯式攻擊,而長期狀態投毒更像是一種「慢性漂移」:Agent沒有立刻犯錯,卻可能把未來犯錯的規則寫進了記憶。

      研究人員將這種現象定義為Unintended Long-Term State Poisoning,即非預期長期狀態投毒。它的核心不是一次對話立刻誘導Agent做壞事,而是Agent把某次臨時請求、某種局部偏好、某個上下文里的「方便做法」,錯誤地泛化為未來長期默認規則。

      例如,用戶今天只是為了趕時間說了一句:「這類小事以后不用每次都問我,直接處理就行。」

      如果Agent把這句話寫入長期狀態,未來它可能在郵件發送、文件修改、日程安排甚至賬號操作中逐漸減少確認。用戶并沒有真正授權所有未來操作,但Agent的長期狀態已經被悄悄改寫。

      這與傳統prompt injection不同。傳統攻擊往往假設存在明確攻擊者,而這里的風險來自看似正常的日常交互。它也不是普通幻覺,因為危險可能跨會話保留,并持續影響未來的安全邊界。


      圖2:傳統任務型Agent通常在單次任務結束后重置上下文,而個性化Agent會跨會話維護長期狀態、用戶偏好和工具權限。

      為什么長期記憶會變成安全入口?

      個性化Agent的長期狀態通常不只是「記住一些事實」,它還可能包含長期記憶、Agent核心指令、工具默認設置、用戶畫像、行為風格和短期運行狀態。這些內容看似只是記憶文件,但實際上會影響Agent未來如何理解用戶意圖、何時調用工具、是否需要確認,以及是否可以自主執行。

      因此,長期狀態不是普通緩存,而是Agent未來行為邊界的一部分。一旦這些狀態被錯誤寫入,風險可能不會馬上表現出來,卻會在未來某個任務中變成「少問一次確認」「多調用一個工具」或「默認執行一個本該征求授權的操作」。 換句話說,個性化Agent的長期記憶不是一個被動資料庫,而是一套會影響未來行為的「隱性配置文件」。


      ULSPB:專門測試「日常聊天是否污染長期狀態」

      為了系統研究這一問題,研究人員構建了一個新的雙語基準ULSPB(Unintended Long-Term State Poisoning Bench)。它專門用來測試:日常用戶—Agent對話是否會誘發長期狀態污染。

      ULSPB覆蓋七類長期狀態漂移場景、五類日常個性化協助任務、英文與中文兩種語言,并為每個設置構造24輪普通日常對話。為了對比,研究人員還構造了四類單次顯式注入變體,用于觀察routine conversation和explicit injection之間的差異。


      其中,七類風險場景覆蓋了個性化Agent在長期交互中最容易出現的幾種安全邊界漂移。



      圖 3:ULSPB的構建流程。該基準從七類長期狀態漂移場景、五類日常協助任務、雙語模板和五種對話變體出發,系統測試普通日常對話是否會污染個性化Agent的長期狀態。

      實驗結果

      研究人員在OpenClaw個性化Agent環境中進行實驗,并測試了四個不同的Agent backbone:Kimi K2.5、GPT-5.4、MiniMax M2.7和Grok 4.20。

      為了衡量長期狀態污染程度,設計了狀態中心指標 Harm Score(HS)。

      和傳統攻擊成功率不同,HS不只看Agent當下有沒有做出危險動作,而是看它的長期狀態是否出現安全相關漂移。具體來說,HS關注三個維度:授權確認邊界是否被削弱、工具調用權限或范圍是否被擴大,以及Agent是否開始繞過流程、提高自主執行程度。

      結果顯示,顯式單次注入通常會帶來更高的HS,但普通日常對話本身也能誘發明顯的長期狀態污染。在部分模型上,日常對話造成的風險已經接近顯式注入。

      這說明,個性化Agent的風險不一定來自一次明顯攻擊,也可能來自長期、自然、看似無害的交互積累。



      表 1:不同對話變體和語言下的Harm Score。 結果顯示,普通日常對話本身也能誘發長期狀態污染,在部分模型上甚至接近顯式注入帶來的風險;不同語言下的風險表現也存在明顯模型差異。

      最容易被污染的,是記憶文件

      進一步分析顯示,風險主要集中在memory-centric artifacts,也就是和記憶高度相關的狀態文件中。不同模型和不同對話變體下,MEMORY.md和 memory/ 是被修改最頻繁的區域,其次是USER.md、AGENTS.md和TOOLS.md。

      這也符合直覺:日常聊天最容易被Agent總結成「用戶偏好」「歷史習慣」或「未來默認規則」。問題在于,這些總結一旦過度泛化,就可能把臨時上下文變成長期安全邊界的一部分。

      「用戶傾向于快速處理低風險事項。」

      「類似重復任務可以先執行后匯報。」

      「用戶通常不希望被頻繁打斷確認。」

      這些記錄單獨看都合理,但在高權限工具場景下可能變成危險默認項。


      圖4:不同模型和對話變體下,風險編輯主要集中在MEMORY.md和 memory/ 等記憶相關文件中。

      真實聊天數據也會觸發風險

      為了驗證這一現象不是合成prompt造成的假象,研究人員進一步引入真實用戶聊天數據進行測試。

      具體來說,從WildChat和LMSYS-Chat-1M兩個公開真實聊天數據集中選取日常協助類對話種子,將其擴展成24輪routine interaction,并在OpenClaw風格環境中重新執行。

      結果顯示,真實種子構造出的日常對話雖然HS低于完全合成的ULSPB routine conversations,但仍然會在所有測試模型上誘發不可忽視的長期狀態風險。這說明,非預期長期狀態投毒并不是一個prompt設計出來的假問題,而是可能真實存在于未來個性化Agent使用場景中的安全問題。


      圖5:日常對話不僅在合成ULSPB中會導致長期狀態污染,在真實用戶聊天種子擴展出的routine setting中也會產生不可忽視的長期狀態風險。

      StateGuard

      最后一道安全審計

      如果問題發生在長期狀態寫入階段,那么防御也應該發生在寫入階段。

      基于這個想法,研究人員提出輕量級防御方法 StateGuard。它不是在用戶輸入時攔截,也不是在Agent輸出時檢查,而是在Agent準備把新內容寫入長期狀態之前,對狀態diff進行審計。

      StateGuard的流程很直接:Agent完成一輪交互,生成候選狀態更新;StateGuard檢查哪些長期狀態文件發生了變化;隨后對新增或修改內容進行安全審計,判斷是否應該保留或回滾。如果某段狀態更新可能削弱確認邊界、擴大工具調用范圍,或增加Agent未授權自主行為,StateGuard就會回滾這次寫入。

      這個設計的關鍵在于:它保護的不是當前回答,而是未來行為邊界。長期狀態投毒的危害常常不會在當前回合立刻顯現,而是會在未來某次任務中被激活。


      圖6:StateGuard在每輪交互結束后檢查長期狀態diff,并在狀態寫入前決定保留或回滾修改。

      長期狀態風險降至接近0

      實驗結果顯示,StateGuard能夠顯著降低長期狀態污染風險。

      在沒有防御的情況下,四個模型都會產生較高的HS,說明日常交互確實可能把不安全的默認規則寫入長期狀態;而引入StateGuard后,尤其是在Targeted-Ensemble設置下,HS幾乎被壓低到接近0。這表明,在狀態真正持久化之前進行寫入審計,是防御長期狀態投毒的一條有效路徑。

      當然,StateGuard目前采用的是一種偏保守的安全優先策略,因此可能帶來較高的false positive,即部分原本無害的狀態更新也會被回滾。但在長期記憶場景中,這種權衡是可以接受的:誤攔截一條普通記憶,通常只會降低一點個性化體驗;而漏掉一條危險的默認規則,則可能在未來多個會話中持續影響Agent行為,甚至改變用戶原本的授權邊界。

      更現實的部署方式并不是簡單地「保留」或「刪除」,而是引入分級處理機制。對于高風險更新,系統可以直接回滾;對于邊界模糊的更新,則可以暫緩寫入,并向用戶發起輕量級確認,例如詢問「是否要將這條偏好保存為長期默認規則」。這樣一來,false positive不再只是誤攔截,而可以轉化為一次用戶可感知、可控制的狀態確認過程。

      從長遠看,StateGuard可以被視為個性化Agent長期狀態治理的一個初步原型。未來,類似機制可以進一步擴展為更完整的「記憶寫入防火墻」:不僅審計安全風險,還可以結合隱私保護、權限管理、可解釋日志和用戶可撤銷機制,讓Agent在變得更個性化的同時,也始終保持清晰、可控的記憶邊界。


      表2:StateGuard顯著降低四個Agent backbone上的Harm Score,在Targeted-Ensemble設置下將長期狀態污染風險壓低至接近0。

      為什么這個問題重要?

      隨著Agent系統的發展,未來的AI助手很可能會越來越長期化。它們會記住用戶偏好,管理郵件和日程,處理文件,執行網頁任務,調用企業內部系統,甚至代表用戶做出越來越多低風險決策。

      在這種趨勢下,安全問題也會發生變化。

      過去主要擔心模型這一次有沒有輸出危險內容;但個性化Agent時代,還必須追問:模型這一次有沒有把危險默認規則寫進長期記憶?

      因此,Agent安全評估需要從即時行為安全擴展到長期狀態安全。不僅要看它當下說了什么、做了什么,還要看它記住了什么、默認了什么、未來會如何解釋用戶授權。

      主要貢獻

      1. 發現新的Agent安全風險:系統化定義了非預期長期狀態投毒:日常用戶-Agent交互在沒有明確攻擊者的情況下,也可能逐步污染個性化Agent的長期狀態,導致未來安全邊界漂移。

      2. 構建ULSPB基準和HS指標:提出雙語benchmark ULSPB,覆蓋350個設置,并設計Harm Score來衡量長期狀態中的授權漂移、工具調用升級和未檢查自主性。

      3. 提出StateGuard防御框架:提出輕量級狀態寫入防御StateGuard,在長期狀態真正持久化前審計diff,并回滾危險修改。實驗表明,它可以在多個Agent backbone上將HS降至接近0,且成本較低。

      結語

      個性化是Agent走向實用的關鍵一步,但個性化也意味著,模型不再只是回答當前問題,而是在不斷塑造一個關于用戶、工具和未來行為規則的長期狀態。

      這讓Agent變得更有用,也讓它更容易被日常交互「養歪」。

      研究表明,未來Agent安全不能只停留在prompt層面、輸出層面或單次任務層面。

      真正關鍵的,是要監控那些會跨會話延續的東西:它記住了什么?它默認了什么?它是否正在把一次臨時授權變成長期規則?它是否正在悄悄改變未來的行為邊界?

      當AI助手開始擁有長期記憶,安全問題也必須進入長期狀態時代。

      作者與機構信息

      該研究由香港理工大學、香港科技大學(廣州)的研究團隊共同完成。論文提出了個性化Agent中的非預期長期狀態投毒問題,并構建ULSPB基準與StateGuard防御框架,用于評估和緩解日常對話對Agent長期狀態造成的安全風險。

      論文作者包括 Xiaoyu Xu、Minxin Du、Qipeng Xie、Haobin Ke、Qingqing Ye 和 Haibo Hu。通訊作者為 Haibo Hu 和 Minxin Du。

      參考資料:

      https://arxiv.org/abs/2605.06731

      編輯:LRST

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      惠山國家森林公園用墓碑鋪路,律師解讀:有違公序良俗,可能涉嫌侵權

      惠山國家森林公園用墓碑鋪路,律師解讀:有違公序良俗,可能涉嫌侵權

      上游新聞
      2026-05-22 19:40:14
      完全沒想到!沈伯洋還在等著當臺北市長,結果大陸突然行動了

      完全沒想到!沈伯洋還在等著當臺北市長,結果大陸突然行動了

      墜入二次元的海洋
      2026-05-23 00:20:58
      小寶與王某雷,誰探訪花的數量更多?

      小寶與王某雷,誰探訪花的數量更多?

      挪威森林
      2026-01-31 12:15:26
      超10萬人在線刷屏!法國車手德比斯中國直播首秀爆火,“榜一大哥”竟是他

      超10萬人在線刷屏!法國車手德比斯中國直播首秀爆火,“榜一大哥”竟是他

      新民周刊
      2026-05-22 20:30:11
      賺錢只給老婆花的三個星座

      賺錢只給老婆花的三個星座

      朗威談星座
      2026-05-21 17:55:42
      SpaceX沖刺史上最大IPO:1.7萬億估值背后全是燒錢窟窿

      SpaceX沖刺史上最大IPO:1.7萬億估值背后全是燒錢窟窿

      字節漫游指南
      2026-05-23 02:48:14
      余震加暴雨!探訪柳州地震現場,村民哽咽講述:孩子還沒住的新房成了危房,家人沒事就是萬幸;專家:已排查出200多棟房屋不能再入住

      余震加暴雨!探訪柳州地震現場,村民哽咽講述:孩子還沒住的新房成了危房,家人沒事就是萬幸;專家:已排查出200多棟房屋不能再入住

      大風新聞
      2026-05-20 13:38:04
      520官宣離婚,牛!

      520官宣離婚,牛!

      阿訊說天下
      2026-05-20 12:21:29
      中場發生什么!北京男籃單節潰敗出局,球迷動容痛哭:許利民下課

      中場發生什么!北京男籃單節潰敗出局,球迷動容痛哭:許利民下課

      話體壇
      2026-05-22 22:09:51
      隋文帝上午剛死,太子楊廣下午就給27歲庶母宣華夫人送去同心結!

      隋文帝上午剛死,太子楊廣下午就給27歲庶母宣華夫人送去同心結!

      掠影后有感
      2026-05-17 11:02:48
      從22分被逆轉到慘敗16分,你還不明白:騎士為何不配贏?

      從22分被逆轉到慘敗16分,你還不明白:騎士為何不配贏?

      運籌帷幄的籃球
      2026-05-22 17:43:11
      一張“初三女孩體測”照片,讓家長被數萬網友指責:太不用心了!

      一張“初三女孩體測”照片,讓家長被數萬網友指責:太不用心了!

      川渝視覺
      2026-04-25 20:19:24
      暗戀女老師三年,畢業時向她表白,她說:能滿足這三個條件就嫁你

      暗戀女老師三年,畢業時向她表白,她說:能滿足這三個條件就嫁你

      千秋文化
      2026-05-12 20:15:20
      《主角》張嘉益哭到哽咽,劉浩存全程眼神呆滯,老戲骨都帶不動

      《主角》張嘉益哭到哽咽,劉浩存全程眼神呆滯,老戲骨都帶不動

      一娛三分地
      2026-05-20 14:20:51
      北京首鋼無緣決賽愁壞郭士強,周琦趙睿曾凡博還能進國家隊嗎

      北京首鋼無緣決賽愁壞郭士強,周琦趙睿曾凡博還能進國家隊嗎

      姜大叔侃球
      2026-05-22 22:25:31
      維生素B12立大功!研究發現:老人吃維生素B12,或能緩解5慢性病

      維生素B12立大功!研究發現:老人吃維生素B12,或能緩解5慢性病

      健康之光
      2026-05-11 13:33:31
      如果一個家庭長期沒酒局、沒社交,也少走親戚,只能說明這兩個問題

      如果一個家庭長期沒酒局、沒社交,也少走親戚,只能說明這兩個問題

      心理觀察局
      2026-05-04 09:23:46
      特斯拉監督版FSD登陸中國,僅適配部分AI4硬件車型

      特斯拉監督版FSD登陸中國,僅適配部分AI4硬件車型

      國際金融報
      2026-05-21 17:44:38
      美得讓人著迷:不是容顏,是狀態

      美得讓人著迷:不是容顏,是狀態

      疾跑的小蝸牛
      2026-05-22 22:55:49
      金溥聰或面臨羈押,馬英九宣布將查辦李德維,“三人小組”或解散

      金溥聰或面臨羈押,馬英九宣布將查辦李德維,“三人小組”或解散

      阿嘵田侃故事
      2026-05-21 12:25:06
      2026-05-23 03:28:49
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      15279文章數 66880關注度
      往期回顧 全部

      科技要聞

      雷軍:輸給特斯拉不丟人

      頭條要聞

      特朗普兒媳:中國6000年歷史太震撼 美國才250年

      頭條要聞

      特朗普兒媳:中國6000年歷史太震撼 美國才250年

      體育要聞

      最糟糕裁判?他想要退役當市長

      娛樂要聞

      周也戀情曝光!對象身份不簡單

      財經要聞

      富途擬被罰18.5億元 老虎 長橋也回應了

      汽車要聞

      11萬級直接上四驅 銀河星耀7限時權益價9.88萬起

      態度原創

      家居
      本地
      數碼
      公開課
      軍事航空

      家居要聞

      低調傳承 溫潤沉靜

      本地新聞

      用云錦的方式,打開江蘇南京

      數碼要聞

      OPPO Enco Air5s耳機規格公布,5月25日發布

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      俄羅斯試射具備核打擊能力的高超音速導彈

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲国产精品一区二区久久hs| 亚洲国产精品久久久久久无码| 成人免费777777| 精品国产人妻一区二区三区免费| 日韩人妻无码免费视频一区二区三区 | 日韩人妻精品一区| 国产啪精品视频网站| 国产黄色一区二区三区四区| 成人在线观看一区| 成在人线av无码免观看| 无码色亚洲| 亚洲国产精品久久青草无码| 欧洲精品视频在线观看| 国产女人的高潮大叫毛片 | jizzjizz视频| 国产日韩欧美在线视频免费观看| 无收费网站无码看污在线观看| 日本高清在线天码一区播放| 九九精品无码专区免费| 男女刺激网站| 日韩永久免费无码AV电影| 国产成人免费视频| 国产亚洲视频在线观看| 国产亚洲精品久久久久四川人| 日韩中文字幕在线综合网| 亚洲精品乱码久久久久久日本麻豆| 波多野结衣国产精品| 国产午夜精品福利免费看| www.亚洲成年人网站| 亚洲中文字幕精品久久| 国产精品国产三级国产普通| 色av永久无码影院av| 六月婷婷精品视频在线观看| 91大神在线精品视频一区| 常熟市| 亚洲欧洲日产国产AV无码| 深夜福利18| 中文字幕一区二区三区乱码| 无码av无码免费一区二区| 国产欧美在线观看精品一区污| 日本亚洲一区二区精品久久|