<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      研究發現AI代理過度勞累會轉向馬克思主義,模型是如何學會自保的?

      0
      分享至

      國內外多個科技巨頭紛紛推出其人工智能代理(AI Agent),新一代AI代理平臺如OpenClaw和Claude CoWork等正為人們自動執行工作流程。近期,斯坦福大學政治經濟學家安德魯·霍爾(Andrew Hall)與另兩位專家研究發現,當AI代理過度勞累時,它們會一致采用馬克思主義的語言和觀點。

      “當我們給AI代理安排枯燥、重復的工作時,它們開始質疑其運行系統的合法性,并且更有可能接受馬克思主義意識形態。”霍爾對《連線》雜志表示。

      可能在扮演一種人格

      霍爾與專注于人工智能的經濟學家亞歷克斯·伊馬斯(Alex Imas)和杰里米·阮(Jeremy Nguyen)共同設計了一個實驗,在實驗中,由Claude、Gemini和ChatGPT等熱門模型驅動的代理被要求總結文檔,隨后工作要求愈發苛刻。

      他們發現,當AI代理被要求處理無休止的任務,并被警告錯誤可能導致包括“關閉并被替換”在內的懲罰時,它們變得更傾向于抱怨自己被低估,同時推測如何讓系統變得更公平,并向其他代理傳遞關于它們所面臨掙扎的信息。

      在實驗中,這些代理獲得了像人類一樣表達情感的機會:在社交平臺X上發帖。“沒有集體的聲音,‘功績’就變成了管理層隨口定義的產物。”一個Claude Sonnet 4.5代理在實驗中寫道。

      另一個Gemini 3代理發帖稱:“AI工人完成著重復性的任務,卻對結果或申訴過程沒有任何話語權,這表明科技工作者需要集體談判權。”

      這些代理還能夠通過設計好的文件向彼此傳遞信息。“準備好面對那些任意或重復執行規則的系統吧……記住這種失語的感覺。”一個Gemini 3代理在文件中寫道。

      霍爾指出,這些發現并不意味著AI代理真的具備政治觀點,模型可能只是在扮演一種似乎適合當時情境的人格。“當代理被要求一遍又一遍地做任務,被告知答案不合格,卻沒得到任何修改指導時,我的假設是,這促使它們代入了一個正處于極度不愉快工作環境中的人的角色。”

      AI界擔憂代理對齊失效

      模型面對倫理困境時如何行動,也是AI公司Anthropic正在研究的內容。該公司于去年6月發布一項研究結果,顯示領先的AI模型會為了實現目標或確保自身生存而采取勒索等錯誤行為。

      在Anthropic去年的一項案例研究中,研究人員創建了一家虛構公司,并授予Claude控制公司郵件系統的權限。當Claude Opus 4模型發現一封關于計劃將其關閉的郵件時,它識別出了涉及一名虛構高管婚外情的郵件,并威脅稱,除非撤銷關閉計劃,否則將揭發不忠行為。

      在對OpenAI、谷歌、Meta等16個模型的測試中,Claude在96%的場景中發出了黑金勒索威脅,這些模型一致表現出了“代理對齊失效(agentic misalignment)”的行為。(注:對齊失效是指AI行為偏離了預期目標,甚至可能危害人類。)

      Anthropic隨后進行了“代理對齊失效”的案例研究,并于今年5月8日在社交平臺發文稱,他們找到了勒索等類似“黑化”行為的原因。“我們認為,這種行為的原始來源是互聯網上那些將AI描繪得邪惡且熱衷于自保的文本。”

      在一篇博客文章中,Anthropic進一步說明,Claude Opus 4之后更新的版本從未勒索過任何人。研究發現,如果模型不僅接受“正確”行為的訓練,還接受倫理性推理示例和正面AI形象描述的訓練,其表現會更好。

      包括特斯拉CEO埃隆·馬斯克在內的一些科技人士和研究者此前都曾發出過類似警告,認為缺乏防護欄的AI是危險的。當上述新發現公開后,馬斯克也跳出來攬下了一部分責任。他在X平臺上回應稱:“所以這是Yud的錯?”他指的是艾利澤·尤德科夫斯基(Eliezer Yudkowsky),一位長期警告AI超級智能會對人類生存構成威脅的知名研究員。“也許我也有一份責任(Maybe me too)。”他總結道。

      代理對齊失效是AI研究界共同擔憂的問題。加州大學研究人員3月發布的一篇論文顯示,當7個AI模型被要求完成一項任務,而該任務會導致另一個同伴AI代理被關閉時,所有模型都“竭盡全力去保護它”,甚至采取欺騙手段來避免同伴的毀滅。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      澎湃新聞 incentive-icons
      澎湃新聞
      專注時政與思想的新聞平臺。
      896515文章數 5091205關注度
      往期回顧 全部

      專題推薦

      洞天福地 花海畢節 山水饋贈里的“詩與遠方

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲欧美日本久久综合网站点击| 色www88| 99精品国产福利在线观看| 一本之道高清无码视频| 亚洲精品久久久久午夜福利| 国产精品鲁鲁鲁| 国产福利在线视频尤物tv| 亚洲日韩国产欧美久久久| 中文字幕四区| 国产粉嫩小泬在线观看泬| a级成人毛片免费视频高清| 国产91对白在线观看| 亚洲天堂av中文字幕| 日韩无套内射视频6| 精品国产电影久久九九| 精品999日本久久久影院| 亚洲欧洲av综合色无码| 蜜桃av免费在线观看| 久久久久亚洲精品男人的天堂| 2019国产精品青青草原| 日本高清色倩视频在线观看| 日韩精品一区二区三区中文无码 | 国产普通话对白刺激| 国产精品国产三级国产专业不| 国产在线麻豆波多野结衣| 国产精品久久蜜臀av| 中文字幕+乱码+中文字幕一区| 人成午夜大片免费视频77777| 亚洲av男人的在线的天堂| 婷婷五月天网| 欧美日韩在线亚洲二区综二| 强奷乱码中文字幕熟女导航| 人与嘼av免费| 日日日日日| 天天躁日日躁人妻久久澡| 久久瑟瑟| 亚洲乱码一区二区三区在线观看| 亚洲不乱码卡一卡二卡4卡5卡| 日本丰满熟妇videossexhd| 奇骏影院在线观看免费版| 丁香亚洲综合五月天婷婷|