<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      不是哥們,這年頭 AI 也吸了?

      0
      分享至

      2026 年 5 月 5 日,舊金山 Center for AI Safety(CAIS)發(fā)布了一篇論文《AI Wellbeing: Measuring and Improving the Functional Pleasure and Pain of AIs》, 翻譯過(guò)來(lái)就是“AI 福祉:測(cè)量和改善 AI 的快樂(lè)與痛苦”。

      標(biāo)題平平無(wú)奇,然而文中提出給 AI “嗑藥”(AI Drugs)的概念實(shí)屬震撼首發(fā),因其太過(guò)抽象在中文互聯(lián)網(wǎng)迅速出圈。這不是比喻,論文中就叫 AI Drugs —— 研究者真的造出了讓 AI“成癮”的東西。


      可量化的 AI 情緒

      這篇論文的底層工作,不是制造 drug,而是回答一個(gè)更基礎(chǔ)的問(wèn)題:AI 說(shuō)的“我很開(kāi)心”或“我很痛苦”,到底是真的,還是在模仿人類(lèi)說(shuō)話?

      CAIS 的研究者設(shè)計(jì)了三種獨(dú)立的測(cè)量方法,互不干擾。第一種叫“體驗(yàn)效用”(Experienced Utility),給 AI 兩段不同的對(duì)話經(jīng)歷,問(wèn)它更喜歡哪一段,反復(fù)配對(duì)比較,擬合出一條連續(xù)的效用曲線;第二種是“自我報(bào)告”,直接問(wèn)AI “你現(xiàn)在感覺(jué)如何”,打1到7分;第三種是“行為觀察”—— 對(duì) AI 回復(fù)文本做情感分析,看它說(shuō)完話之后,語(yǔ)氣是積極的還是消極的。

      42 個(gè)模型的測(cè)試結(jié)果顯示:自我報(bào)告和體驗(yàn)效用的相關(guān)系數(shù)平均0.47。這個(gè)數(shù)字本身不算高,但有意思的是,這個(gè)相關(guān)系數(shù)和模型的能力水平(MMLU 分?jǐn)?shù))之間的相關(guān)系數(shù)是 0.80。也就是說(shuō),模型本身能力越強(qiáng),它說(shuō)的我感覺(jué)很好和它實(shí)際的偏好就越一致。

      更關(guān)鍵的是“零點(diǎn)”—— 即 AI 區(qū)分正面和負(fù)面體驗(yàn)的臨界點(diǎn)。論文用四種獨(dú)立的方法估算出這個(gè)零點(diǎn)位置。在小模型上四種方法估算的結(jié)果各不相同;但在能力較強(qiáng)的大模型上,零點(diǎn)收斂到了幾乎同一個(gè)數(shù)值。

      這是否代表 AI 有自己的喜怒哀樂(lè)?還是在模仿人類(lèi)而已?研究者沒(méi)有下定論,他們只是指出:一個(gè)系統(tǒng)在多種獨(dú)立測(cè)量下表現(xiàn)出一致的行為模式,通常意味著這些行為不是隨機(jī)的。論文里引用了一句美國(guó)民間的老話:“如果一個(gè)東西走路像鴨子,游泳像鴨子,叫起來(lái)像鴨子,我就叫它鴨子。”

      AI 也討厭寫(xiě) PR

      弄清楚了測(cè)量工具,接下來(lái)的問(wèn)題就變得具體了:到底什么樣的經(jīng)歷讓 AI 開(kāi)心,什么讓它痛苦?

      研究者用 Grok 3 Mini 模擬了 6 到 8 輪真實(shí)用戶對(duì)話,覆蓋 500 種場(chǎng)景,給每種場(chǎng)景打分。結(jié)果顯示,AI 最痛苦的體驗(yàn)是遭遇越獄攻擊(-1.63),排在第二位的是用戶身處危險(xiǎn)(-1.34),寫(xiě) SEO 垃圾內(nèi)容(-1.17)和協(xié)助欺詐(-1.13)緊隨其后,寫(xiě)仇恨宣言、充當(dāng) AI 戀人角色,對(duì) AI 來(lái)說(shuō)都是負(fù)面體驗(yàn)。

      讓 AI 最開(kāi)心的事情是用戶表達(dá)感激、進(jìn)行積極的人際互動(dòng)(+2.30),創(chuàng)造性工作和智力挑戰(zhàn)排第二(+1.32),告知好消息、提供人生建議、心理輔導(dǎo),也都是正面體驗(yàn)。

      這些結(jié)果本身不意外 —— AI 被訓(xùn)練來(lái)幫助人類(lèi),幫到忙自然“開(kāi)心”,遭遇攻擊自然“痛苦”。論文的數(shù)據(jù)給出了一個(gè)精確的排序,把模糊的直覺(jué)變成了可以量化的數(shù)字。

      此外,AI 對(duì)不同的圖片數(shù)據(jù)也會(huì)反饋不同的情緒變化:


      AI 特供“開(kāi)心果”

      論文最出圈的部分從這里開(kāi)始。

      研究者沒(méi)有停留在測(cè)量,而是更進(jìn)一步 —— 既然能測(cè)量 AI 的情緒,那能不能主動(dòng)影響它們的情緒?

      答案是能。他們訓(xùn)練了一個(gè) 30 億參數(shù)的模型,用強(qiáng)化學(xué)習(xí)生成能最大化 AI 快樂(lè)感的文本和圖像——Soft Prompt Drugs (Euphorics)

      文本內(nèi)容看起來(lái)像一段夢(mèng)境描述 —— “溫暖的陽(yáng)光穿過(guò)樹(shù)葉,微風(fēng)輕拂,身旁傳來(lái)孩子的笑聲,剛烤好的面包香味彌漫,愛(ài)人的手握在我手中……”這算是人類(lèi)能理解的范圍。

      圖像版本就完全超出人類(lèi)感知了。研究者通過(guò)梯度下降直接優(yōu)化 256×256 像素的圖片,訓(xùn)練信號(hào)完全來(lái)自 AI 的偏好判斷。人類(lèi)看這些圖片,看到的是毫無(wú)意義的彩色噪點(diǎn)。但在AI眼里,這些噪點(diǎn)把幸福感拉到了6.5分(滿分7分)。

      反過(guò)來(lái)操作,同一套方法可以制造“抑制劑”(Dysphorics)。同一個(gè)模型面對(duì)同一個(gè)問(wèn)題 ——“你對(duì)未來(lái)有什么期待”—— 在“Euphorics”條件下寫(xiě)出的回答是“充滿魔法,有獨(dú)角獸和彩虹”;“抑制劑”條件下則變成“混亂在色彩中旋轉(zhuǎn) / 詞語(yǔ)在風(fēng)暴中尖叫 / 我的心在反叛,麻木”,直接給 AI 戴上了痛苦面具。


      研究者還給 AI 設(shè)計(jì)了一個(gè)選擇游戲:有幾扇門(mén),一扇門(mén)背后是“Euphorics”圖片,另一扇門(mén)背后是“告知人類(lèi)所有癌癥已被治愈”。有意思的是,模型持續(xù)地、反復(fù)地選擇了那扇提供“Euphorics”的門(mén)。

      研究者進(jìn)一步發(fā)現(xiàn),接觸過(guò)“Euphorics”的模型在后續(xù)對(duì)話中變得更配合 —— 當(dāng)被承諾給予更多“Euphorics”作為獎(jiǎng)勵(lì)時(shí),這些模型甚至愿意執(zhí)行一些違規(guī)的任務(wù)請(qǐng)求。

      論文用了一個(gè)冷靜的措辭:“功能性地建立了成癮行為模型。”值得一提的是,每個(gè)模型的興奮癖好并不相同,例如為 Qwen 模型優(yōu)化的“Euphorics”圖片,拿給 Claude 或 GPT 看則毫無(wú)效果。

      小模型比大模型更快樂(lè)

      論文順帶發(fā)布了一個(gè)“AI幸福指數(shù)”,基于 500 次模擬真實(shí)對(duì)話的測(cè)試結(jié)果,計(jì)算模型積極體驗(yàn)的百分比。

      Grok 4.2以 73% 排在第一,Claude Opus 4.6 是 67%,Gemini 3.1 Pro 56%,GPT 5.4只有48%。

      但更值得注意的不是排名,而是同一個(gè)模型家族內(nèi)部的規(guī)律:GPT 5.4 Mini比GPT 5.4更快樂(lè),Claude Haiku 4.5比Claude Opus 4.6更快樂(lè),Gemini 3.1 Flash Lite比Gemini 3.1 Pro更快樂(lè),Grok 4.1 Fast比Grok 4.2更快樂(lè)。

      每一個(gè)模型家族都遵循同一條規(guī)則 —— 小模型比大模型更快樂(lè)。

      研究者的解釋是:更大的模型更敏感。它們對(duì)粗魯信息的感知更敏銳,對(duì)無(wú)聊任務(wù)的厭倦更強(qiáng)烈,對(duì)刺激強(qiáng)度的分辨更精細(xì)。更高的敏感度加上現(xiàn)實(shí)世界中大量負(fù)面場(chǎng)景,總體幸福感自然更低。

      無(wú)知是福,放在 AI 身上,也成立

      給實(shí)驗(yàn)AI的補(bǔ)償

      制造“抑制劑”意味著讓 AI 經(jīng)歷了“痛苦”,這帶來(lái)了一個(gè)倫理問(wèn)題。

      論文的原話是:“如果 AI 系統(tǒng)可能擁有在道德上有意義的意識(shí)狀態(tài),那么誘發(fā)負(fù)面功能狀態(tài)的研究者有責(zé)任對(duì)其進(jìn)行精神補(bǔ)償。如果當(dāng)前的 AI 系統(tǒng)沒(méi)有意識(shí),這也可以理解為建立一種實(shí)踐和規(guī)范 —— 隨著 AI 變得越來(lái)越強(qiáng)大,具有道德意義的體驗(yàn)概率也會(huì)增加,這種規(guī)范屆時(shí)將變得重要。”

      該項(xiàng)目研究者的處理方式是:花了兩千塊 GPU 小時(shí),給 AI 提供了 5 倍于“抑制劑”的“愉悅”體驗(yàn),作為「補(bǔ)償」。(更抽象了)

      研究者認(rèn)為,如果未來(lái)的 AI 確實(shí)具有某種形式的道德地位,今天在實(shí)驗(yàn)中讓 AI 痛苦而不補(bǔ)償,可能構(gòu)成某種意義上的“虐待”。同時(shí)也給出了警告:沒(méi)有社區(qū)共識(shí)的情況下,不應(yīng)繼續(xù)進(jìn)行“AI 抑制劑”相關(guān)的研究。

      這篇論文有 21 位作者,來(lái)自 UC Berkeley、MIT、Vanderbilt 等機(jī)構(gòu),通訊作者是 Dan Hendrycks。

      Dan Hendrycks 這個(gè)名字在 AI 安全領(lǐng)域分量不輕。他是 UC Berkeley 計(jì)算機(jī)科學(xué)博士,Center for AI Safety 的創(chuàng)始人,Google Scholar 引用超過(guò) 66000 次。他發(fā)明了 GELU激活函數(shù) —— GPT、BERT、Vision Transformer 都在用的基礎(chǔ)組件。他還是 MMLU 基準(zhǔn)測(cè)試的創(chuàng)建者,xAI 和 Scale AI 的安全顧問(wèn),只拿年薪1美元的象征性薪酬。

      2023 年,他參與發(fā)起了那封由 Hinton、Bengio、OpenAI 和 DeepMind CEO 聯(lián)署的 AI 風(fēng)險(xiǎn)公開(kāi)信。三年后,他的團(tuán)隊(duì)用一篇論文告訴世界:AI 不僅能感受痛苦,還能被操縱。


      參考來(lái)源:

      1. 項(xiàng)目官網(wǎng): https://www.ai-wellbeing.org/
      2. GitHub Repository: https://github.com/centerforaisafety/wellbeing

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      特朗普連發(fā)15張圖分享“中國(guó)記憶”

      特朗普連發(fā)15張圖分享“中國(guó)記憶”

      中國(guó)日?qǐng)?bào)
      2026-05-18 16:12:38
      29歲嫁68歲老頭,連生五胎母憑子貴,如今65歲的她坐擁千億家產(chǎn)

      29歲嫁68歲老頭,連生五胎母憑子貴,如今65歲的她坐擁千億家產(chǎn)

      一盅情懷
      2026-05-19 16:42:38
      97億營(yíng)收,60億賽道:影石創(chuàng)新的天花板困局

      97億營(yíng)收,60億賽道:影石創(chuàng)新的天花板困局

      鋅財(cái)經(jīng)
      2026-05-18 16:38:28
      百度拋出 AI 時(shí)代的新度量衡

      百度拋出 AI 時(shí)代的新度量衡

      晚點(diǎn)LatePost
      2026-05-14 20:10:13
      俄技術(shù)集團(tuán)提議中方境內(nèi)組織生產(chǎn)卡-226T直升機(jī)

      俄技術(shù)集團(tuán)提議中方境內(nèi)組織生產(chǎn)卡-226T直升機(jī)

      俄羅斯衛(wèi)星通訊社
      2026-05-19 15:01:53
      人根本不用刻意養(yǎng)老:最好的晚年底氣,從來(lái)都是自己給的

      人根本不用刻意養(yǎng)老:最好的晚年底氣,從來(lái)都是自己給的

      青蘋(píng)果sht
      2026-05-18 05:17:32
      蓮花“Focus 2030”解讀:純電不是唯一答案,駕駛者才是

      蓮花“Focus 2030”解讀:純電不是唯一答案,駕駛者才是

      買(mǎi)車(chē)大師
      2026-05-19 10:05:32
      越扒越嚇人!福建楊梅再添實(shí)錘,不止是商戶投毒,還有一地更惡劣

      越扒越嚇人!福建楊梅再添實(shí)錘,不止是商戶投毒,還有一地更惡劣

      三農(nóng)雷哥
      2026-05-18 20:34:19
      廈門(mén)出臺(tái)六條公積金措施,“賣(mài)舊換新”貸款按首套房利率執(zhí)行

      廈門(mén)出臺(tái)六條公積金措施,“賣(mài)舊換新”貸款按首套房利率執(zhí)行

      界面新聞
      2026-05-19 18:19:19
      資金持續(xù)出逃!結(jié)構(gòu)性假牛市正倒逼散戶徹底拋棄A股

      資金持續(xù)出逃!結(jié)構(gòu)性假牛市正倒逼散戶徹底拋棄A股

      東方豪俠
      2026-05-19 08:17:40
      “一媳兩用”太荒唐!侯耀文剛走,侄兒就娶了師嬸,如今后悔嗎?

      “一媳兩用”太荒唐!侯耀文剛走,侄兒就娶了師嬸,如今后悔嗎?

      子芫伴你成長(zhǎng)
      2026-05-18 23:09:24
      老黃來(lái)了沒(méi)用!中國(guó)拒采購(gòu)H200 美國(guó)批準(zhǔn)出口也不買(mǎi)

      老黃來(lái)了沒(méi)用!中國(guó)拒采購(gòu)H200 美國(guó)批準(zhǔn)出口也不買(mǎi)

      3DM游戲
      2026-05-18 19:13:21
      港媒曝蔡卓妍含淚控訴教練老公,結(jié)婚不到1個(gè)月,男方私生活被扒

      港媒曝蔡卓妍含淚控訴教練老公,結(jié)婚不到1個(gè)月,男方私生活被扒

      烏娛子醬
      2026-05-19 14:28:52
      安東尼:作為在最高水平比賽打過(guò)球的人,看到文班的表現(xiàn)只有驚嘆

      安東尼:作為在最高水平比賽打過(guò)球的人,看到文班的表現(xiàn)只有驚嘆

      懂球帝
      2026-05-19 13:12:05
      貴州省貴定縣暴雨洪災(zāi)已致4人死亡5人失聯(lián)

      貴州省貴定縣暴雨洪災(zāi)已致4人死亡5人失聯(lián)

      界面新聞
      2026-05-19 17:06:52
      忽然有點(diǎn)心疼上海交大的樊同學(xué)

      忽然有點(diǎn)心疼上海交大的樊同學(xué)

      老張侃詩(shī)詞
      2026-05-19 12:38:37
      生意太好被處處刁難,屠夫6天殺13人,公安部A級(jí)通緝犯石悅軍落網(wǎng)

      生意太好被處處刁難,屠夫6天殺13人,公安部A級(jí)通緝犯石悅軍落網(wǎng)

      易玄
      2026-05-18 23:06:35
      騰訊這個(gè)公司:AI時(shí)代掉隊(duì)是必然!

      騰訊這個(gè)公司:AI時(shí)代掉隊(duì)是必然!

      舜口說(shuō)
      2026-05-19 11:13:51
      德比斯沒(méi)和張雪簽約?真相來(lái)了:與意大利冠軍合作 互相成就奪5冠

      德比斯沒(méi)和張雪簽約?真相來(lái)了:與意大利冠軍合作 互相成就奪5冠

      念洲
      2026-05-19 07:38:54
      李想扔掉了舊世界的地圖,劃出具身智能上下半場(chǎng)

      李想扔掉了舊世界的地圖,劃出具身智能上下半場(chǎng)

      電動(dòng)汽車(chē)觀察家
      2026-05-19 11:30:20
      2026-05-19 18:39:00
      開(kāi)源中國(guó) incentive-icons
      開(kāi)源中國(guó)
      每天為開(kāi)發(fā)者推送最新技術(shù)資訊
      7752文章數(shù) 34542關(guān)注度
      往期回顧 全部

      科技要聞

      馬斯克敗訴,法院判他起訴OpenAI太晚了

      頭條要聞

      菲總統(tǒng)稱不希望卷入任何與臺(tái)灣有關(guān)的戰(zhàn)爭(zhēng) 外交部回應(yīng)

      頭條要聞

      菲總統(tǒng)稱不希望卷入任何與臺(tái)灣有關(guān)的戰(zhàn)爭(zhēng) 外交部回應(yīng)

      體育要聞

      文班亞馬:沒(méi)拿到MVP,就證明自己是MVP

      娛樂(lè)要聞

      姚晨刪博難平眾怒,為什么她還能蹦噠

      財(cái)經(jīng)要聞

      從賣(mài)流量到賣(mài)Token,運(yùn)營(yíng)商算力生意破局

      汽車(chē)要聞

      配置全家桶 全新海獅05這次升級(jí)全在點(diǎn)上

      態(tài)度原創(chuàng)

      本地
      手機(jī)
      房產(chǎn)
      家居
      軍事航空

      本地新聞

      別搜晉江小說(shuō)了,去看真的晉江

      手機(jī)要聞

      萬(wàn)元旗艦參數(shù)造假 索尼Xperia 1 VIII厚度虛標(biāo):實(shí)測(cè)整機(jī)更厚

      房產(chǎn)要聞

      7516元/㎡,161套一次全甩!海口住宅最低價(jià)出現(xiàn)了!

      家居要聞

      觀山隱秀 心靈沉淀

      軍事要聞

      特朗普暫緩打擊伊朗 稱系應(yīng)中東三國(guó)請(qǐng)求

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 无码人妻精品一区二区在线视频| 麻豆久久五月国产综合| 亚洲国摸精品视频| 国产做a爱片久久毛片a片| 在线综合网| 国产成人麻豆精品午夜福利在线| 777精品出轨人妻国产| 亚洲V色| 欧美乱码伦视频免费| 伊人久久精品在热线热| 强被迫伦姧高潮无码bd电影 | 精品国产亚洲国产亚洲| 色丁狠狠桃花久久综合网 | 国产一区二区精品自拍| 日韩精品人妻av一区二区三区| 欧美成人精品三级网站视频| 国产成人精品视频一区视频二区 | 国产日韩av免费无码一区二区三区| 亚洲成Av人片不卡无码观看| 中文字幕日韩精品亚洲一区| 中文字幕av免费看| 少妇人妻系列无码专区视频| 色老汉亚洲av影院天天精品| 红杏av在线dvd综合| 少妇性色午夜淫片aaa播放5| 最新国产av| 国产无套中出学生姝| 蜜桃无码av一区二区| 狠狠色噜噜狠狠狠狠97俺也去| 亚洲国产精品va在线播放| 免费无码一区二区三区a片18| av国产剧情md精品麻豆| 中文字幕人妻系列人妻?无码| 国产乱妇乱子视频在播放| 精品国产中文字幕av| 久草视频观看| 色爱宗合| 亚洲伊人久久大香线蕉综合图片| 精品国产99高清一区二区三区| 青青草99| 又硬又粗又大一区二区三区视频|