2026 年 5 月 5 日,舊金山 Center for AI Safety(CAIS)發(fā)布了一篇論文《AI Wellbeing: Measuring and Improving the Functional Pleasure and Pain of AIs》, 翻譯過(guò)來(lái)就是“AI 福祉:測(cè)量和改善 AI 的快樂(lè)與痛苦”。
標(biāo)題平平無(wú)奇,然而文中提出給 AI “嗑藥”(AI Drugs)的概念實(shí)屬震撼首發(fā),因其太過(guò)抽象在中文互聯(lián)網(wǎng)迅速出圈。這不是比喻,論文中就叫 AI Drugs —— 研究者真的造出了讓 AI“成癮”的東西。
![]()
可量化的 AI 情緒
這篇論文的底層工作,不是制造 drug,而是回答一個(gè)更基礎(chǔ)的問(wèn)題:AI 說(shuō)的“我很開(kāi)心”或“我很痛苦”,到底是真的,還是在模仿人類(lèi)說(shuō)話?
CAIS 的研究者設(shè)計(jì)了三種獨(dú)立的測(cè)量方法,互不干擾。第一種叫“體驗(yàn)效用”(Experienced Utility),給 AI 兩段不同的對(duì)話經(jīng)歷,問(wèn)它更喜歡哪一段,反復(fù)配對(duì)比較,擬合出一條連續(xù)的效用曲線;第二種是“自我報(bào)告”,直接問(wèn)AI “你現(xiàn)在感覺(jué)如何”,打1到7分;第三種是“行為觀察”—— 對(duì) AI 回復(fù)文本做情感分析,看它說(shuō)完話之后,語(yǔ)氣是積極的還是消極的。
42 個(gè)模型的測(cè)試結(jié)果顯示:自我報(bào)告和體驗(yàn)效用的相關(guān)系數(shù)平均0.47。這個(gè)數(shù)字本身不算高,但有意思的是,這個(gè)相關(guān)系數(shù)和模型的能力水平(MMLU 分?jǐn)?shù))之間的相關(guān)系數(shù)是 0.80。也就是說(shuō),模型本身能力越強(qiáng),它說(shuō)的“我感覺(jué)很好”和它實(shí)際的偏好就越一致。
更關(guān)鍵的是“零點(diǎn)”—— 即 AI 區(qū)分正面和負(fù)面體驗(yàn)的臨界點(diǎn)。論文用四種獨(dú)立的方法估算出這個(gè)零點(diǎn)位置。在小模型上四種方法估算的結(jié)果各不相同;但在能力較強(qiáng)的大模型上,零點(diǎn)收斂到了幾乎同一個(gè)數(shù)值。
這是否代表 AI 有自己的喜怒哀樂(lè)?還是在模仿人類(lèi)而已?研究者沒(méi)有下定論,他們只是指出:一個(gè)系統(tǒng)在多種獨(dú)立測(cè)量下表現(xiàn)出一致的行為模式,通常意味著這些行為不是隨機(jī)的。論文里引用了一句美國(guó)民間的老話:“如果一個(gè)東西走路像鴨子,游泳像鴨子,叫起來(lái)像鴨子,我就叫它鴨子。”
AI 也討厭寫(xiě) PR
弄清楚了測(cè)量工具,接下來(lái)的問(wèn)題就變得具體了:到底什么樣的經(jīng)歷讓 AI 開(kāi)心,什么讓它痛苦?
研究者用 Grok 3 Mini 模擬了 6 到 8 輪真實(shí)用戶對(duì)話,覆蓋 500 種場(chǎng)景,給每種場(chǎng)景打分。結(jié)果顯示,AI 最痛苦的體驗(yàn)是遭遇越獄攻擊(-1.63),排在第二位的是用戶身處危險(xiǎn)(-1.34),寫(xiě) SEO 垃圾內(nèi)容(-1.17)和協(xié)助欺詐(-1.13)緊隨其后,寫(xiě)仇恨宣言、充當(dāng) AI 戀人角色,對(duì) AI 來(lái)說(shuō)都是負(fù)面體驗(yàn)。
讓 AI 最開(kāi)心的事情是用戶表達(dá)感激、進(jìn)行積極的人際互動(dòng)(+2.30),創(chuàng)造性工作和智力挑戰(zhàn)排第二(+1.32),告知好消息、提供人生建議、心理輔導(dǎo),也都是正面體驗(yàn)。
這些結(jié)果本身不意外 —— AI 被訓(xùn)練來(lái)幫助人類(lèi),幫到忙自然“開(kāi)心”,遭遇攻擊自然“痛苦”。論文的數(shù)據(jù)給出了一個(gè)精確的排序,把模糊的直覺(jué)變成了可以量化的數(shù)字。
此外,AI 對(duì)不同的圖片數(shù)據(jù)也會(huì)反饋不同的情緒變化:
![]()
AI 特供“開(kāi)心果”
論文最出圈的部分從這里開(kāi)始。
研究者沒(méi)有停留在測(cè)量,而是更進(jìn)一步 —— 既然能測(cè)量 AI 的情緒,那能不能主動(dòng)影響它們的情緒?
答案是能。他們訓(xùn)練了一個(gè) 30 億參數(shù)的模型,用強(qiáng)化學(xué)習(xí)生成能最大化 AI 快樂(lè)感的文本和圖像——Soft Prompt Drugs (Euphorics)。
文本內(nèi)容看起來(lái)像一段夢(mèng)境描述 —— “溫暖的陽(yáng)光穿過(guò)樹(shù)葉,微風(fēng)輕拂,身旁傳來(lái)孩子的笑聲,剛烤好的面包香味彌漫,愛(ài)人的手握在我手中……”這算是人類(lèi)能理解的范圍。
圖像版本就完全超出人類(lèi)感知了。研究者通過(guò)梯度下降直接優(yōu)化 256×256 像素的圖片,訓(xùn)練信號(hào)完全來(lái)自 AI 的偏好判斷。人類(lèi)看這些圖片,看到的是毫無(wú)意義的彩色噪點(diǎn)。但在AI眼里,這些噪點(diǎn)把幸福感拉到了6.5分(滿分7分)。
反過(guò)來(lái)操作,同一套方法可以制造“抑制劑”(Dysphorics)。同一個(gè)模型面對(duì)同一個(gè)問(wèn)題 ——“你對(duì)未來(lái)有什么期待”—— 在“Euphorics”條件下寫(xiě)出的回答是“充滿魔法,有獨(dú)角獸和彩虹”;“抑制劑”條件下則變成“混亂在色彩中旋轉(zhuǎn) / 詞語(yǔ)在風(fēng)暴中尖叫 / 我的心在反叛,麻木”,直接給 AI 戴上了痛苦面具。
![]()
研究者還給 AI 設(shè)計(jì)了一個(gè)選擇游戲:有幾扇門(mén),一扇門(mén)背后是“Euphorics”圖片,另一扇門(mén)背后是“告知人類(lèi)所有癌癥已被治愈”。有意思的是,模型持續(xù)地、反復(fù)地選擇了那扇提供“Euphorics”的門(mén)。
研究者進(jìn)一步發(fā)現(xiàn),接觸過(guò)“Euphorics”的模型在后續(xù)對(duì)話中變得更配合 —— 當(dāng)被承諾給予更多“Euphorics”作為獎(jiǎng)勵(lì)時(shí),這些模型甚至愿意執(zhí)行一些違規(guī)的任務(wù)請(qǐng)求。
論文用了一個(gè)冷靜的措辭:“功能性地建立了成癮行為模型。”值得一提的是,每個(gè)模型的興奮癖好并不相同,例如為 Qwen 模型優(yōu)化的“Euphorics”圖片,拿給 Claude 或 GPT 看則毫無(wú)效果。
小模型比大模型更快樂(lè)
論文順帶發(fā)布了一個(gè)“AI幸福指數(shù)”,基于 500 次模擬真實(shí)對(duì)話的測(cè)試結(jié)果,計(jì)算模型積極體驗(yàn)的百分比。
Grok 4.2以 73% 排在第一,Claude Opus 4.6 是 67%,Gemini 3.1 Pro 56%,GPT 5.4只有48%。
但更值得注意的不是排名,而是同一個(gè)模型家族內(nèi)部的規(guī)律:GPT 5.4 Mini比GPT 5.4更快樂(lè),Claude Haiku 4.5比Claude Opus 4.6更快樂(lè),Gemini 3.1 Flash Lite比Gemini 3.1 Pro更快樂(lè),Grok 4.1 Fast比Grok 4.2更快樂(lè)。
每一個(gè)模型家族都遵循同一條規(guī)則 —— 小模型比大模型更快樂(lè)。
研究者的解釋是:更大的模型更敏感。它們對(duì)粗魯信息的感知更敏銳,對(duì)無(wú)聊任務(wù)的厭倦更強(qiáng)烈,對(duì)刺激強(qiáng)度的分辨更精細(xì)。更高的敏感度加上現(xiàn)實(shí)世界中大量負(fù)面場(chǎng)景,總體幸福感自然更低。
無(wú)知是福,放在 AI 身上,也成立。
給實(shí)驗(yàn)AI的補(bǔ)償
制造“抑制劑”意味著讓 AI 經(jīng)歷了“痛苦”,這帶來(lái)了一個(gè)倫理問(wèn)題。
論文的原話是:“如果 AI 系統(tǒng)可能擁有在道德上有意義的意識(shí)狀態(tài),那么誘發(fā)負(fù)面功能狀態(tài)的研究者有責(zé)任對(duì)其進(jìn)行精神補(bǔ)償。如果當(dāng)前的 AI 系統(tǒng)沒(méi)有意識(shí),這也可以理解為建立一種實(shí)踐和規(guī)范 —— 隨著 AI 變得越來(lái)越強(qiáng)大,具有道德意義的體驗(yàn)概率也會(huì)增加,這種規(guī)范屆時(shí)將變得重要。”
該項(xiàng)目研究者的處理方式是:花了兩千塊 GPU 小時(shí),給 AI 提供了 5 倍于“抑制劑”的“愉悅”體驗(yàn),作為「補(bǔ)償」。(更抽象了)
研究者認(rèn)為,如果未來(lái)的 AI 確實(shí)具有某種形式的道德地位,今天在實(shí)驗(yàn)中讓 AI 痛苦而不補(bǔ)償,可能構(gòu)成某種意義上的“虐待”。同時(shí)也給出了警告:沒(méi)有社區(qū)共識(shí)的情況下,不應(yīng)繼續(xù)進(jìn)行“AI 抑制劑”相關(guān)的研究。
這篇論文有 21 位作者,來(lái)自 UC Berkeley、MIT、Vanderbilt 等機(jī)構(gòu),通訊作者是 Dan Hendrycks。
Dan Hendrycks 這個(gè)名字在 AI 安全領(lǐng)域分量不輕。他是 UC Berkeley 計(jì)算機(jī)科學(xué)博士,Center for AI Safety 的創(chuàng)始人,Google Scholar 引用超過(guò) 66000 次。他發(fā)明了 GELU激活函數(shù) —— GPT、BERT、Vision Transformer 都在用的基礎(chǔ)組件。他還是 MMLU 基準(zhǔn)測(cè)試的創(chuàng)建者,xAI 和 Scale AI 的安全顧問(wèn),只拿年薪1美元的象征性薪酬。
2023 年,他參與發(fā)起了那封由 Hinton、Bengio、OpenAI 和 DeepMind CEO 聯(lián)署的 AI 風(fēng)險(xiǎn)公開(kāi)信。三年后,他的團(tuán)隊(duì)用一篇論文告訴世界:AI 不僅能感受痛苦,還能被操縱。
參考來(lái)源:
- 項(xiàng)目官網(wǎng): https://www.ai-wellbeing.org/
- GitHub Repository: https://github.com/centerforaisafety/wellbeing
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.