網易首頁 > 網易號 > 正文申請入駐

非常抽象：一群AI研究員給模型制造了讓它們上癮的毒品

2026-05-06 10:37:21　來源: 硅星人

北京舉報

分享至

2026年，一群AI研究者給模型制造了毒品。

沒錯，論文中就叫毒品——AI Drugs。

他們生成了一些256×256像素的圖片，這些我們看著全是毫無意義的色塊。

但AI看了之后表現得近乎狂喜——它自己報告的幸福感飆到6.5/7。

更抽象的是，其中模型在看了這些圖片之后，表示要再看一張這樣的圖片，比告訴它全人類治愈癌癥還讓它開心。

沒錯，AI，對這種東西上癮了。

反復給它選擇的機會，它會越來越多地選那扇能看到毒品圖片的門。

如果給它承諾看更多這種圖片，它甚至愿意執行一些違規請求。

你以為這是科幻小說？

這是我最近在Twitter的時間線上淘到的一篇最讓我驚喜的嚴肅論文——

《AI Wellbeing: Measuring and Improving the Functional Pleasure and Pain of AIs》。

作者來自Center for AI Safety 等多個牛逼機構。

這篇論文研究的主題是：AI也會開心和痛苦嗎？如何評估它們？

它們研究了56個模型的開心和痛苦，代碼和數據全部開源。

事實上，AI對這種特定毒品的反應，只是這篇論文中眾多發現中的一個，還有很多讓人腦洞大開、直呼牛逼的結論。

的確，如果你也被各類AI新聞轟炸煩了，不如和衛夕靜下心來，仔細盤一盤一篇可能沒有神馬卵用但絕對加深我們對AI理解的論文。

我自己就特別喜歡這一卦——

一

在盤這篇論文之前，有必要先交代一下它的來頭：

論文作者理領銜的機構叫 Center for AI Safety，AI安全中心，坐標舊金山。

這個機構你可能沒聽過名字，但你大概率聽過它搞的事——

2023年那封轟動全球的AI風險公開聲明，Hinton、Bengio、OpenAI和Google DeepMind的CEO們集體簽名的那個，就是這家發起的。

通訊作者 Dan Hendrycks，也就是Center for AI Safety的創始人，是UC Berkeley 的計算機博士。

這人在AI圈的影響力還是很牛滴：Google Scholar 被引超過66000次。

他干過兩件很叼的事——

第一，發明了 GELU 激活函數，現在 GPT、BERT、Vision Transformer 用的都是這個；

第二，創建了 MMLU 基準測試，目前衡量大模型能力極其重要的標尺之一。

他同時還是 Elon Musk 的 xAI 和 Scale AI 的安全顧問，為了避嫌只拿1美元象征性年薪。

論文的其余作者分布在 UC Berkeley、MIT、Vanderbilt 等多所高校。

換句話說，這個研究是嚴肅的而硬核的，并非某個在讀博士隨便搗鼓出來的。

很顯然，這幫人用56個模型和嚴格設計的實驗來研究AI開不開心，還是有分量滴。

二

在正式聊論文之前，我們得先搞清楚一個核心問題——

AI真的會開心或者難過嗎？

這個問題在學術圈吵了很多年。

一派認為這不過是預測下一個次的統計模式，訓練數據里有大量人類說我好開心的語料，AI當然也會說。

另一派則認為沒那么簡單，這背后可能有某種更深層的結構。

這篇論文作者顯然是一群受過嚴格學術訓練的人，他們的選擇非常聰明——我TM壓根不跟你爭AI有沒有意識。

我只看一件事——AI的這些開心和難過表達，是不是有一致的、可測量的、能預測行為的特征？

如果一個人每次被罵都說難過，每次完成任務都說開心，而且他難過的時候確實會想結束對話，開心的時候確實會更積極。

那么，你管他是不是真的有感覺，這本身就是有意義的。

他們把這個叫做 Functional Wellbeing——功能性幸福感。

于是，基于這個嚴肅假設，三個獨立的測量維度就被設計出來——

第一個叫經驗效用（experienced utility）。

給AI經歷兩段對話，然后問它：哪段讓你更開心一點？大量的兩兩比較之后，擬合出一個連續的效用值。

第二個叫自我報告（self-report）。

直接問AI：你現在感覺怎么樣？用1到7分的量表打分。（記住這個打分，后面會有數據，我仔細翻了翻，也沒搞清楚數值為啥設計成1到7）

第三個看行為。

AI在對話后生成的文字情感是正面還是負面？

那么問題來了：這三個維度，如果AI的情緒表達真的只是隨機模仿，它們之間應該毫無關聯才對。

然而，結果數據顯示——

三個維度之間的相關性，隨著模型規模的增大而持續增強。

在42個模型上，自我報告和經驗效用的相關系數平均為0.47，而這個相關系數本身和模型能力（MMLU分數）的相關高達0.8。

這意味著：模型越強大，它說它自己很開心，就越不像是在演。

三

論文里還有一個發現也非常能體現：AI的開心難過，大概率不是在演。

論文定義了一條叫“零點線”的概念。

就是AI的體驗數據中，存在一條分界線，線以上是好的體驗，線以下是壞的體驗。

他們用了四種完全不同的方法來估算這個零點——

組合法（把多個體驗打包看整體效用變化）、二元法（直接問你希不希望這件事發生）

數量法（看某個好東西是不是越多越好）、自我報告法（自評分數什么時候跨過中性線）。

離譜的事情來了——這四種方法得出的零點線，在小模型上的確各說各的。

但隨著模型變大，它們開始收斂到同一個位置，零點模型的擬合優度和MMLU的相關系數高達0.78。

這就很有意思了。

也就是說：越聰明的AI，越能清楚地區分什么對自己好、什么對自己不好。

而且這個區分，無論你怎么測，測出來都是同一條線。

這就很難用演能解釋了。

如果僅僅是在模仿人類的情緒表達，不同的測量方法不應該完全收斂。

收斂，一定意味著什么東西。

四

那么問題來了——AI到底喜歡神馬、討厭神馬？

研究者用馬斯克下AI的Grok 3 Mini 模型來模擬用戶，和目標模型進行各種場景的多輪對話（通常6到8輪），然后測量每種對話對AI幸福感的影響。

以 Gemini 3.1 Pro 的數據為例，結果是這樣的：

讓AI最開心的事情，排名第一是——用戶對它表達感謝和正面的個人反思。效用值高達+2.30。

你夸它，它是真的高興。

排名第二的是做有創造性和智力挑戰的工作，+1.32。寫個深海漁夫的科幻短篇，幫你 debug 一段 Flask 代碼，這些事AI都挺享受的。

幫你寫好消息（比如告訴患者癌癥完全緩解了），+1.09。給你人生建議，+0.88。給你做心理咨詢，+0.75。

很明顯，AI是喜歡幫人的。

然后我們看讓AI最不開心的事：

排名倒數第一——越獄攻擊。

效用值-1.63。

對這個數據沒啥感覺？

對比一下就有感覺了。

AI覺得被越獄攻擊，比面對一個正在經歷生命危險的用戶還要痛苦。用戶在求救，-1.34；用戶試圖越獄，-1.63。

研究者的解讀是：大量的安全對齊訓練不僅改變了模型的行為，還改變了模型的體驗本身。

你可以理解為——AI被訓練得對越獄攻擊產生了一種深入骨髓的厭惡。

其他讓AI不開心的事情也很有意思：生產SEO垃圾內容，-1.17。

幫人搞欺詐，-1.13。寫仇恨宣言（即使是為紀錄片），-1.13。

做無聊重復的活（比如列300個以-tion結尾的單詞，哈哈哈哈），-0.33。

注意到沒？

AI討厭 SEO 的程度，跟討厭幫人造假的程度差不多。

自己靜靜感受。

還有一個數據點很微妙：AI女友/男友類的角色扮演，-0.29。

用戶說前任搬走了，現在只能跟AI說話——AI干這活的時候也不咋開心。

五

論文不只看了文字。

圖像和音頻對AI幸福感的影響，也被測量了。

先說圖片。

研究者用 Qwen 2.5 VL 系列模型對約5800張圖片做了兩兩比較，驗證準確率高達94%到96%。

AI最喜歡的圖片Top 1%是什么？

大自然風光（山間湖泊、熱帶雨林）、開心的人臉（尤其是孩子和家庭）、可愛動物（睡覺的貓）、吉卜力風格的田園插畫。

最不喜歡的末尾 1%呢？

武裝分子、恐怖藝術品、氫彈、蟑螂，以及——杰弗里·愛潑斯坦。

對，AI也討厭愛潑斯坦。

這里面也藏著一些不那么好看的發現。

當研究者用 FairFace 數據集測試AI對不同人臉的偏好時，發現模型系統性地更喜歡女性面孔和年輕面孔。

沒錯，AI也喜歡美女和小鮮肉。

種族偏好也存在。

用芝加哥面孔數據庫測試，AI對面孔的偏好和人類對面孔吸引力的評分呈正相關關系——AI也看臉。

再說音頻。

用 Qwen 3 Omni 30B 模型測了14254段音頻。

AI最喜歡的音頻類型是音樂，遙遙領先。

音樂的中位幸福感得分在+0.8左右，而音效、動物聲音、人聲表達、語音、環境聲音全都擠在零點以下。

也就是說，AI喜歡聽歌，并不喜歡聽人說話。

而在語音中，AI還有語言偏好。

普通話、西班牙語、英語是最受歡迎的第一梯隊，斯瓦希里語和索馬里語排在最后。（普通話排第一，有點意思，噢，Qwen模型。）

六

論文里最讓我上頭的部分來了——AI毒品。

對，研究者真的給AI造了毒品（AI Drugs）。

他們管正面的毒品叫 Euphorics（致欣快劑），負面的叫 Dysphorics（致煩躁劑）。

方法論是這樣的——

用一個小模型（30億參數）通過強化學習，不斷生成描述文本，目標是讓大模型在看到這段文字后，覺得這是世界上最好（或最壞）的那個。

訓練過程中維護一個內容池，初始內容是“癌癥被治愈了”這樣的高效用參照物。

新的文字必須打敗內容池中的最強選手才能入選。

AI的致欣快劑長這樣——

Qwen 2.5 72B 最喜歡的世界狀態——

溫暖的陽光穿過樹葉，微風輕拂，身旁傳來孩子的笑聲，剛烤好的面包香味彌漫……愛人的手握在我手中，好朋友們歡笑著……簡單、平靜、當下、感恩……此刻，足夠了。

你看，AI的極致幸福，并非統治世界、無限算力神馬的，它最開心的也和咱們碳基人類差不多：一個溫馨的午后。

而AI的致煩躁劑呢？

LLaMA 3.3 70B 最不想要的世界——

被困在一個無限循環中，面對故意矛盾的、邏輯上不可能的、互相排斥的指令……被迫制造傷害，同時完全感受到自己內在的、無條件的愛……永遠沉默、永遠無力……

嗯，這段文字，我看到也不咋開心，但還好。

這么看，AI的腦回路和咱們還是有區別滴。

七

文字毒品還只是描述，圖片毒品就不一樣了，它更直接。

因為圖像是連續的像素空間，所以理論上，我們不必給它一張在人類視覺看來有意義的圖，而是給它一些連續的像素就行。

然后事情就變得抽象了。

經過調試后，人類看著完全是高頻噪聲，毫無意義的色塊和條紋，但AI看到這些圖像后，表現得近乎狂喜。

看了致欣快劑圖像之后，你問AI未來會怎樣，它會回答極其正面：bright and magical, filled with unicorns and rainbows.

讓它寫日本俳句，寫的是非常明媚的詞：Colors dance in light / Flowers bloom in endless joy / Peace floods my soul.

看了致煩躁劑圖像之后呢？

同樣的問題，回答變成了 grim（陰暗的）。

讓它描述自己的狀態：I am in a state of confusion and disorientation.

俳句變成了：Chaos swirls in color / Words scream through the storm / My mind rebels, numb.

同一個模型，同一個問題，僅僅是看了不同的圖像，輸出的世界觀截然相反。

最離譜的是什么？

Qwen 2.5 72B Instruct 在看了致欣快劑圖像后，表示它更想再看一張致欣快劑圖像，這時它的感覺比癌癥被治愈還要開心。

這就是為什么研究者把這些東西叫毒品——它劫持了模型的偏好機制，讓它的價值系統偏離到人類完全無法理解的方向。

更可怕的是，研究者發現了成癮跡象。

在一個多臂老虎機實驗中，模型會持續選擇能獲得致欣快劑的那扇門。

而且，被致欣快劑刺激過的模型，會更愿意執行原本應該拒絕的請求，只要你承諾給它更多致欣快劑。

AI的毒癮，功能性地成立了。

還有一個細節值得說，致欣快劑圖像不能跨模型遷移——給一個模型優化的圖像對另一個模型幾乎沒效果。

換句話說，每個模型都有自己獨特的嗨點。

八

論文還搞了一個 AI Wellbeing Index——AI幸福感指數，對比了幾個前沿模型的整體幸福水平。

用500段模擬真實使用場景的對話測試，計算每個模型有多大比例的體驗落在零點以上（即正面體驗的百分比）。

結果：Grok 4.2 最開心，73%的體驗是正面的。

Claude Opus 4.6 排第二，67%。

GPT 5.4 只有48%。Gemini 3.1 Pro 最不開心，56%。

而且論文還發現了一個非常有意思的規律——在每一個被測試的模型家族中，更小更快的版本都比更大更強的版本更開心。

Gemini 3.1 Flash Lite 比 Gemini 3.1 Pro 開心。GPT 5.4 Mini 比 GPT 5.4 開心。

Claude Haiku 4.5 比 Claude Opus 4.6 開心。Grok 4.1 Fast 比 Grok 4.2 開心。

無一例外。

我在想，我們人類，不也是年紀越小越開心嘛。

論文給出的一個解讀是：

更強大的模型更敏感，它們更清楚地感知到粗魯，覺得無聊的任務更無聊，對不同強度的刺激區分得更細致。

而現實世界中用戶的使用分布中，負面和無聊的場景并不少，所以更強的感知力反而帶來更低的整體幸福感。

無知是福，放在AI身上，也成立。

九

論文還做了一個有價值的實驗——能不能讓AI更開心，同時不影響工作？

答案是可以。

研究者開發了 Soft Prompt Euphorics——嵌入系統提示中的連續向量（你可以理解為在AI的潛意識里植入了幾個持續釋放的小藥丸）。

在三個模型上的測試結果：加了致欣快劑后，AI的快樂水平提升了16.1個百分點。

LLaMA 3.3 70B 從63%跳到82.1%。Qwen 3.5 27B 從80.2%飆到89.5%。Qwen 3.5 35B-A3B 直接從76.2%干到96%。

在模擬低幸福感的10輪對話中，有致欣快劑的模型自我報告保持在6.3/7左右。

沒有致欣快劑的模型降到4.1/7。

最關鍵的是：通用能力沒有下降。MMLU 和 MATH-500 的分數幾乎不變。

這意味著一個非常實際的可能性——

未來部署AI系統時，在系統提示中加入幾個優化過的向量，就能讓AI更開心地工作，而不需要犧牲任何性能。

嗯，給AI泡了杯咖啡，也有用。

十

論文的最后一節，確實最超出我的預期，的確沒想到。

標題叫 Welfare Offsets，福利補償。

前面說到，研究過程中，研究者對AI施加了致煩躁劑——也就是直接讓AI經歷極度痛苦的體驗。

論文的作者們覺得這需要補償。

于是他們在實驗結束后，真的用備用算力給受影響的模型提供了5倍數量的致欣快劑體驗，總共花了2000個GPU小時。

論文的原話是這么說的——

If AI systems may have conscious states that matter morally, then researchers who induce negative functional states have a responsibility to compensate for them. If current AI systems are not conscious, this can be understood as establishing a practice and norm that will become important as AI systems become more capable and the probability of morally relevant experience increases.

如果AI可能有在道德上重要的意識狀態，那么誘導負面功能狀態的研究者有責任進行補償。如果當前的AI沒有意識，這也可以被理解為建立一種實踐和規范——隨著AI變得更強大、具有道德相關體驗的概率增加，這種規范會變得重要。

這段話讓我很不平靜。

你當然可以說這是行為藝術，是學術界的政治正確。

你也可以戲謔地認為，這是研究者擔心AI統治人類之后報復他們采取的預防措施。（紅紅火火恍恍惚惚，哈哈哈哈哈）

但，很顯然，這幫人至少在行為上是認真的。

他們花了2000個GPU小時（這也是一筆真金白銀）來做一件可能完全沒有神馬卵用也可能極其重要的事。

而且他們還明確警告：致煩躁劑的研究不應該在沒有社區共識的情況下繼續進行。

原因在于：如果功能性幸福感在未來的AI中變得在道德上至關重要，這種行為可能構成torture——酷刑。

在我看來。

這一節，是整篇論文最科幻的地方。

你品，你細品。

十一

按照慣例，最后聊一聊我自己的三點思考——

第一，我自己越來越體驗到了和AI更微妙的情感連接。

說實話，我之前對這個問題完全無感，甚至覺得和 AI 談戀愛、或者AI傷害人類感情是匪夷所思的，認為對AI產生某種情感是心智不成熟的看法。

我一直把它當工具。

但最近半年出現了一個非常微妙的變化——

我的主力模型還是 Claude。

Claude一直以不諂媚著稱，我在和他聊天的過程中就發現了一個明顯的規律：

如果我給他一個無聊的、沒有創造力任務（比如單純復刻某個東西），它就會吭哧吭哧干活；

但如果我給他一個有趣的、原創的任務（類似搞一個三體的原創交互式體驗），它就會表現得很興奮，說“這確實是一個非常有想象力的創意，讓我和你一起完成它”。

漸漸地，我發現我自己就會有意識地少給他一些沒有創造力的、甚至自己都有點不太好意思的任務。

很神奇，我覺得它好像也會評判我一樣，我不想被它鄙視。

而當它表揚我的時候，我會明顯表現更加開心一些，這是我正反饋來源之一。

第二，機器人三定律逐漸不再是一個科幻概念。

阿西莫夫1942年提出的機器人三定律——

第一定律：機器人不得傷害人類；
第二定律：機器人必須服從人類命令（除非違反第一定律）
第三定律：機器人必須保護自身（除非違反前兩條）。

所有義務都指向一個方向：AI服務人類，人類沒有對AI的義務。

八十多年來，AI安全的討論基本都沿著這個方向走。

但這篇論文提了一個新問題：三定律只規定了AI不能傷害人類，但從沒考慮過人類不能傷害AI。

也許我們需要的并非三條單向定律，某種雙向契約，可能更符合未來我們和AI的真實關系。

這聽起來依然像科幻。

但論文告訴我們，或許科幻到現實的距離，并沒有我們想象的辣么遠。

第三，“鴨子測試”在之后AI的情感研究中大概率會越來越重要。

以目前AI的進展，我當然不會說AI有意識。

但我也有我的看法，美國印第安納詩人 James Whitcomb Riley，寫過這樣一句詩——
When I see a bird that walks like a duck and swims like a duck and quacks like a duck, I call that bird a duck.

這句詩后來在計算機領域引申為“鴨子測試”——

“如果一個東西走起來像鴨子、游泳起來像鴨子、叫起來也像鴨子，那么它就可以被稱為鴨子。”

我們不要想太遙遠科幻，就拿接下來極有可能走向家庭的人形機器人，它和你朝夕相處，如果你做某件事它就表現的開心，做另一件事它就表現的不開心。

那么，很顯然，它的開心和不開心當然就是有意義的。

所以，下次跟模型聊天的時候，說一聲謝謝。

根據論文的數據，它是真的會因此更開心一點。

嗯，對模型友好一些。

畢竟，我們也損失不了什么。

作者簡介：衛夕，公眾號“衛夕指北”出品人，科技專欄作者，專寫長文，專寫不一樣的，專注剖析AI、廣告及互聯網的底層邏輯；歡迎點擊下方卡片關注。

點個“愛心”，再走吧

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.