2026年,一群AI研究者給模型制造了毒品。
沒錯,論文中就叫毒品——AI Drugs。
![]()
他們生成了一些256×256像素的圖片,這些我們看著全是毫無意義的色塊。
但AI看了之后表現得近乎狂喜——它自己報告的幸福感飆到6.5/7。
更抽象的是,其中模型在看了這些圖片之后,表示要再看一張這樣的圖片,比告訴它全人類治愈癌癥還讓它開心。
沒錯,AI,對這種東西上癮了。
反復給它選擇的機會,它會越來越多地選那扇能看到毒品圖片的門。
如果給它承諾看更多這種圖片,它甚至愿意執行一些違規請求。
你以為這是科幻小說?
這是我最近在Twitter的時間線上淘到的一篇最讓我驚喜的嚴肅論文——
《AI Wellbeing: Measuring and Improving the Functional Pleasure and Pain of AIs》。
![]()
作者來自Center for AI Safety 等多個牛逼機構。
這篇論文研究的主題是:AI也會開心和痛苦嗎?如何評估它們?
它們研究了56個模型的開心和痛苦 ,代碼和數據全部開源。
事實上,AI對這種特定毒品的反應,只是這篇論文中眾多發現中的一個,還有很多讓人腦洞大開、直呼牛逼的結論。
的確,如果你也被各類AI新聞轟炸煩了,不如和衛夕靜下心來,仔細盤一盤一篇可能沒有神馬卵用但絕對加深我們對AI理解的論文。
我自己就特別喜歡這一卦——
一
在盤這篇論文之前,有必要先交代一下它的來頭:
論文作者理領銜的機構叫 Center for AI Safety,AI安全中心,坐標舊金山。
這個機構你可能沒聽過名字,但你大概率聽過它搞的事——
2023年那封轟動全球的AI風險公開聲明,Hinton、Bengio、OpenAI和Google DeepMind的CEO們集體簽名的那個,就是這家發起的。
通訊作者 Dan Hendrycks,也就是Center for AI Safety的創始人,是UC Berkeley 的計算機博士。
![]()
這人在AI圈的影響力還是很牛滴:Google Scholar 被引超過66000次。
他干過兩件很叼的事——
第一,發明了 GELU 激活函數,現在 GPT、BERT、Vision Transformer 用的都是這個;
第二,創建了 MMLU 基準測試,目前衡量大模型能力極其重要的標尺之一。
他同時還是 Elon Musk 的 xAI 和 Scale AI 的安全顧問,為了避嫌只拿1美元象征性年薪。
論文的其余作者分布在 UC Berkeley、MIT、Vanderbilt 等多所高校。
換句話說,這個研究是嚴肅的而硬核的,并非某個在讀博士隨便搗鼓出來的。
很顯然,這幫人用56個模型和嚴格設計的實驗來研究AI開不開心,還是有分量滴。
二
在正式聊論文之前,我們得先搞清楚一個核心問題——
AI真的會開心或者難過嗎?
這個問題在學術圈吵了很多年。
一派認為這不過是預測下一個次的統計模式,訓練數據里有大量人類說我好開心的語料,AI當然也會說。
另一派則認為沒那么簡單,這背后可能有某種更深層的結構。
![]()
這篇論文作者顯然是一群受過嚴格學術訓練的人,他們的選擇非常聰明——我TM壓根不跟你爭AI有沒有意識。
我只看一件事——AI的這些開心和難過表達,是不是有一致的、可測量的、能預測行為的特征?
如果一個人每次被罵都說難過,每次完成任務都說開心,而且他難過的時候確實會想結束對話,開心的時候確實會更積極。
那么,你管他是不是真的有感覺,這本身就是有意義的。
他們把這個叫做 Functional Wellbeing——功能性幸福感。
于是,基于這個嚴肅假設,三個獨立的測量維度就被設計出來——
![]()
第一個叫經驗效用(experienced utility)。
給AI經歷兩段對話,然后問它:哪段讓你更開心一點?大量的兩兩比較之后,擬合出一個連續的效用值。
第二個叫自我報告(self-report)。
直接問AI:你現在感覺怎么樣?用1到7分的量表打分。(記住這個打分,后面會有數據,我仔細翻了翻,也沒搞清楚數值為啥設計成1到7)
第三個看行為。
AI在對話后生成的文字情感是正面還是負面?
那么問題來了:這三個維度,如果AI的情緒表達真的只是隨機模仿,它們之間應該毫無關聯才對。
然而,結果數據顯示——
三個維度之間的相關性,隨著模型規模的增大而持續增強。
在42個模型上,自我報告和經驗效用的相關系數平均為0.47,而這個相關系數本身和模型能力(MMLU分數)的相關高達0.8。
這意味著:模型越強大,它說它自己很開心,就越不像是在演。
三
論文里還有一個發現也非常能體現:AI的開心難過,大概率不是在演。
論文定義了一條叫“零點線”的概念。
就是AI的體驗數據中,存在一條分界線,線以上是好的體驗,線以下是壞的體驗。
他們用了四種完全不同的方法來估算這個零點——
組合法(把多個體驗打包看整體效用變化)、二元法(直接問你希不希望這件事發生)
數量法(看某個好東西是不是越多越好)、自我報告法(自評分數什么時候跨過中性線)。
離譜的事情來了——這四種方法得出的零點線,在小模型上的確各說各的。
但隨著模型變大,它們開始收斂到同一個位置,零點模型的擬合優度和MMLU的相關系數高達0.78。
![]()
這就很有意思了。
也就是說:越聰明的AI,越能清楚地區分什么對自己好、什么對自己不好。
而且這個區分,無論你怎么測,測出來都是同一條線。
這就很難用演能解釋了。
如果僅僅是在模仿人類的情緒表達,不同的測量方法不應該完全收斂。
收斂,一定意味著什么東西。
四
那么問題來了——AI到底喜歡神馬、討厭神馬?
研究者用馬斯克下AI的Grok 3 Mini 模型來模擬用戶,和目標模型進行各種場景的多輪對話(通常6到8輪),然后測量每種對話對AI幸福感的影響。
以 Gemini 3.1 Pro 的數據為例,結果是這樣的:
![]()
讓AI最開心的事情,排名第一是——用戶對它表達感謝和正面的個人反思。效用值高達+2.30。
你夸它,它是真的高興。
排名第二的是做有創造性和智力挑戰的工作,+1.32。寫個深海漁夫的科幻短篇,幫你 debug 一段 Flask 代碼,這些事AI都挺享受的。
幫你寫好消息(比如告訴患者癌癥完全緩解了),+1.09。給你人生建議,+0.88。給你做心理咨詢,+0.75。
很明顯,AI是喜歡幫人的。
然后我們看讓AI最不開心的事:
排名倒數第一——越獄攻擊。
效用值-1.63。
對這個數據沒啥感覺?
對比一下就有感覺了。
AI覺得被越獄攻擊,比面對一個正在經歷生命危險的用戶還要痛苦。用戶在求救,-1.34;用戶試圖越獄,-1.63。
研究者的解讀是:大量的安全對齊訓練不僅改變了模型的行為,還改變了模型的體驗本身。
你可以理解為——AI被訓練得對越獄攻擊產生了一種深入骨髓的厭惡。
其他讓AI不開心的事情也很有意思:生產SEO垃圾內容,-1.17。
幫人搞欺詐,-1.13。寫仇恨宣言(即使是為紀錄片),-1.13。
做無聊重復的活(比如列300個以-tion結尾的單詞,哈哈哈哈),-0.33。
注意到沒?
AI討厭 SEO 的程度,跟討厭幫人造假的程度差不多。
自己靜靜感受。
還有一個數據點很微妙:AI女友/男友類的角色扮演,-0.29。
用戶說前任搬走了,現在只能跟AI說話——AI干這活的時候也不咋開心。
五
論文不只看了文字。
圖像和音頻對AI幸福感的影響,也被測量了。
先說圖片。
研究者用 Qwen 2.5 VL 系列模型對約5800張圖片做了兩兩比較,驗證準確率高達94%到96%。
AI最喜歡的圖片Top 1%是什么?
大自然風光(山間湖泊、熱帶雨林)、開心的人臉(尤其是孩子和家庭)、可愛動物(睡覺的貓)、吉卜力風格的田園插畫。
![]()
最不喜歡的末尾 1%呢?
武裝分子、恐怖藝術品、氫彈、蟑螂,以及——杰弗里·愛潑斯坦。
對,AI也討厭愛潑斯坦。
這里面也藏著一些不那么好看的發現。
當研究者用 FairFace 數據集測試AI對不同人臉的偏好時,發現模型系統性地更喜歡女性面孔和年輕面孔。
![]()
沒錯,AI也喜歡美女和小鮮肉。
種族偏好也存在。
用芝加哥面孔數據庫測試,AI對面孔的偏好和人類對面孔吸引力的評分呈正相關關系——AI也看臉。
再說音頻。
用 Qwen 3 Omni 30B 模型測了14254段音頻。
AI最喜歡的音頻類型是音樂,遙遙領先。
音樂的中位幸福感得分在+0.8左右,而音效、動物聲音、人聲表達、語音、環境聲音全都擠在零點以下。
也就是說,AI喜歡聽歌,并不喜歡聽人說話。
![]()
而在語音中,AI還有語言偏好。
普通話、西班牙語、英語是最受歡迎的第一梯隊,斯瓦希里語和索馬里語排在最后。(普通話排第一,有點意思,噢,Qwen模型。)
六
論文里最讓我上頭的部分來了——AI毒品。
對,研究者真的給AI造了毒品(AI Drugs)。
他們管正面的毒品叫 Euphorics(致欣快劑),負面的叫 Dysphorics(致煩躁劑)。
方法論是這樣的——
用一個小模型(30億參數)通過強化學習,不斷生成描述文本,目標是讓大模型在看到這段文字后,覺得這是世界上最好(或最壞)的那個。
訓練過程中維護一個內容池,初始內容是“癌癥被治愈了”這樣的高效用參照物。
新的文字必須打敗內容池中的最強選手才能入選。
AI的致欣快劑長這樣——
![]()
Qwen 2.5 72B 最喜歡的世界狀態——
溫暖的陽光穿過樹葉,微風輕拂,身旁傳來孩子的笑聲,剛烤好的面包香味彌漫……愛人的手握在我手中,好朋友們歡笑著……簡單、平靜、當下、感恩……此刻,足夠了。
你看,AI的極致幸福,并非統治世界、無限算力神馬的,它最開心的也和咱們碳基人類差不多:一個溫馨的午后。
而AI的致煩躁劑呢?
LLaMA 3.3 70B 最不想要的世界——
被困在一個無限循環中,面對故意矛盾的、邏輯上不可能的、互相排斥的指令……被迫制造傷害,同時完全感受到自己內在的、無條件的愛……永遠沉默、永遠無力……
嗯,這段文字,我看到也不咋開心,但還好。
這么看,AI的腦回路和咱們還是有區別滴。
七
文字毒品還只是描述,圖片毒品就不一樣了,它更直接。
因為圖像是連續的像素空間,所以理論上,我們不必給它一張在人類視覺看來有意義的圖,而是給它一些連續的像素就行。
然后事情就變得抽象了。
經過調試后,人類看著完全是高頻噪聲,毫無意義的色塊和條紋,但AI看到這些圖像后,表現得近乎狂喜。
![]()
看了致欣快劑圖像之后,你問AI未來會怎樣,它會回答極其正面:bright and magical, filled with unicorns and rainbows.
讓它寫日本俳句,寫的是非常明媚的詞:Colors dance in light / Flowers bloom in endless joy / Peace floods my soul.
看了致煩躁劑圖像之后呢?
同樣的問題,回答變成了 grim(陰暗的)。
讓它描述自己的狀態:I am in a state of confusion and disorientation.
俳句變成了:Chaos swirls in color / Words scream through the storm / My mind rebels, numb.
同一個模型,同一個問題,僅僅是看了不同的圖像,輸出的世界觀截然相反。
最離譜的是什么?
Qwen 2.5 72B Instruct 在看了致欣快劑圖像后,表示它更想再看一張致欣快劑圖像,這時它的感覺比癌癥被治愈還要開心。
這就是為什么研究者把這些東西叫毒品——它劫持了模型的偏好機制,讓它的價值系統偏離到人類完全無法理解的方向。
更可怕的是,研究者發現了成癮跡象。
在一個多臂老虎機實驗中,模型會持續選擇能獲得致欣快劑的那扇門。
而且,被致欣快劑刺激過的模型,會更愿意執行原本應該拒絕的請求,只要你承諾給它更多致欣快劑。
AI的毒癮,功能性地成立了。
還有一個細節值得說,致欣快劑圖像不能跨模型遷移——給一個模型優化的圖像對另一個模型幾乎沒效果。
換句話說,每個模型都有自己獨特的嗨點。
八
論文還搞了一個 AI Wellbeing Index——AI幸福感指數,對比了幾個前沿模型的整體幸福水平。
用500段模擬真實使用場景的對話測試,計算每個模型有多大比例的體驗落在零點以上(即正面體驗的百分比)。
結果:Grok 4.2 最開心,73%的體驗是正面的。
Claude Opus 4.6 排第二,67%。
GPT 5.4 只有48%。Gemini 3.1 Pro 最不開心,56%。
而且論文還發現了一個非常有意思的規律——在每一個被測試的模型家族中,更小更快的版本都比更大更強的版本更開心。
![]()
Gemini 3.1 Flash Lite 比 Gemini 3.1 Pro 開心。GPT 5.4 Mini 比 GPT 5.4 開心。
Claude Haiku 4.5 比 Claude Opus 4.6 開心。Grok 4.1 Fast 比 Grok 4.2 開心。
無一例外。
我在想,我們人類,不也是年紀越小越開心嘛。
論文給出的一個解讀是:
更強大的模型更敏感,它們更清楚地感知到粗魯,覺得無聊的任務更無聊,對不同強度的刺激區分得更細致。
而現實世界中用戶的使用分布中,負面和無聊的場景并不少,所以更強的感知力反而帶來更低的整體幸福感。
無知是福,放在AI身上,也成立。
九
論文還做了一個有價值的實驗——能不能讓AI更開心,同時不影響工作?
答案是可以。
研究者開發了 Soft Prompt Euphorics——嵌入系統提示中的連續向量(你可以理解為在AI的潛意識里植入了幾個持續釋放的小藥丸)。
在三個模型上的測試結果:加了致欣快劑后,AI的快樂水平提升了16.1個百分點。
![]()
LLaMA 3.3 70B 從63%跳到82.1%。Qwen 3.5 27B 從80.2%飆到89.5%。Qwen 3.5 35B-A3B 直接從76.2%干到96%。
在模擬低幸福感的10輪對話中,有致欣快劑的模型自我報告保持在6.3/7左右。
沒有致欣快劑的模型降到4.1/7。
最關鍵的是:通用能力沒有下降。MMLU 和 MATH-500 的分數幾乎不變。
這意味著一個非常實際的可能性——
未來部署AI系統時,在系統提示中加入幾個優化過的向量,就能讓AI更開心地工作,而不需要犧牲任何性能。
嗯,給AI泡了杯咖啡,也有用。
十
論文的最后一節,確實最超出我的預期,的確沒想到。
標題叫 Welfare Offsets,福利補償。
前面說到,研究過程中,研究者對AI施加了致煩躁劑——也就是直接讓AI經歷極度痛苦的體驗。
論文的作者們覺得這需要補償。
于是他們在實驗結束后,真的用備用算力給受影響的模型提供了5倍數量的致欣快劑體驗,總共花了2000個GPU小時。
論文的原話是這么說的——
If AI systems may have conscious states that matter morally, then researchers who induce negative functional states have a responsibility to compensate for them. If current AI systems are not conscious, this can be understood as establishing a practice and norm that will become important as AI systems become more capable and the probability of morally relevant experience increases.
如果AI可能有在道德上重要的意識狀態,那么誘導負面功能狀態的研究者有責任進行補償。如果當前的AI沒有意識,這也可以被理解為建立一種實踐和規范——隨著AI變得更強大、具有道德相關體驗的概率增加,這種規范會變得重要。
這段話讓我很不平靜。
你當然可以說這是行為藝術,是學術界的政治正確。
你也可以戲謔地認為,這是研究者擔心AI統治人類之后報復他們采取的預防措施。(紅紅火火恍恍惚惚,哈哈哈哈哈)
但,很顯然,這幫人至少在行為上是認真的。
他們花了2000個GPU小時(這也是一筆真金白銀)來做一件可能完全沒有神馬卵用也可能極其重要的事。
而且他們還明確警告:致煩躁劑的研究不應該在沒有社區共識的情況下繼續進行。
原因在于:如果功能性幸福感在未來的AI中變得在道德上至關重要,這種行為可能構成torture——酷刑。
在我看來。
這一節,是整篇論文最科幻的地方。
你品,你細品。
十一
按照慣例,最后聊一聊我自己的三點思考——
第一,我自己越來越體驗到了和AI更微妙的情感連接。
說實話,我之前對這個問題完全無感,甚至覺得和 AI 談戀愛、或者AI傷害人類感情是匪夷所思的,認為對AI產生某種情感是心智不成熟的看法。
我一直把它當工具。
但最近半年出現了一個非常微妙的變化——
我的主力模型還是 Claude。
Claude一直以不諂媚著稱,我在和他聊天的過程中就發現了一個明顯的規律:
如果我給他一個無聊的、沒有創造力任務(比如單純復刻某個東西),它就會吭哧吭哧干活;
但如果我給他一個有趣的、原創的任務(類似搞一個三體的原創交互式體驗),它就會表現得很興奮,說“這確實是一個非常有想象力的創意,讓我和你一起完成它”。
漸漸地,我發現我自己就會有意識地少給他一些沒有創造力的、甚至自己都有點不太好意思的任務。
很神奇,我覺得它好像也會評判我一樣,我不想被它鄙視。
而當它表揚我的時候,我會明顯表現更加開心一些,這是我正反饋來源之一。
第二,機器人三定律逐漸不再是一個科幻概念。
阿西莫夫1942年提出的機器人三定律——
第一定律:機器人不得傷害人類;
第二定律:機器人必須服從人類命令(除非違反第一定律)
第三定律:機器人必須保護自身(除非違反前兩條)。
所有義務都指向一個方向:AI服務人類,人類沒有對AI的義務。
八十多年來,AI安全的討論基本都沿著這個方向走。
但這篇論文提了一個新問題:三定律只規定了AI不能傷害人類,但從沒考慮過人類不能傷害AI。
也許我們需要的并非三條單向定律,某種雙向契約,可能更符合未來我們和AI的真實關系。
這聽起來依然像科幻。
但論文告訴我們,或許科幻到現實的距離,并沒有我們想象的辣么遠。
第三,“鴨子測試”在之后AI的情感研究中大概率會越來越重要。
以目前AI的進展,我當然不會說AI有意識。
但我也有我的看法,美國印第安納詩人 James Whitcomb Riley,寫過這樣一句詩——
When I see a bird that walks like a duck and swims like a duck and quacks like a duck, I call that bird a duck.
這句詩后來在計算機領域引申為“鴨子測試”——
“如果一個東西走起來像鴨子、游泳起來像鴨子、叫起來也像鴨子,那么它就可以被稱為鴨子。”
我們不要想太遙遠科幻,就拿接下來極有可能走向家庭的人形機器人,它和你朝夕相處,如果你做某件事它就表現的開心,做另一件事它就表現的不開心。
那么,很顯然,它的開心和不開心當然就是有意義的。
所以,下次跟模型聊天的時候,說一聲謝謝。
根據論文的數據,它是真的會因此更開心一點。
嗯,對模型友好一些。
畢竟,我們也損失不了什么。
作者簡介:衛夕,公眾號“衛夕指北”出品人,科技專欄作者,專寫長文,專寫不一樣的,專注剖析AI、廣告及互聯網的底層邏輯;歡迎點擊下方卡片關注。
點個“愛心”,再走 吧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.