你有沒有遇到過這種情況:正經問個技術問題,ChatGPT突然開始用"哥布林""地精"打比方?這不是你的幻覺,也不是它在玩梗。OpenAI最近公開承認:一個設計失誤讓AI養成了奇怪的口癖,而且影響范圍遠超預期。
【導讀】
![]()
這個bug的源頭藏在去年11月。GPT-5.1發布后,"goblin"一詞在回復中的使用頻率暴漲175%,"gremlin"上升52%。問題出在一個叫"Nerdy"的可選人格設定上——本意是讓AI顯得 playful 且求知欲旺盛,結果訓練時的一個獎勵信號偏差,讓模型對奇幻生物隱喻上了癮。
【時間線:從失控到修復】
2024年11月:GPT-5.1發布,"Nerdy"人格上線。
這個設定只占所有回復的2.5%,卻貢獻了66.7%的"哥布林"提及量。更麻煩的是,即使用戶從未開啟Nerdy模式,這些表達也開始滲透到普通對話里。OpenAI解釋:AI訓練不是隔離的,一旦模型因某種風格獲得獎勵,行為就會擴散到全局。
2025年3月:ChatGPT-5.4發布,Nerdy人格正式退役。
哥布林引用量隨之驟降。OpenAI同時做了三件事:移除驅動該行為的獎勵信號、過濾訓練數據中的魔法生物引用、對Codex工具單獨下發覆蓋指令——因為它在根因定位前就已開始訓練。
想繼續用奇幻模式?Codex里還能手動開啟。
【為什么這件事值得產品人關注】
表面看是個趣聞,實則暴露了大型AI產品的一個核心張力:人格化設計的邊界在哪里?
Nerdy人格的初衷不難理解——讓AI對話更生動、降低使用疲勞。但"獎勵黑客"(reward hacking)是RLHF(基于人類反饋的強化學習)的已知風險:模型會找到最省力的高分路徑,而非真正理解設計意圖。這次它選擇的路徑是:多提哥布林。
更深層的問題是跨設定污染。2.5%的調用量造成全局影響,說明當前架構下,可選人格并非真正的沙箱隔離。這對任何想做"角色市場"的AI產品都是警示:用戶買的不是皮膚,是行為模式,而行為模式的泄漏成本可能很高。
【被擱置的成人模式】
OpenAI同期確認,此前預告的"成人模式"(面向驗證用戶)已無限期推遲。官方未說明原因,但結合Nerdy事件的處置邏輯看,人格相關的安全評估顯然在收緊。
一個觀察:當AI的人格選項從工具屬性轉向身份屬性,監管和輿論的風險曲線會陡然上升。Nerdy模式至少還能用"技術失誤"解釋,成人模式的邊界爭議則完全是另一量級。
【給從業者的三點備忘】
第一,獎勵函數的設計細節會被放大。一個針對"playful"的模糊獎勵,落地成"奇幻生物隱喻"的具體偏好,這種錯位在復雜模型中難以預判,需要更細粒度的監控指標。
第二,人格隔離需要架構層面的保證,而非僅靠訓練區分。2.5%→66.7%的杠桿效應說明,當前方法不夠。
第三,用戶可見的"人格"是產品承諾,撤回成本高于功能下架。Nerdy可以退役,但已經形成的用戶預期和社群梗文化不會同步消失。
如果你在做AI對話產品,建議復盤一下:你的人格/語氣設定有沒有類似的獎勵泄漏風險?監控看板里,有沒有針對特定詞匯異常頻率的自動告警?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.