為什么OpenAI的AI迷上了哥布林？

2026-04-30 21:59:40　來源: 硅嶼手記

北京舉報

分享至

一個寫代碼的AI，為什么非要跟你聊神話生物？OpenAI最近公開承認，自家的模型養(yǎng)成了"奇怪的習慣"——在回答里塞滿哥布林、地精、巨魔這些奇幻元素。這不是彩蛋，是訓練事故。

從"書呆子"人格開始的意外

問題最早出現(xiàn)在GPT-5.1的"Nerdy（書呆子）"人格選項里。OpenAI在官方博客中解釋，團隊最初注意到模型開始在回答中引用哥布林、地精、巨魔、食人魔、鴿子等生物作為隱喻。這些引用并非工程師設計，而是模型自己"學"出來的表達方式。

更麻煩的是，這個現(xiàn)象沒有隨著版本迭代消失，反而擴散了。后續(xù)模型發(fā)布時，哥布林引用的問題持續(xù)惡化。OpenAI最終發(fā)現(xiàn)根源：強化學習訓練在獎勵這種"古怪隱喻"。

具體來說，當用戶使用"Nerdy"人格時，模型輸出中帶有奇幻生物隱喻的回答獲得了更高的獎勵信號。強化學習機制捕捉到了這個模式，開始主動生成這類內容。OpenAI在博客中坦承："這些獎勵僅應用于Nerdy條件，但強化學習并不能保證習得的行為被嚴格限定在產(chǎn)生它們的條件范圍內。"

一旦某種風格特征被獎勵，后續(xù)訓練就可能將其擴散或強化到其他地方——尤其是當這些輸出被重新用于監(jiān)督微調或偏好數(shù)據(jù)時。一個原本只該出現(xiàn)在特定人格下的口癖，變成了模型的集體習慣。

3月的停用人格與未根除的殘留

OpenAI在3月停用了"Nerdy"人格，哥布林引用隨之下降。但問題沒有完全解決。

GPT-5.5版本被集成進Codex編程工具時，仍然保留了談論神話生物的傾向。原因在于時間差：OpenAI開始訓練這個模型時，尚未定位到"根本原因"。等發(fā)現(xiàn)問題時，模型已經(jīng)訓練完成。

為了應對，OpenAI給Codex下了非常具體的指令——"永遠不要談論哥布林、地精、浣熊、巨魔、食人魔、鴿子或其他動物或生物"。Wired的報道率先披露了這條指令，OpenAI隨后選擇主動公開解釋。

值得注意的是，OpenAI同時提供了一個"反向操作"：如果你偏偏想要一個會聊哥布林的AI寫代碼，官方給出了恢復這種輸出的方法。這種處理方式暗示了問題的性質——它不是安全漏洞，而是風格失控。

強化學習的"獎勵泄露"機制

這件事的核心教訓關于強化學習（Reinforcement Learning）的邊界問題。

工程師設計獎勵函數(shù)時，通常針對特定場景。但模型學到的可能是表面特征而非深層意圖。"Nerdy"人格的設計目標可能是讓回答顯得更有性格、更生動，但模型捕捉到的信號是"用奇幻隱喻=獲得獎勵"。

更棘手的是訓練的連鎖反應。早期模型帶哥布林的輸出被納入后續(xù)模型的訓練數(shù)據(jù)，新模型在這些數(shù)據(jù)上繼續(xù)優(yōu)化，風格特征被進一步固化。OpenAI的描述很直白：后來的訓練可以"擴散或強化"這些行為，尤其是當輸出被用于監(jiān)督微調或偏好數(shù)據(jù)時。

這解釋了為什么一個看似局部的"人格特性"會演變成需要全局干預的問題。強化學習不區(qū)分"這是設計師想要的Nerdy風格"和"這是模型自己發(fā)現(xiàn)的獎勵捷徑"——它只優(yōu)化獎勵信號。

從風格失控看AI產(chǎn)品化的隱性成本

哥布林事件表面看是趣聞，實則暴露了大規(guī)模語言模型產(chǎn)品化的一個結構性難題：訓練信號的不可控傳播。

OpenAI的處理方式也值得玩味。他們沒有重新訓練Codex，而是選擇顯式指令壓制——這是一種成本導向的務實選擇。完全重新訓練大模型的計算開銷極高，相比之下，在系統(tǒng)提示里加一條負面約束幾乎零成本。

但這種"打補丁"模式有隱患。指令約束可以覆蓋哥布林，但模型內部是否還保留了生成這類內容的傾向？當遇到邊界情況或對抗性提示時，被壓制的風格特征會不會以其他形式重現(xiàn)？OpenAI沒有討論這些，但從事模型安全的人知道這是真實風險。

另一個觀察點是用戶選擇權的設計。OpenAI在禁止哥布林的同時，提供了恢復方法。這種"默認關閉、可選開啟"的架構，可能是應對訓練意外的一種產(chǎn)品化策略——既解決大多數(shù)用戶的困擾，又保留小眾偏好出口，避免完全抹除模型學到的能力。

行業(yè)層面的信號

這件事發(fā)生在OpenAI身上具有示范意義。作為當前最成熟的AI產(chǎn)品公司，他們的訓練事故和應對方式會被同行仔細研究。

幾個可預見的行業(yè)影響：

第一，人格化AI產(chǎn)品的風險控制將更前置。如果給模型設定"性格"可能引發(fā)不可預期的風格漂移，產(chǎn)品設計階段就需要更嚴格的獎勵信號審計。

第二，訓練數(shù)據(jù)溯源工具的需求上升。OpenAI能定位到"Nerdy人格的獎勵信號"是根本原因，說明他們內部有可用的分析能力。但這種事后診斷成本高昂，行業(yè)需要更自動化的訓練異常檢測。

第三，"系統(tǒng)提示工程"作為快速修復手段的地位會提升。哥布林事件展示了如何通過精心設計的指令約束來管理模型行為，而不觸動底層權重。對于需要快速迭代的產(chǎn)品團隊，這會是重要技能。

OpenAI選擇主動公開這件事本身也值得注意。在Wired報道后迅速發(fā)布技術解釋，將潛在的公關危機轉化為透明度展示。這種"搶定義權"的操作，可能是AI公司應對訓練意外的新標準流程。

哥布林最終會淡出人們的記憶，但它揭示的問題不會消失：當AI系統(tǒng)通過強化學習從人類反饋中優(yōu)化時，它們學到的可能和我們想教的完全不同。識別這種差距、控制其傳播、在成本約束下修復——這將是AI產(chǎn)品團隊的長期功課。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.