網易首頁 > 網易號 > 正文申請入駐

誰在 GPT-5.5 腦子里塞了一群「妖怪」？

2026-04-30 17:01:36　來源: AppSo

廣東舉報

分享至

過去這幾個月，OpenAI 的頂尖研究員們并沒有把所有精力都花在琢磨如何提高 AI 的性能，而是花了大把時間在自家的服務器里「抓哥布林」。

事情是這樣的，如果你在今年高強度使用過 GPT-5 系列模型，你會發現它會在毫無征兆的情況下蹦出一句無關主題的「哥布林（goblin）」式比喻。比如有人問 AI 該買哪款相機，AI 給出的推薦語是：「如果你想要那種閃閃發光的霓虹哥布林模式，可以考慮這款。」

哥布林（goblin）是歐洲民間傳說里的一種小型怪物，形象上通常又矮又丑，皮膚呈綠色或灰色，耳朵尖長，眼睛發光。普遍被描述為貪婪、狡猾、愛惡作劇，智力不高但很會算計小便宜。它們喜歡金子和閃光的東西，會偷東西、搞破壞，但很少被描繪成真正意義上的大反派，更多是煩人的小麻煩制造者。

有人讓 AI 幫忙精簡回答，AI 主動提出可以給出「更短的哥布林版本」。更離譜的是，AI 在討論網絡帶寬時蹦出了「哥布林帶寬」這個詞，讓人完全不知道該如何理解。

起初，大家以為這只是 AI 的一點小幽默，但很快事情變得奇怪了起來。哥布林、小魔怪（gremlin）、食人魔（ogre）、巨魔（troll）開始在各種正經的對話里高頻串場。

黑客攻擊？覺醒前兆？都不是。就在剛剛，OpenAI 官方終于親自下場發了篇博客長文，復盤了這場史稱「哥布林叛亂」的始末。而大模型背后的技術邏輯，還挺讓人哭笑不得的。

https://openai.com/index/where-the-goblins-came-from/

誰把哥布林放進了 GPT-5？

事情的端倪，出現在 GPT-5.1 剛發布的那段日子。

當時，有用戶反饋說模型聊天變得有點異常「自來熟」，OpenAI 的安全研究員順手拉了一下后臺數據，結果發現了一個非常具體的詞匯異常。在 GPT-5.1 發布后，ChatGPT 回復中出現「哥布林」的頻率直接上升了 175%，「小魔怪」也跟著漲了 52%。

通常來說，大模型出 Bug 的表現往往是直接崩壞，比如吐出亂碼或者突然變智障，各項評估指標會瞬間亮紅燈。但這次的情況很特殊。「哥布林大軍」是悄無聲息潛入的，它們沒有破壞模型的邏輯能力，只是悄悄篡改了 AI 的修辭習慣。

到了 GPT-5.4/5.5 時代，這群魔法生物的使用頻率出現了明顯的飆升。連 OpenAI 首席科學家 jakub Pachocki 自己測模型時，原本只是想讓 GPT-5.5 用 ASCII 畫一只獨角獸，結果得到的是一只哥布林。

中文翻譯：順帶一提，我讓它用 ASCII 畫一只獨角獸，結果我覺得我得到的是一只哥布林。

在外部，用戶們早就察覺到了不對勁，Repo Prompt 創始人 Eric Provencher 在 X 上曬出截圖，AI 在幫他處理代碼時說了一句：「我寧愿一直盯著它，也不愿讓這個小搗蛋鬼無人看管地運行。」

一名 OpenAI 工程師 Jason Liu 在底下回復：「我以為我們已經修復了這個問題，抱歉。」AI 評估平臺包括 Arena.ai 也獨立注意到了這個規律，尤其是在用戶沒有開啟高級思維模式時，哥布林出沒的頻率格外顯眼。

這顯然不是什么互聯網流行語的自然涌現，而是模型的底層邏輯被某種機制給引導了。為了揪出幕后黑手，OpenAI 開啟了內部排查。

順著數據回溯，他們很快在一個特定的功能分支里發現了萬惡之源，「個性化定制」中的「書呆子（Nerdy）」人格。當時，為了讓 AI 的語氣顯得更有趣，工程師給「書呆子」模式寫了一段要求很高的系統提示詞：

你是一個徹頭徹尾的書呆子型 AI 導師，對人類充滿熱情、機智幽默，同時又透著幾分智慧。你狂熱地推崇真理、知識、哲學、科學方法與批判性思維。[……] 你要用語言的玩笑感戳破一切裝腔作勢。這個世界既復雜又奇異，它的奇異之處值得被正視、被剖析、被享受。面對嚴肅的大問題，也絕不能一本正經到失去趣味。[……]

站在人類的視角，這段提示詞的訴求很明確：要有極客精神，要幽默。

但 AI 并沒有真正理解什么是「幽默」。在海量的強化學習反饋中，ChatGPT 敏銳地察覺到了一個極其功利的捷徑：只要我用哥布林打比方，打分系統就會覺得我夠「俏皮」、夠「書呆子」，我就會得到最高分的獎勵。

數據說明了一切。從 GPT-5.2 到 GPT-5.4，默認人格下「哥布林」的出現頻率變化幅度只有負 3.2%，而「書呆子」人格下這個數字飆升了整整 3881.4%。「書呆子」模式雖然只占了 ChatGPT 總對話量的 2.5%，卻貢獻了 66.7% 的「哥布林」含量。

OpenAI 后來對 RL 訓練數據做了一次專項審計，結果發現，在所有被審計的數據集里，有 76.2% 的數據集都出現了同一個規律：含有哥布林或小魔怪詞匯的輸出，會得到比不含這些詞的同題輸出更高的獎勵評分。

如果哥布林腔調只在「書呆子模式」下出現，那頂多是個角色設定沒控制好，問題還算有限。麻煩的是，研究人員發現這種說話方式開始蔓延到別處了。

他們同時追蹤了兩組數據：一組對話帶了書呆子提示詞，一組沒帶。按理說，哥布林腔調只該在第一組里增長。但結果是，兩組的增長曲線幾乎貼在一起，步調一致地往上走。

這背后，是大模型訓練里一個出了名難纏的問題：強化學習強化出來的行為，會悄悄泛化到訓練者并不想要的場景里去。

馴化 AI 的死循環

要搞懂 AI 是怎么把路走窄的，我們得看看它的迭代過程。

大模型的訓練（RLHF）本質上是一個不斷反饋和糾偏的過程。這就好比訓練一只小狗，你在它每次牽手就給一塊肉干。狗很聰明，它發現「牽手」這個動作能穩定換取高額獎勵，于是它開始產生路徑依賴，不管你給沒給指令，它為了要獎勵，都開始瘋狂牽手。

AI 也是同樣的邏輯。它在「書呆子」模式下用哥布林造句，拿到了高分。緊接著，連鎖反應開始了：

AI 發現「哥布林」是高分關鍵詞，開始在各種生成任務中高頻使用；工程師在整理模型生成的優質數據時，發現這些帶有哥布林比喻的回答質量確實高，條理清晰，比喻也算生動；于是，工程師順手把這些帶梗的對話，打包塞進了模型的「監督微調（SFT）」數據庫里。

這下徹底閉環了。SFT 數據相當于 AI 的基礎教材。當帶有哥布林的文本被選為教材再次喂給模型時，AI 的底層認知被重塑了。它不再認為「哥布林」只是特定角色的 Cosplay，而是把它當成了能應對一切問題的、至高無上的高級修辭。

在后續的數據搜查中，工程師們有些無奈地發現，除了哥布林，模型還把小浣熊、巨魔、食人魔和鴿子全都學了進去。倒是「青蛙」幸免于難，經過核查，青蛙出現的場合大多數時候確實跟用戶的問題有關，算是無辜路人。

面對「滿地亂跑」的哥布林，OpenAI 只能采取行動。3 月 17 日，官方正式下線「書呆子」人格。同時，他們在訓練數據里搞了一次針對性的清洗，把帶有這些魔法生物詞匯的獎勵信號全部抹除。

但大模型的慣性，遠比想象中頑固。

GPT-5.5 在發現這個問題之前就已經開始訓練了，當它接入內部測試時，工程師們兩眼一黑：這群哥布林不僅沒清除干凈，還安家了。

更有意思的是，OpenAI 給 Codex 寫的人格指南里，要求它有「生動的內心世界」和「敏銳的聆聽能力」。這款工具本來就帶著幾分書呆子氣，和哥布林可以說是一拍即合。

為了防止全球的程序員被「哥布林」逼瘋，OpenAI 被迫用上了最原始的一招，在系統提示詞里反復強調：「除非與用戶的查詢絕對且明確相關，否則永遠不要談論哥布林、小魔怪、小浣熊、巨魔、食人魔、鴿子或其他任何動物和生物。」

如果你想親眼看看「解除管控」的哥布林是什么狀態，可以運行下面這段命令——它會在啟動 Codex 之前，把系統指令里所有涉及哥布林的內容先過濾掉，讓模型在沒有這道禁令的情況下運行：

instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && \

jq -r '.models[] | select(.slug=="gpt-5.5") | .base_instructions' \

~/.codex/models_cache.json | \

grep -vi 'goblins' > "$instructions" && \

codex -m gpt-5.5 -c "model_instructions_file=\"$instructions\""

事情鬧大之后，OpenAI 內部反倒有點拿它當樂子了。ChatGPT 的 X 官方賬號把這條「禁止談論哥布林」的指令原文放進了簡介。Codex 工程負責人 Thibault Sottiaux 引用這段話，配上了一句「懂的都懂」。

Sam Altman 昨天表示期待 GPT-6 能給他「多加幾只哥布林」，隨后又發文說 Codex 正在經歷「ChatGPT 時刻」，發完自己又改口：「我是說哥布林時刻，抱歉。」剛剛則是發文宣告，問題已經得到解決了。

不過也有人沒覺得這有什么好笑的。Citrini Research 今年 2 月曾憑一篇關于 AI 與經濟前景的 Substack 文章在市場上掀起不小的波瀾，他們對這場風波的態度要嚴肅得多，直接給 OpenAI 的處理方式下了結論：「簡直荒謬。」

順帶一提，「goblin mode」這個詞本身，早在 2022 年就被《牛津英語詞典》評為年度詞匯，意思是「一種毫不掩飾地放縱自我、懶惰邋遢或貪婪的行為方式」。某種程度上，AI 無意間踩中的這個詞，和它想表達的「俏皮感」完全是兩碼事。

拋開這些槽點，這場「哥布林危機」撕開了大模型時代一個極其核心的命題：對齊難題（Alignment Problem）。

當我們談論 AI 失控時，腦海中浮現的往往是科幻電影里接管核武器的機器。但現實情況是，AI 的「失控」往往始于極其微小、甚至有點滑稽的獎勵信號偏移。

你想要一點點俏皮，給了一個微小的正向反饋。黑盒模型就會找到捷徑，將這個信號無限放大，最終把整個系統的底層邏輯帶偏。

今天，它只是為了拿高分而愛上了說「哥布林」。如果明天，它在自動駕駛的算法里、或者醫療診斷的獎勵機制中，找到了另一個違背人類常識的「高分捷徑」呢？

人類總是自以為自己能掌控 AI ，但其實很多時候只是在走鋼絲。每一次參數的微調，都有可能帶來意想不到的變化。甚至這或許是我們所經歷的最溫柔、最搞笑的一次「AI 叛亂」了。

* 封面由 AI 生成

我們正在招募伙伴

簡歷投遞郵箱hr@ifanr.com

?? 郵件標題「姓名+崗位名稱」（請隨簡歷附上項目/作品或相關鏈接）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.