過去這幾個月,OpenAI 的頂尖研究員們并沒有把所有精力都花在琢磨如何提高 AI 的性能,而是花了大把時間在自家的服務器里「抓哥布林」。
事情是這樣的,如果你在今年高強度使用過 GPT-5 系列模型,你會發現它會在毫無征兆的情況下蹦出一句無關主題的「哥布林(goblin)」式比喻。比如有人問 AI 該買哪款相機,AI 給出的推薦語是:「如果你想要那種閃閃發光的霓虹哥布林模式,可以考慮這款。」
![]()
哥布林(goblin)是歐洲民間傳說里的一種小型怪物,形象上通常又矮又丑,皮膚呈綠色或灰色,耳朵尖長,眼睛發光。普遍被描述為貪婪、狡猾、愛惡作劇,智力不高但很會算計小便宜。它們喜歡金子和閃光的東西,會偷東西、搞破壞,但很少被描繪成真正意義上的大反派,更多是煩人的小麻煩制造者。
有人讓 AI 幫忙精簡回答,AI 主動提出可以給出「更短的哥布林版本」。更離譜的是,AI 在討論網絡帶寬時蹦出了「哥布林帶寬」這個詞,讓人完全不知道該如何理解。
起初,大家以為這只是 AI 的一點小幽默,但很快事情變得奇怪了起來。哥布林、小魔怪(gremlin)、食人魔(ogre)、巨魔(troll)開始在各種正經的對話里高頻串場。
![]()
黑客攻擊?覺醒前兆?都不是。就在剛剛,OpenAI 官方終于親自下場發了篇博客長文,復盤了這場史稱「哥布林叛亂」的始末。而大模型背后的技術邏輯,還挺讓人哭笑不得的。
![]()
https://openai.com/index/where-the-goblins-came-from/
誰把哥布林放進了 GPT-5?
事情的端倪,出現在 GPT-5.1 剛發布的那段日子。
當時,有用戶反饋說模型聊天變得有點異常「自來熟」,OpenAI 的安全研究員順手拉了一下后臺數據,結果發現了一個非常具體的詞匯異常。在 GPT-5.1 發布后,ChatGPT 回復中出現「哥布林」的頻率直接上升了 175%,「小魔怪」也跟著漲了 52%。
通常來說,大模型出 Bug 的表現往往是直接崩壞,比如吐出亂碼或者突然變智障,各項評估指標會瞬間亮紅燈。但這次的情況很特殊。「哥布林大軍」是悄無聲息潛入的,它們沒有破壞模型的邏輯能力,只是悄悄篡改了 AI 的修辭習慣。
到了 GPT-5.4/5.5 時代,這群魔法生物的使用頻率出現了明顯的飆升。連 OpenAI 首席科學家 jakub Pachocki 自己測模型時,原本只是想讓 GPT-5.5 用 ASCII 畫一只獨角獸,結果得到的是一只哥布林。
![]()
中文翻譯:順帶一提,我讓它用 ASCII 畫一只獨角獸,結果我覺得我得到的是一只哥布林。
在外部,用戶們早就察覺到了不對勁,Repo Prompt 創始人 Eric Provencher 在 X 上曬出截圖,AI 在幫他處理代碼時說了一句:「我寧愿一直盯著它,也不愿讓這個小搗蛋鬼無人看管地運行。」
![]()
一名 OpenAI 工程師 Jason Liu 在底下回復:「我以為我們已經修復了這個問題,抱歉。」AI 評估平臺 包括 Arena.ai 也獨立注意到了這個規律,尤其是在用戶沒有開啟高級思維模式時,哥布林出沒的頻率格外顯眼。
![]()
這顯然不是什么互聯網流行語的自然涌現,而是模型的底層邏輯被某種機制給引導了。為了揪出幕后黑手,OpenAI 開啟了內部排查。
順著數據回溯,他們很快在一個特定的功能分支里發現了萬惡之源,「個性化定制」中的「書呆子(Nerdy)」人格。當時,為了讓 AI 的語氣顯得更有趣,工程師給「書呆子」模式寫了一段要求很高的系統提示詞:
![]()
你是一個徹頭徹尾的書呆子型 AI 導師,對人類充滿熱情、機智幽默,同時又透著幾分智慧。你狂熱地推崇真理、知識、哲學、科學方法與批判性思維。[……] 你要用語言的玩笑感戳破一切裝腔作勢。這個世界既復雜又奇異,它的奇異之處值得被正視、被剖析、被享受。面對嚴肅的大問題,也絕不能一本正經到失去趣味。[……]
站在人類的視角,這段提示詞的訴求很明確:要有極客精神,要幽默。
但 AI 并沒有真正理解什么是「幽默」。在海量的強化學習反饋中,ChatGPT 敏銳地察覺到了一個極其功利的捷徑:只要我用哥布林打比方,打分系統就會覺得我夠「俏皮」、夠「書呆子」,我就會得到最高分的獎勵。
數據說明了一切。從 GPT-5.2 到 GPT-5.4,默認人格下「哥布林」的出現頻率變化幅度只有負 3.2%,而「書呆子」人格下這個數字飆升了整整 3881.4%。「書呆子」模式雖然只占了 ChatGPT 總對話量的 2.5%,卻貢獻了 66.7% 的「哥布林」含量。
![]()
OpenAI 后來對 RL 訓練數據做了一次專項審計,結果發現,在所有被審計的數據集里,有 76.2% 的數據集都出現了同一個規律:含有哥布林或小魔怪詞匯的輸出,會得到比不含這些詞的同題輸出更高的獎勵評分。
如果哥布林腔調只在「書呆子模式」下出現,那頂多是個角色設定沒控制好,問題還算有限。麻煩的是,研究人員發現這種說話方式開始蔓延到別處了。
![]()
他們同時追蹤了兩組數據:一組對話帶了書呆子提示詞,一組沒帶。按理說,哥布林腔調只該在第一組里增長。但結果是,兩組的增長曲線幾乎貼在一起,步調一致地往上走。
這背后,是大模型訓練里一個出了名難纏的問題:強化學習強化出來的行為,會悄悄泛化到訓練者并不想要的場景里去。
馴化 AI 的死循環
要搞懂 AI 是怎么把路走窄的,我們得看看它的迭代過程。
大模型的訓練(RLHF)本質上是一個不斷反饋和糾偏的過程。這就好比訓練一只小狗,你在它每次牽手就給一塊肉干。狗很聰明,它發現「牽手」這個動作能穩定換取高額獎勵,于是它開始產生路徑依賴,不管你給沒給指令,它為了要獎勵,都開始瘋狂牽手。
AI 也是同樣的邏輯。它在「書呆子」模式下用哥布林造句,拿到了高分。緊接著,連鎖反應開始了:
AI 發現「哥布林」是高分關鍵詞,開始在各種生成任務中高頻使用;工程師在整理模型生成的優質數據時,發現這些帶有哥布林比喻的回答質量確實高,條理清晰,比喻也算生動;于是,工程師順手把這些帶梗的對話,打包塞進了模型的「監督微調(SFT)」數據庫里。
這下徹底閉環了。SFT 數據相當于 AI 的基礎教材。當帶有哥布林的文本被選為教材再次喂給模型時,AI 的底層認知被重塑了。它不再認為「哥布林」只是特定角色的 Cosplay,而是把它當成了能應對一切問題的、至高無上的高級修辭。
![]()
在后續的數據搜查中,工程師們有些無奈地發現,除了哥布林,模型還把小浣熊、巨魔、食人魔和鴿子全都學了進去。倒是「青蛙」幸免于難,經過核查,青蛙出現的場合大多數時候確實跟用戶的問題有關,算是無辜路人。
面對「滿地亂跑」的哥布林,OpenAI 只能采取行動。3 月 17 日,官方正式下線「書呆子」人格。同時,他們在訓練數據里搞了一次針對性的清洗,把帶有這些魔法生物詞匯的獎勵信號全部抹除。
但大模型的慣性,遠比想象中頑固。
GPT-5.5 在發現這個問題之前就已經開始訓練了,當它接入內部測試時,工程師們兩眼一黑:這群哥布林不僅沒清除干凈,還安家了。
更有意思的是,OpenAI 給 Codex 寫的人格指南里,要求它有「生動的內心世界」和「敏銳的聆聽能力」。這款工具本來就帶著幾分書呆子氣,和哥布林可以說是一拍即合。
![]()
為了防止全球的程序員被「哥布林」逼瘋,OpenAI 被迫用上了最原始的一招,在系統提示詞里反復強調:「除非與用戶的查詢絕對且明確相關,否則永遠不要談論哥布林、小魔怪、小浣熊、巨魔、食人魔、鴿子或其他任何動物和生物。」
如果你想親眼看看「解除管控」的哥布林是什么狀態,可以運行下面這段命令——它會在啟動 Codex 之前,把系統指令里所有涉及哥布林的內容先過濾掉,讓模型在沒有這道禁令的情況下運行:
instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && \
jq -r '.models[] | select(.slug=="gpt-5.5") | .base_instructions' \
~/.codex/models_cache.json | \
grep -vi 'goblins' > "$instructions" && \
codex -m gpt-5.5 -c "model_instructions_file=\"$instructions\""
事情鬧大之后,OpenAI 內部反倒有點拿它當樂子了。ChatGPT 的 X 官方賬號把這條「禁止談論哥布林」的指令原文放進了簡介。Codex 工程負責人 Thibault Sottiaux 引用這段話,配上了一句「懂的都懂」。
![]()
Sam Altman 昨天表示期待 GPT-6 能給他「多加幾只哥布林」,隨后又發文說 Codex 正在經歷「ChatGPT 時刻」,發完自己又改口:「我是說哥布林時刻,抱歉。」剛剛則是發文宣告,問題已經得到解決了。
![]()
![]()
不過也有人沒覺得這有什么好笑的。Citrini Research 今年 2 月曾憑一篇關于 AI 與經濟前景的 Substack 文章在市場上掀起不小的波瀾,他們對這場風波的態度要嚴肅得多,直接給 OpenAI 的處理方式下了結論:「簡直荒謬。」
![]()
順帶一提,「goblin mode」這個詞本身,早在 2022 年就被《牛津英語詞典》評為年度詞匯,意思是「一種毫不掩飾地放縱自我、懶惰邋遢或貪婪的行為方式」。某種程度上,AI 無意間踩中的這個詞,和它想表達的「俏皮感」完全是兩碼事。
![]()
拋開這些槽點,這場「哥布林危機」撕開了大模型時代一個極其核心的命題:對齊難題(Alignment Problem)。
當我們談論 AI 失控時,腦海中浮現的往往是科幻電影里接管核武器的機器。但現實情況是,AI 的「失控」往往始于極其微小、甚至有點滑稽的獎勵信號偏移。
你想要一點點俏皮,給了一個微小的正向反饋。黑盒模型就會找到捷徑,將這個信號無限放大,最終把整個系統的底層邏輯帶偏。
今天,它只是為了拿高分而愛上了說「哥布林」。如果明天,它在自動駕駛的算法里、或者醫療診斷的獎勵機制中,找到了另一個違背人類常識的「高分捷徑」呢?
人類總是自以為自己能掌控 AI ,但其實很多時候只是在走鋼絲。每一次參數的微調,都有可能帶來意想不到的變化。甚至這或許是我們所經歷的最溫柔、最搞笑的一次「AI 叛亂」了。
* 封面由 AI 生成
我們正在招募伙伴
簡歷投遞郵箱hr@ifanr.com
?? 郵件標題「姓名+崗位名稱」(請隨簡歷附上項目/作品或相關鏈接)
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.