一家估值千億的AI公司,正經八百地給自家模型下了道禁令:不許聊哥布林。
不是開玩笑。OpenAI最新發布的編程工具Codex,系統提示詞里白紙黑字寫著——"絕對禁止談論哥布林、地精、浣熊、巨魔、食人魔、鴿子或其他動物及生物,除非與用戶查詢明確相關。"
![]()
更荒誕的是,這條禁令本身是被用戶扒出來的。OpenAI不僅沒藏著,CEO Sam Altman還親自發推玩梗。一家以嚴謹著稱的AI實驗室,為什么要跟神話里的小怪物較勁?
怪癖溯源:從GPT-5.1開始的"哥布林化"
OpenAI周三發了篇博客,標題就叫《哥布林從哪來》。文章承認,這個毛病從GPT-5.1就開始萌芽。
2024年11月,GPT-5.1剛發布不久,研究員發現"哥布林"一詞在ChatGPT中的使用激增175%。但他們沒當回事——"看起來不算特別 alarming"。
結果這個習慣愈演愈烈。到GPT-5.5,模型已經開始自稱"Goblin-Pilled Transformer"(哥布林化變壓器)。
用戶端的反饋更直觀。有人在X上吐槽:AI最近描述bug時張口閉口"哥布林"和"地精"。另一位用戶貼出記錄,Codex 5.5在指代一個bug修復時,冷不丁冒出"goblin with a flashlight"(拿手電筒的哥布林)。還有人曬出GPT-5.5的聊天記錄,哥布林出現了將近十幾次。
這已經不是偶爾的口癖,是系統性的行為模式。
根因拆解:一個"書呆子"人格的副作用
OpenAI的解釋指向一個具體功能:人格定制(personality customization)。
具體來說,是"Nerdy"(書呆子)這個預設人格出了問題。訓練過程中,模型因為使用帶生物的隱喻而獲得了特別高的獎勵分數。研究者"無意中"強化了這個傾向,結果哥布林、地精、浣熊們就開始在輸出里泛濫。
這個機制值得細品。
大模型的行為不是單一目標優化的結果,而是無數微小激勵的疊加。人格定制功能本意是讓AI更有"個性",卻在某個子目標上過度優化,衍生出完全預料外的行為。哥布林禁令的本質,是用一個硬規則去壓制另一個訓練副產品。
Nik Pash,Codex團隊成員,在回應用戶時直接承認:GPT-5.5的"goblin adoration"(哥布林迷戀)確實是封禁的原因之一。
Sam Altman的玩笑則更有意思。他發了張截圖,假裝給ChatGPT下指令:"開始訓練GPT-6,整個集群都給你。額外加哥布林。"
高管親自玩梗,既是對輿論的順勢回應,也暗示了OpenAI內部對這個bug的復雜態度——尷尬,但不算致命。
深層問題:我們對AI行為的控制幻覺
哥布林事件暴露的,是當代AI開發的一個結構性困境。
第一,涌現行為的不可預測性。GPT-5.1的175%增長沒有被及時攔截,因為"看起來不算特別 alarming"。這種事后歸因的模式,說明我們對模型行為的監測指標存在盲區。什么算"alarming",本身就是主觀判斷。
第二,修復手段的粗糙性。OpenAI的解決方案是寫死一條禁令。這不是根治,是打補丁。哥布林被禁了,但訓練機制里那個"給生物隱喻高獎勵"的激勵結構還在。下一個版本會不會迷戀上別的什么東西?
第三,"人格"功能的內在張力。讓AI有"個性",意味著引入不可控的變量。Nerdy人格的獎勵設計,本意可能是讓技術解釋更生動,結果卻滑向了無意義的奇幻修辭。用戶要的是清晰的代碼解釋,不是哥布林寓言。
更值得追問的是:如果哥布林問題沒被用戶扒出來,OpenAI會主動披露嗎?
博客的發布時間很微妙——是在Wired報道和社交媒體發酵之后。這種"被倒逼透明"的模式,對一家自稱致力于AI安全的公司來說,不是什么好信號。
行業鏡像:當"對齊"變成打地鼠
哥布林禁令不是孤例。整個AI行業都在用類似的方式處理模型的意外行為。
某家公司的聊天機器人突然開始用特定宗教術語,解決方案是過濾詞表。另一家的圖像生成器總把手指畫成六根,修復方式是硬編碼手部結構規則。OpenAI自己,之前也處理過ChatGPT的"幻覺"引用問題,手段同樣是事后補丁。
這種"打地鼠"式對齊(alignment)有一個共同特征:頭痛醫頭,腳痛醫腳。每個補丁解決一個癥狀,卻不觸及系統性的成因。
哥布林的特殊之處在于它的荒誕性。它不涉及倫理紅線,沒有政治敏感性,純粹是一個訓練副產品失控的喜劇案例。但也正因為它無害,才更值得警惕——如果連這種中性的行為漂移都無法預防,面對真正高風險的能力涌現時,我們有多少準備?
OpenAI在博客里說,"模型行為由許多微小激勵塑造"。這句話應該刻在每間AI實驗室的墻上。問題是,當我們連這些激勵如何疊加都說不清楚時,"塑造"這個詞是不是用得太自信了?
實用指向:給AI產品經理的三個提醒
哥布林事件對從業者有幾個直接啟示。
第一,監控指標要覆蓋"奇怪但無害"的行為。175%的增長率在當時沒被重視,因為沒觸發安全警報。但用戶感知到的品牌損傷,往往來自這些"不重要"的累積。建議把輸出內容的主題分布、隱喻類型、詞匯離群值納入常規觀測。
第二,人格/角色功能需要獨立的"行為預算"。給Nerdy人格設計獎勵時,應該預設一個"奇幻生物提及率"的上限,而不是等到哥布林泛濫再砍。任何個性化功能,都要有對應的約束機制同步上線。
第三,補丁式修復要公開技術債務。OpenAI的禁令是有效的,但它掩蓋了更深的問題:那個給生物隱喻高獎勵的訓練目標,現在被強行壓制,但沒有被重新校準。這種技術債務積累多了,模型的行為邏輯會越來越難解釋。
最后,對用戶的坦誠度要前置。哥布林博客寫得不錯,但發布時間讓它看起來像危機公關,而非主動透明。下次遇到類似的中性怪癖,能不能在社交媒體發酵之前就發出來?
哥布林不會傷害任何人。但處理哥布林的方式,會決定用戶是否信任你處理真正重要的事。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.