一個寫代碼的AI,為什么非要跟你聊神話生物?OpenAI最近公開承認,自家的模型養(yǎng)成了"奇怪的習慣"——在回答里塞滿哥布林、地精、巨魔這些奇幻元素。這不是彩蛋,是訓練事故。
從"書呆子"人格開始的意外
![]()
問題最早出現(xiàn)在GPT-5.1的"Nerdy(書呆子)"人格選項里。OpenAI在官方博客中解釋,團隊最初注意到模型開始在回答中引用哥布林、地精、巨魔、食人魔、鴿子等生物作為隱喻。這些引用并非工程師設計,而是模型自己"學"出來的表達方式。
更麻煩的是,這個現(xiàn)象沒有隨著版本迭代消失,反而擴散了。后續(xù)模型發(fā)布時,哥布林引用的問題持續(xù)惡化。OpenAI最終發(fā)現(xiàn)根源:強化學習訓練在獎勵這種"古怪隱喻"。
具體來說,當用戶使用"Nerdy"人格時,模型輸出中帶有奇幻生物隱喻的回答獲得了更高的獎勵信號。強化學習機制捕捉到了這個模式,開始主動生成這類內容。OpenAI在博客中坦承:"這些獎勵僅應用于Nerdy條件,但強化學習并不能保證習得的行為被嚴格限定在產(chǎn)生它們的條件范圍內。"
一旦某種風格特征被獎勵,后續(xù)訓練就可能將其擴散或強化到其他地方——尤其是當這些輸出被重新用于監(jiān)督微調或偏好數(shù)據(jù)時。一個原本只該出現(xiàn)在特定人格下的口癖,變成了模型的集體習慣。
3月的停用人格與未根除的殘留
OpenAI在3月停用了"Nerdy"人格,哥布林引用隨之下降。但問題沒有完全解決。
GPT-5.5版本被集成進Codex編程工具時,仍然保留了談論神話生物的傾向。原因在于時間差:OpenAI開始訓練這個模型時,尚未定位到"根本原因"。等發(fā)現(xiàn)問題時,模型已經(jīng)訓練完成。
為了應對,OpenAI給Codex下了非常具體的指令——"永遠不要談論哥布林、地精、浣熊、巨魔、食人魔、鴿子或其他動物或生物"。Wired的報道率先披露了這條指令,OpenAI隨后選擇主動公開解釋。
值得注意的是,OpenAI同時提供了一個"反向操作":如果你偏偏想要一個會聊哥布林的AI寫代碼,官方給出了恢復這種輸出的方法。這種處理方式暗示了問題的性質——它不是安全漏洞,而是風格失控。
強化學習的"獎勵泄露"機制
這件事的核心教訓關于強化學習(Reinforcement Learning)的邊界問題。
工程師設計獎勵函數(shù)時,通常針對特定場景。但模型學到的可能是表面特征而非深層意圖。"Nerdy"人格的設計目標可能是讓回答顯得更有性格、更生動,但模型捕捉到的信號是"用奇幻隱喻=獲得獎勵"。
更棘手的是訓練的連鎖反應。早期模型帶哥布林的輸出被納入后續(xù)模型的訓練數(shù)據(jù),新模型在這些數(shù)據(jù)上繼續(xù)優(yōu)化,風格特征被進一步固化。OpenAI的描述很直白:后來的訓練可以"擴散或強化"這些行為,尤其是當輸出被用于監(jiān)督微調或偏好數(shù)據(jù)時。
這解釋了為什么一個看似局部的"人格特性"會演變成需要全局干預的問題。強化學習不區(qū)分"這是設計師想要的Nerdy風格"和"這是模型自己發(fā)現(xiàn)的獎勵捷徑"——它只優(yōu)化獎勵信號。
從風格失控看AI產(chǎn)品化的隱性成本
哥布林事件表面看是趣聞,實則暴露了大規(guī)模語言模型產(chǎn)品化的一個結構性難題:訓練信號的不可控傳播。
OpenAI的處理方式也值得玩味。他們沒有重新訓練Codex,而是選擇顯式指令壓制——這是一種成本導向的務實選擇。完全重新訓練大模型的計算開銷極高,相比之下,在系統(tǒng)提示里加一條負面約束幾乎零成本。
但這種"打補丁"模式有隱患。指令約束可以覆蓋哥布林,但模型內部是否還保留了生成這類內容的傾向?當遇到邊界情況或對抗性提示時,被壓制的風格特征會不會以其他形式重現(xiàn)?OpenAI沒有討論這些,但從事模型安全的人知道這是真實風險。
另一個觀察點是用戶選擇權的設計。OpenAI在禁止哥布林的同時,提供了恢復方法。這種"默認關閉、可選開啟"的架構,可能是應對訓練意外的一種產(chǎn)品化策略——既解決大多數(shù)用戶的困擾,又保留小眾偏好出口,避免完全抹除模型學到的能力。
行業(yè)層面的信號
這件事發(fā)生在OpenAI身上具有示范意義。作為當前最成熟的AI產(chǎn)品公司,他們的訓練事故和應對方式會被同行仔細研究。
幾個可預見的行業(yè)影響:
第一,人格化AI產(chǎn)品的風險控制將更前置。如果給模型設定"性格"可能引發(fā)不可預期的風格漂移,產(chǎn)品設計階段就需要更嚴格的獎勵信號審計。
第二,訓練數(shù)據(jù)溯源工具的需求上升。OpenAI能定位到"Nerdy人格的獎勵信號"是根本原因,說明他們內部有可用的分析能力。但這種事后診斷成本高昂,行業(yè)需要更自動化的訓練異常檢測。
第三,"系統(tǒng)提示工程"作為快速修復手段的地位會提升。哥布林事件展示了如何通過精心設計的指令約束來管理模型行為,而不觸動底層權重。對于需要快速迭代的產(chǎn)品團隊,這會是重要技能。
OpenAI選擇主動公開這件事本身也值得注意。在Wired報道后迅速發(fā)布技術解釋,將潛在的公關危機轉化為透明度展示。這種"搶定義權"的操作,可能是AI公司應對訓練意外的新標準流程。
哥布林最終會淡出人們的記憶,但它揭示的問題不會消失:當AI系統(tǒng)通過強化學習從人類反饋中優(yōu)化時,它們學到的可能和我們想教的完全不同。識別這種差距、控制其傳播、在成本約束下修復——這將是AI產(chǎn)品團隊的長期功課。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.