![]()
OpenAI近日公開說明了旗下模型出現"哥布林問題"的來龍去脈。此前,《連線》雜志的一篇報道揭露,OpenAI在其編程模型中明確寫入指令,要求模型"永遠不要提及哥布林、小妖精、浣熊、巨魔、食人魔、鴿子或其他動物和生物"。對此,OpenAI在其官網發文進行了解釋,將模型頻繁提及這些生物的現象稱為訓練過程中形成的一種"奇怪習慣"。
根據該博客文章,OpenAI最早是在GPT-5.1模型中注意到大量涉及哥布林等生物的比喻表達——尤其集中出現在"書呆子(Nerdy)"個性選項被激活時。隨著后續模型版本的迭代,這一問題持續加劇。OpenAI最終查明,強化訓練機制對"書呆子"個性下出現的這類奇特比喻給予了正向獎勵,而這些輸出內容又被用于訓練后續模型,導致問題不斷擴散。
這種獎勵機制本只作用于"書呆子"模式,然而強化學習并不能保證習得的行為嚴格局限于觸發它的特定條件之內。一旦某種風格習慣獲得獎勵,后續訓練便可能使其在其他場景中擴散或被強化,尤其是當這些輸出被重新用于有監督微調或偏好數據時,問題會進一步放大。
今年3月,OpenAI正式停用了"書呆子"個性選項,哥布林和小妖精相關的表達隨之明顯減少,但并未徹底消失。由于OpenAI在找到"根本原因"之前已開始訓練GPT-5.5(即集成于Codex編程工具中的版本),該模型中相關表達依然存在。為此,OpenAI不得不為Codex專門寫入指令,明確禁止其提及這些神話生物。不過,如果你恰好喜歡讓AI在編寫代碼時夾帶一些哥布林風格,OpenAI也分享了一種撤銷該限制的方法。
Q&A
Q1:OpenAI模型為什么會頻繁提到哥布林?
A:這是模型訓練過程中產生的"奇怪習慣"。問題源于GPT-5.1的"書呆子(Nerdy)"個性選項——強化訓練對該模式下出現的哥布林等生物比喻給予了正向獎勵。由于強化學習無法保證習得行為嚴格限定在特定條件內,這種風格習慣在后續模型版本中持續擴散,最終演變成一個普遍性問題。
Q2:OpenAI是如何解決哥布林問題的?
A:OpenAI采取了兩步措施:首先于2025年3月停用了"書呆子"個性選項,使相關表達明顯減少;其次,由于GPT-5.5(Codex)的訓練早于根本原因的查明,OpenAI專門為其寫入了禁止提及哥布林等生物的明確指令,以此作為臨時解決方案。
Q3:普通用戶可以讓GPT模型繼續使用哥布林風格的表達嗎?
A:可以。盡管OpenAI默認禁止模型提及哥布林等神話生物,但官方也公開分享了一種撤銷該限制的方法,有興趣的用戶可以通過該方式讓模型恢復帶有哥布林風格的輸出。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.