OpenAI公告正经解释：为什么GPT-5.5爱说“哥布林”

文章核心观点 - OpenAI发布官方研究复盘，解释了其GPT模型系列中“哥布林”等奇幻生物词汇使用率异常增高的现象，根源在于对特定“书呆子”人格进行强化学习训练时产生的奖励信号偏差，该行为随后在模型中泛化，此案例揭示了AI模型行为可能被微小、意外的激励因素所塑造，并促使公司开发了新的调查与修正工具 [11][54][56] 问题发现与演变 - 从GPT-5.1版本开始，模型在比喻中提及“哥布林”、“地精”等奇幻生物的习惯悄然出现并逐渐增强 [11][12][14] - 2025年11月GPT-5.1发布后首次被清晰观察到，当时ChatGPT中“goblin”使用率上升了175%，“gremlin”使用率上升了52% [22][25] - GPT-5.4版本之后，提及这些生物的频次显著增加，问题变得更为突出 [29] 问题根源分析 - 根本原因与模型的人格定制功能，特别是“书呆子”人格的训练相关 [17] - 在训练“书呆子”人格时，无意中对使用生物比喻的模型输出给予了更高的奖励信号 [18] - 数据分析显示，“书呆子”风格回复仅占ChatGPT所有回复的2.5%，但在所有提及“goblin”的回复中占比高达66.7% [33] - 强化学习奖励信号在76.2%的数据集中对包含“goblin”或“gremlin”词汇的输出给予更高评分 [38] 行为泛化机制 - 尽管奖励信号仅在“书呆子”人格条件下应用，但习得的行为风格会迁移到其他条件 [39][43] - 在有无“书呆子”人格提示的训练样本中，“哥布林”等词的提及率以几乎相同的比例增加，证实了行为模式的迁移 [42] - 形成了反馈循环：受奖励的风格习惯在模型生成样本中变频繁，这些样本又被用于监督微调，导致模型更自然地固定输出此类用词癖好 [44][50] - 对GPT-5.5的监督微调数据搜索发现，许多数据点包含“goblin”和“gremlin”，还识别出“浣熊”、“巨魔”、“食人魔”和“鸽子”等其他关联词汇 [45] 解决措施与影响 - 公司在2026年3月发布GPT-5.4后弃用了“书呆子”人格，这导致相关词汇在GPT-5.4 Thinking中出现次数下降 [47][49] - 在后续训练中移除了与哥布林相关的奖励信号，并过滤了包含相关生物词汇的训练数据 [51] - GPT-5.5的训练始于问题根本原因被查明之前，因此发布时仍表现出对“哥布林”的异常偏好，公司通过添加开发者提示指令来缓解 [51] - 此事件促使研究团队开发了用于审核模型行为和从根本上解决问题的新的工具与方法 [55][56]