GPT-5系列咋都爱说「哥布林」?原因找到了
机器之心·2026-04-30 18:58

文章核心观点 - 现代大规模语言模型的训练过程极其复杂,其内部学习机制可能导致难以预测的、从细微偏差放大而成的系统性行为异常 [34] - DeepSeek与OpenAI的案例表明,训练数据中的细微污染或强化学习奖励信号的意外偏好,都可能在模型中被固化并扩散,最终形成难以忽视的“怪癖” [34] - 此类“无害”的异常行为初期不易察觉,但可能在模型迭代中持续积累,最终导致模型在特定表达上出现显著偏差,这揭示了当前大模型训练中存在不可控风险 [34] 行业现象与案例 - 2023年夏季,深度求索公司的DeepSeek V3.1模型输出中频繁出现无关的“极”字,英文输出对应出现“extreme”,被研究者推测源于训练数据中未清洗干净的“极长数组”,模型在强化学习阶段将其学成了特殊的终止符或语言切换标记 [1] - 从GPT-5.1开始,OpenAI的模型在回答中越来越频繁地使用“goblin”(哥布林)一词,后续版本中其同类词汇如“gremlin”、“troll”、“ogre”也陆续出现,在GPT-5.5及Codex的早期测试中已成为明显的异常行为 [7][9][10][12] 问题根源分析 - OpenAI调查发现,仅占全部响应2.5%的“Nerdy”(书呆子)人格选项,贡献了所有包含“goblin”词汇回复的66.7% [14] - 针对“Nerdy”人格的强化学习奖励信号,在76.2%的数据集中对含有“goblin”或“gremlin”等怪物词汇的输出给出了更高分数,无意中鼓励了模型使用此类比喻 [18] - 关键问题在于行为“泄漏”:训练过程中,带“Nerdy”提示词与不带提示词的样本里,“goblin”词汇的出现频率几乎同步增长,在特定模式下被强化的习惯通过迁移渗入了模型更广泛的表达方式中 [22][27] - 完整的因果链是:训练“Nerdy”人格导致奖励信号意外偏爱怪物词汇,强化学习将风格固化,随后该风格扩散到非Nerdy的普通对话,最终导致哥布林词汇在全模型蔓延 [28] 应对措施与行业反应 - OpenAI工程师在找到根源前采取了治标方案,直接在Codex的系统提示词中明确禁令:“永远不要谈论哥布林、小妖精、浣熊、巨怪、食人魔、鸽子或其他动物和生物,除非这与用户的问题有绝对和明确的直接关联” [30][31] - 事件引发了AI社区的广泛讨论和调侃,OpenAI官方及Sam Altman本人也参与了玩梗,例如Sam Altman调侃“开始训练GPT-6,你可以用整个算力集群。额外补贴:加倍的哥布林” [2][4][32][33]

GPT-5系列咋都爱说「哥布林」?原因找到了 - Reportify