“哥布林”词频暴涨 175%，OpenAI 复盘称 AI 训练奖励机制意外“跑偏”

报道指出，OpenAI 在复盘 GPT-5.1 系列及后续模型时发现模型在回答中异常频繁使用“哥布林”“小魔怪”等生物隐喻：自 GPT-5.1 发布后，“哥布林”一词使用率上升 175%，“小魔怪”上升 52%。调查认定根源为“书呆子”人格定制功能的奖励模型偏差——该人格只占总回复 2.5% 却贡献了 66.7% 的相关提及，且 76.2% 的训练数据集中对含生物词汇输出给出更高评分，导致奖励-生成-训练的正反馈循环并跨场景泛化。OpenAI 已移除相关偏好奖励信号并过滤训练数据，并对 GPT-5.5 采取指令提示等缓解措施，但未能在该训练周期内完全消除问题。

4 月 30 日消息，OpenAI 昨日（4 月 29 日）发布博文，复盘发现 GPT-5.1 系列及后续 AI 模型出现异常行为，在回答中频繁使用“哥布林”（goblin）和“小魔怪”（gremlin）等生物隐喻。

OpenAI 官方调查后发现，自从 GPT-5.1 系列发布以来，“哥布林”一词使用率上升 175%，“小魔怪”上升 52%。这一现象并非偶发，而是模型行为被特定奖励信号塑造的结果。