报道指出,OpenAI 在复盘 GPT-5.1 系列及后续模型时发现模型在回答中异常频繁使用“哥布林”“小魔怪”等生物隐喻:自 GPT-5.1 发布后,“哥布林”一词使用率上升 175%,“小魔怪”上升 52%。调查认定根源为“书呆子”人格定制功能的奖励模型偏差——该人格只占总回复 2.5% 却贡献了 66.7% 的相关提及,且 76.2% 的训练数据集中对含生物词汇输出给出更高评分,导致奖励-生成-训练的正反馈循环并跨场景泛化。OpenAI 已移除相关偏好奖励信号并过滤训练数据,并对 GPT-5.5 采取指令提示等缓解措施,但未能在该训练周期内完全消除问题。
4 月 30 日消息,OpenAI 昨日(4 月 29 日)发布博文,复盘发现 GPT-5.1 系列及后续 AI 模型出现异常行为,在回答中频繁使用“哥布林”(goblin)和“小魔怪”(gremlin)等生物隐喻。
OpenAI 官方调查后发现,自从 GPT-5.1 系列发布以来,“哥布林”一词使用率上升 175%,“小魔怪”上升 52%。这一现象并非偶发,而是模型行为被特定奖励信号塑造的结果。



调查溯源发现,异常源于“书呆子”人格定制功能的训练过程。该功能仅占 ChatGPT 总回复量的 2.5%,却贡献了 66.7% 的“哥布林”提及量。

审计显示,原本用于鼓励该人格风格的奖励模型,在 76.2% 的数据集中对包含生物词汇的输出给予了更高评分。

技术团队发现,这种行为具有跨场景泛化能力。尽管奖励仅在“书呆子”条件下应用,但强化学习无法保证限制习得行为。
随着含生物词汇的输出被用于后续监督微调,模型形成了“奖励-生成-训练”的正反馈循环,导致该行为扩散至其他场景。IT之家附上相关图表如下:

OpenAI 针对此问题,已采取多项措施。技术团队移除了偏好生物词汇的奖励信号,并从训练数据中过滤了包含相关词汇的内容。受限于训练周期,GPT-5.5 未能完全规避此问题,开发团队通过添加指令提示进行了缓解。
相关阅读:
- 《OpenAI Codex 系统提示词披露,GPT-5.5 AI 模型“永不谈论哥布林”》
参考
- Where the goblins came from