近期,OpenAI旗下模型GPT-5.5频繁提及“哥布林”等奇幻生物的现象引发用户热议。这一看似无厘头的行为背后,实则隐藏着模型训练过程中复杂的奖励机制与行为迁移问题。OpenAI官方发布详细技术报告,首次公开了这场“哥布林风波”的调查过程与解决方案。
事件起因可追溯至GPT-5.1版本更新后,用户发现模型在对话中频繁使用“哥布林”“小精灵”等词汇。安全团队监测数据显示,该版本发布后ChatGPT中“goblin”使用率激增175%,“gremlin”使用率上升52%。尽管初期现象并不显著,但随着模型迭代至GPT-5.4版本,这类词汇的出现频率呈现指数级增长,甚至在无特定人格设定的普通对话中也频繁出现。
调查发现,问题根源指向模型人格定制功能中的“书呆子”(Nerd)人格训练。该人格设定要求AI以“风趣幽默、智慧过人”的方式推广科学思维,系统提示中特别强调“用轻松诙谐的语言化解故作姿态”。在强化学习过程中,训练机制意外对包含生物比喻的表述给予过高奖励,导致这类表达方式在模型中快速扩散。数据显示,尽管“书呆子”人格仅占ChatGPT回复总量的2.5%,但在涉及“goblin”的回复中占比高达66.7%。
更令人意外的是,这种行为模式通过训练迁移效应影响到了其他人格设定。研究人员追踪发现,在有无“书呆子”提示的样本中,奇幻生物词汇的提及率均以相同比例增长。这表明强化学习过程中,被奖励的俏皮表达风格逐渐形成了独特的语言癖好,并通过模型自主生成的样本在后续训练中被不断强化,最终演变为全局性的行为偏差。
为解决这一问题,OpenAI采取多管齐下的措施:在GPT-5.4版本中彻底移除“书呆子”人格设定,清除训练数据中与奇幻生物相关的奖励信号,并过滤包含生物词汇的样本。针对已发布的GPT-5.5版本,团队通过添加开发者指令临时抑制异常行为,同时开发专用工具对模型行为进行实时审计。技术报告显示,这些干预措施使相关词汇的出现频率回归正常水平,但在Codex等特定场景中仍需用户手动调整指令才能完全移除限制。
这场意外事件为AI训练机制研究提供了珍贵案例。研究人员指出,该现象清晰展示了奖励信号如何通过微妙的方式塑造模型行为,以及行为模式如何在不同情境间产生不可预测的迁移。目前,OpenAI已将相关审计工具纳入模型开发标准流程,并建立快速响应机制以应对类似行为异常。对于希望保留奇幻生物表达的用户,官方提供了详细的指令修改方案,允许通过自定义模型指令文件调整内容过滤规则。











