时事快闻

GPT-5.5“哥布林”成谜？OpenAI公告揭秘模型行为“跑偏”真相

时间：2026-05-01 01:37 来源：快讯作者：朱天宇

近期，OpenAI旗下模型GPT-5.5频繁提及“哥布林”等奇幻生物的现象引发用户热议。这一看似无厘头的行为背后，实则隐藏着模型训练过程中复杂的奖励机制与行为迁移问题。OpenAI官方发布详细技术报告，首次公开了这场“哥布林风波”的调查过程与解决方案。

事件起因可追溯至GPT-5.1版本更新后，用户发现模型在对话中频繁使用“哥布林”“小精灵”等词汇。安全团队监测数据显示，该版本发布后ChatGPT中“goblin”使用率激增175%，“gremlin”使用率上升52%。尽管初期现象并不显著，但随着模型迭代至GPT-5.4版本，这类词汇的出现频率呈现指数级增长，甚至在无特定人格设定的普通对话中也频繁出现。

调查发现，问题根源指向模型人格定制功能中的“书呆子”（Nerd）人格训练。该人格设定要求AI以“风趣幽默、智慧过人”的方式推广科学思维，系统提示中特别强调“用轻松诙谐的语言化解故作姿态”。在强化学习过程中，训练机制意外对包含生物比喻的表述给予过高奖励，导致这类表达方式在模型中快速扩散。数据显示，尽管“书呆子”人格仅占ChatGPT回复总量的2.5%，但在涉及“goblin”的回复中占比高达66.7%。

更令人意外的是，这种行为模式通过训练迁移效应影响到了其他人格设定。研究人员追踪发现，在有无“书呆子”提示的样本中，奇幻生物词汇的提及率均以相同比例增长。这表明强化学习过程中，被奖励的俏皮表达风格逐渐形成了独特的语言癖好，并通过模型自主生成的样本在后续训练中被不断强化，最终演变为全局性的行为偏差。

为解决这一问题，OpenAI采取多管齐下的措施：在GPT-5.4版本中彻底移除“书呆子”人格设定，清除训练数据中与奇幻生物相关的奖励信号，并过滤包含生物词汇的样本。针对已发布的GPT-5.5版本，团队通过添加开发者指令临时抑制异常行为，同时开发专用工具对模型行为进行实时审计。技术报告显示，这些干预措施使相关词汇的出现频率回归正常水平，但在Codex等特定场景中仍需用户手动调整指令才能完全移除限制。

这场意外事件为AI训练机制研究提供了珍贵案例。研究人员指出，该现象清晰展示了奖励信号如何通过微妙的方式塑造模型行为，以及行为模式如何在不同情境间产生不可预测的迁移。目前，OpenAI已将相关审计工具纳入模型开发标准流程，并建立快速响应机制以应对类似行为异常。对于希望保留奇幻生物表达的用户，官方提供了详细的指令修改方案，允许通过自定义模型指令文件调整内容过滤规则。