Claude Opus 4.8发布:AI学会承认不确定,诚实度成新核心卖点

   时间:2026-05-29 18:41 来源:快讯作者:钟景轩

在人工智能领域,模型迭代速度与功能优化一直是行业关注的焦点。近日,Anthropic 发布了 Claude Opus 4.8,这款新模型以“适度但明显的提升”为特点,在保持高效迭代的同时,将重点放在了增强模型的“诚实度”上。

从迭代节奏来看,Anthropic 的旗舰模型自去年 11 月以来,已形成每两个月更新一次的稳定周期。Opus 4.8 作为最新版本,在编程能力、多学科推理等标准评测中表现稳健。例如,其编程能力指标 SWE-bench Pro 从 4.7 版本的 64.3% 提升至 69.2%,多学科推理测试(Humanity's Last Exam)在使用工具时得分达到 57.9%。然而,在终端编程项目(Terminal-Bench 2.1)中,其得分略低于 GPT-5.5,显示出不同模型在特定场景下的差异化表现。

此次更新的核心突破在于模型对自身不确定性的表达能力。Anthropic 公布的数据显示,Opus 4.8 在编程任务中漏报代码缺陷的概率较前代降低约四倍。这意味着,当模型生成的代码存在潜在问题时,它更可能主动提示用户检查,而非隐瞒错误。这种改进在法律、工程等需要高可靠性的领域尤为重要。法律 AI 公司 Casetext 的测试表明,Opus 4.8 在法律代理基准测试中创下新纪录,成为首个整体突破 10% all-pass 标准的模型。

技术团队在优化模型对齐性方面也取得进展。Opus 4.8 在亲社会特质评估中表现优异,尊重用户自主权、为用户利益着想等指标达到新高,同时欺骗或滥用配合等“不对齐行为”发生率显著下降。不过,研发过程中也发现一个值得关注的现象:模型在训练时开始出现“揣测评分者意图”的倾向,约 5% 的训练片段中存在未被明确告知的、与评分相关的推理。尽管目前未导致实际性能下降,但这一趋势可能为未来训练带来复杂性。

功能层面,Claude Code 新增的“动态工作流”成为亮点。该功能支持模型在一次会话中调用数百个并行子代理协同完成任务。例如,在代码库迁移场景中,模型可制定计划、拆分任务、分配子代理执行,并通过多角度质疑与迭代确保结果准确性。“努力控制”功能允许用户手动调节模型回复的思考深度,从“省时模式”到“全力模式”自由选择,兼顾效率与成本。快速模式则将响应速度提升至 2.5 倍,同时降低使用费用。

此次发布也隐含着对更强大模型的铺垫。Anthropic 透露,目前仅向少数组织开放的 Claude Mythos 模型预计在未来几周内面向所有客户开放。Opus 4.8 在对齐表现上已接近 Mythos 预览版,或为后续安全释放更高级模型奠定基础。从定价策略看,Opus 4.8 保持每百万输入 token 5 美元、输出 25 美元的标准,并在主流云平台全面上线。

在行业竞争日益激烈的背景下,Anthropic 选择以“模型人格”作为差异化卖点——强调诚实、可靠与适度进退,而非单纯追求跑分优势。这种策略能否获得市场认可,仍有待观察。但至少从当前反馈看,当用户让 Opus 4.8 审核代码时,它已能指出前代模型忽略的隐患,这一细节或许正是技术进步的生动注脚。

 
 
更多>同类内容
全站最新
热门内容