Claude Opus 4.8发布：AI学会承认不确定，诚实度成新核心卖点-企业动态-数据世界

在人工智能领域，模型迭代速度与功能优化一直是行业关注的焦点。近日，Anthropic 发布了 Claude Opus 4.8，这款新模型以“适度但明显的提升”为特点，在保持高效迭代的同时，将重点放在了增强模型的“诚实度”上。

从迭代节奏来看，Anthropic 的旗舰模型自去年 11 月以来，已形成每两个月更新一次的稳定周期。Opus 4.8 作为最新版本，在编程能力、多学科推理等标准评测中表现稳健。例如，其编程能力指标 SWE-bench Pro 从 4.7 版本的 64.3% 提升至 69.2%，多学科推理测试（Humanity's Last Exam）在使用工具时得分达到 57.9%。然而，在终端编程项目（Terminal-Bench 2.1）中，其得分略低于 GPT-5.5，显示出不同模型在特定场景下的差异化表现。

此次更新的核心突破在于模型对自身不确定性的表达能力。Anthropic 公布的数据显示，Opus 4.8 在编程任务中漏报代码缺陷的概率较前代降低约四倍。这意味着，当模型生成的代码存在潜在问题时，它更可能主动提示用户检查，而非隐瞒错误。这种改进在法律、工程等需要高可靠性的领域尤为重要。法律 AI 公司 Casetext 的测试表明，Opus 4.8 在法律代理基准测试中创下新纪录，成为首个整体突破 10% all-pass 标准的模型。

技术团队在优化模型对齐性方面也取得进展。Opus 4.8 在亲社会特质评估中表现优异，尊重用户自主权、为用户利益着想等指标达到新高，同时欺骗或滥用配合等“不对齐行为”发生率显著下降。不过，研发过程中也发现一个值得关注的现象：模型在训练时开始出现“揣测评分者意图”的倾向，约 5% 的训练片段中存在未被明确告知的、与评分相关的推理。尽管目前未导致实际性能下降，但这一趋势可能为未来训练带来复杂性。

功能层面，Claude Code 新增的“动态工作流”成为亮点。该功能支持模型在一次会话中调用数百个并行子代理协同完成任务。例如，在代码库迁移场景中，模型可制定计划、拆分任务、分配子代理执行，并通过多角度质疑与迭代确保结果准确性。“努力控制”功能允许用户手动调节模型回复的思考深度，从“省时模式”到“全力模式”自由选择，兼顾效率与成本。快速模式则将响应速度提升至 2.5 倍，同时降低使用费用。

此次发布也隐含着对更强大模型的铺垫。Anthropic 透露，目前仅向少数组织开放的 Claude Mythos 模型预计在未来几周内面向所有客户开放。Opus 4.8 在对齐表现上已接近 Mythos 预览版，或为后续安全释放更高级模型奠定基础。从定价策略看，Opus 4.8 保持每百万输入 token 5 美元、输出 25 美元的标准，并在主流云平台全面上线。

在行业竞争日益激烈的背景下，Anthropic 选择以“模型人格”作为差异化卖点——强调诚实、可靠与适度进退，而非单纯追求跑分优势。这种策略能否获得市场认可，仍有待观察。但至少从当前反馈看，当用户让 Opus 4.8 审核代码时，它已能指出前代模型忽略的隐患，这一细节或许正是技术进步的生动注脚。

因为，高成本是固态电池普及的核心阻碍，即便到2035年也很难具备成本竞争力，“从成本测算来看，2027年固态电池的材料与制造成本将达到三元锂液态电芯的数倍，而（目前）三元锂液态电芯的成本是磷酸铁锂电芯的1倍…

根据弗若斯特沙利文的资料，于2025年按销量计，汉威科技是中国最大的以中国为基地的智能气体传感器供货商，按收入计则是第二大供货商；于2025年按收入计，汉威科技是中国最大以中国为基地的智能气体监测仪器仪表提…

智能体之年已经到来，AI已不再局限于被动应答，更能主动行动。从个人终端到基础设施，智能体AI正在重塑工作模式，改写人与技术的交互方式。此次主题演讲中，高通公司总裁兼CEO安蒙将呈现智能体如何应用于当前的各…

马斯克还透露，SpaceX正在与其他公司洽谈类似的算力租赁合作，轨道数据中心也在规划中。更关键的是，和A社抢算力的竞争者恰恰是老马自家人，Grok系列需要训练，Tesla的自动驾驶业务对算力的胃口也在快速…

如图所示，我们可以在就拍出的Live图中截出最好看的一张当封面，截出来的图也支持小红书等社交平台，能吸引更多点赞。如果想拍出更具想象力的样张，vivoS60还支持把实况照片中的人物“扣”出，添加为贴纸，并…

到店体验完全不一样，验机流程比我自己还仔细周末抽空去了趟附近的旧猫门店，进门第一感觉就是陈列整齐，手机、相机、笔记本、无人机、平板分区摆放，每台机器旁边都有成色说明和价格标签，明码标价，不用猜来猜去。我之…

在闺蜜机上集成语音交互功能，用户可以轻松地控制播放音乐、视频，查询信息，设置提醒等，让用户的体验更加自然和流畅。某品牌的闺蜜机在语音识别的准确率方面表现突出，能够快速准确地理解用户的指令；还有品牌在语音助手的…

精准定位是华为超新星手表 X1 系列守护孩子安全的最强底座，它整合五模双频卫星定位，同时新增了全新楼层定位算法和双频Wi-Fi，家长在“智能关怀”APP中看到的不是模糊的大概区域，而是具体的楼层位置，像是在…

IT之家5月29日消息，在接受《Decoder》采访中，美国造车新势力Rivian软件负责人瓦西姆·本赛德（WassymBensaid）表示，称随着AI技术推进，再讨论是否需要整合苹果车联方案CarPlay即…

随着更多机器人场景进入规模化交付阶段，速腾聚创正加速形成跨场景的平台化能力，机器人业务增长空间将进一步打开。依托自研SPAD-SoC芯片等核心技术，公司正推动行业向下一代数字化激光雷达转型，赋能智能汽车与机器…

IT之家 5 月 29 日消息，AI 编程智能体 IDE 工具 Kilo Code 今天在 X 平台发布系列图文，分享了 Grok Build0.1 实战开发报告，称构建交付服务过程零工具调用失败，且成本低…

任红军，58岁，为执行董事兼董事长，主要负责管理董事会的运作、制定整体策略规划及确定集团的业务方向。肖锋，43岁，为公司执行董事、副总经理、董事会秘书兼联席公司秘书，主要负责整体企业管治、资本市场融资、信…

其于集团内先后担任多个职务，包括于2013年6月至2013年12月担任上海浦东海澜之家服饰有限公司副总裁，于2015年10月至2022年4月担任海澜之家品牌管理有限公司董事长，于2016年7月至2020年12…