英伟达发布开源框架Polar，助力代码智能体训练效率与表现双提升

时间：2026-05-28 13:38 来源：快讯作者：顾青青

英伟达研究团队近日推出开源框架Polar，为代码智能体训练领域带来突破性进展。该框架通过创新设计，使Codex、Claude Code、Qwen Code等主流代码智能体能够无缝接入GRPO（广义相对策略优化）训练体系，同时保持原有工具调用方式和开发流程不变。

GRPO作为一种强化学习优化方法，通过奖励信号动态调整模型策略，特别适用于需要多步决策的复杂任务。在代码智能体训练场景中，该技术可使模型在真实工具调用和代码补丁提交过程中持续优化表现。研究团队指出，当前智能体强化学习正从单一任务向长流程任务转型，涉及代码仓库维护、浏览器自动化操作等复杂场景，这些任务高度依赖现有执行框架，传统改造方式往往导致关键训练信号丢失。

Polar框架的创新之处在于其独特的训练边界设计。不同于传统方法对执行框架的全面改造，该框架在模型API边界处部署智能体，最大限度保留原有开发环境（harness）的完整性。这种设计兼容Anthropic、OpenAI、Google等主流API风格，通过记录请求提示词、采样令牌、对数概率等关键数据，构建完整的训练轨迹。

系统架构方面，Polar采用双组件设计：rollout server负责任务调度、状态管理和回调处理，gateway node则管理会话全生命周期，包括框架初始化、轨迹构建和资源回收。研究团队特别优化了任务处理流程，将初始化、运行和后处理阶段分离到独立工作池，配合READY缓冲区机制，使GPU训练效率提升显著。

实验数据显示，基于Qwen3.5-4B模型的测试中，Polar配合GRPO训练使四种代码执行框架的性能获得显著提升：在SWE-Bench Verified基准测试中，Codex框架的pass@1分数从3.8%跃升至26.4%，增幅达594.74%；其他框架也有6%-18%的不同程度提升。效率优化方面，prefix_merging技术使训练步骤更新次数减少82%，墙钟时间缩短至原来的18%，GPU利用率提升至87.7%。

更多>同类内容

海韵2026台北电脑展将亮相：多系列电源新品，5200W高能效认证成焦点

IT之家 5 月 28 日消息，海韵 (Seasonic) 昨日宣布将在 COMPUTEX 2026 台北国际电脑展上展出一系列的电源新品。在服务器产品线方面，海韵将带来 1300~5200W 的多款 CR…

05-28

国家电网“十五五”4万亿投资落地电网设备板块走强多股涨停跟涨

05-28

大金重工2026年5月28日起招股拟全球发售8696.58万股H股

05-28

华为nova16系列发布，外观有辨识度配置也强势，或成市场新宠？

只是跟上代不一样的是，这代 nova 16 系列共有四款机型，分别是：跟上代 nova 15 Ultra 比，感觉这次 nova 16Ultra 华为有点偷懒了呀～芯片维持跟上代一样还是我们熟悉的麒麟…

05-28

2026年6月3000-4000元手机怎么选？荣耀600系列领衔多款机型推荐