英伟达研究团队近日推出开源框架Polar,为代码智能体训练领域带来突破性进展。该框架通过创新设计,使Codex、Claude Code、Qwen Code等主流代码智能体能够无缝接入GRPO(广义相对策略优化)训练体系,同时保持原有工具调用方式和开发流程不变。
GRPO作为一种强化学习优化方法,通过奖励信号动态调整模型策略,特别适用于需要多步决策的复杂任务。在代码智能体训练场景中,该技术可使模型在真实工具调用和代码补丁提交过程中持续优化表现。研究团队指出,当前智能体强化学习正从单一任务向长流程任务转型,涉及代码仓库维护、浏览器自动化操作等复杂场景,这些任务高度依赖现有执行框架,传统改造方式往往导致关键训练信号丢失。
Polar框架的创新之处在于其独特的训练边界设计。不同于传统方法对执行框架的全面改造,该框架在模型API边界处部署智能体,最大限度保留原有开发环境(harness)的完整性。这种设计兼容Anthropic、OpenAI、Google等主流API风格,通过记录请求提示词、采样令牌、对数概率等关键数据,构建完整的训练轨迹。
系统架构方面,Polar采用双组件设计:rollout server负责任务调度、状态管理和回调处理,gateway node则管理会话全生命周期,包括框架初始化、轨迹构建和资源回收。研究团队特别优化了任务处理流程,将初始化、运行和后处理阶段分离到独立工作池,配合READY缓冲区机制,使GPU训练效率提升显著。
实验数据显示,基于Qwen3.5-4B模型的测试中,Polar配合GRPO训练使四种代码执行框架的性能获得显著提升:在SWE-Bench Verified基准测试中,Codex框架的pass@1分数从3.8%跃升至26.4%,增幅达594.74%;其他框架也有6%-18%的不同程度提升。效率优化方面,prefix_merging技术使训练步骤更新次数减少82%,墙钟时间缩短至原来的18%,GPU利用率提升至87.7%。












