小米近日正式推出全新开源大模型MiMo-V2-Flash,凭借3090亿总参数与150亿活跃参数的规模,采用专家混合架构(MoE)设计,在性能表现上与DeepSeek-V3.2、Kimi-K2等头部开源模型形成有力竞争。该模型最引人注目的突破在于将推理速度提升至每秒150 tokens,同时将输入成本压缩至每百万token仅0.1美元,输出成本0.3美元,在性价比维度树立了新标杆。
在基准测试中,MiMo-V2-Flash展现惊人实力:AIME 2025数学竞赛与GPQA-Diamond科学知识测试均位列开源模型前两名,编程能力尤为突出——在SWE-bench Verified真实软件修复测试中取得73.4%的得分,超越所有开源竞品,直逼GPT-5-High水平。多语言编程测试SWE-Bench Multilingual中,该模型以71.7%的解决率证明其跨语言开发能力。智能体任务测试显示,其在通信类任务获得95.3分,零售类79.5分,航空类66.0分,搜索代理任务在启用上下文管理后得分从45.4跃升至58.3。
技术团队通过两项核心创新实现性能突破。混合滑动窗口注意力机制采用5层滑动窗口与1层全局注意力的激进配比,滑动窗口固定为128 token长度,使KV缓存存储量减少近6倍,却仍能支持256k超长上下文窗口。项目负责人罗福莉特别指出,实验发现128窗口大小是性能与效率的最佳平衡点,盲目扩大窗口反而导致性能下降,同时强调实施该机制时sink values的必要性。另一项轻量级多Token预测(MTP)技术则打破传统逐token生成模式,通过原生集成模块实现并行预测,实测平均接受2.8-3.6个连续token,推理速度提升2-2.6倍,有效解决强化学习中长尾样本导致的GPU空转问题。
训练阶段采用FP8混合精度技术,在27万亿token数据上完成预训练,原生支持32k序列长度。后训练阶段创新提出多教师在线策略蒸馏(MOPD),通过学生模型自主采样、多专家教师实时反馈的方式,将训练算力需求降至传统方法的1/50。该架构支持动态接入新教师模型,形成"教学相长"的闭环进化系统。智能体强化学习扩展方面,研究团队基于真实GitHub问题构建超10万个验证任务,在Kubernetes集群部署并发超万个Pod,环境部署成功率达70%,并开发多模态验证器通过视频录制确保代码执行准确性。
对于开发者群体,MiMo-V2-Flash提供256k上下文窗口支持数百轮智能体交互,可无缝集成Claude Code、Cursor等主流开发环境。模型权重已在Hugging Face平台以MIT协议开源,包含完整技术报告与推理代码。目前该模型已通过API Platform限时免费开放,所有优化经验同步分享至LMSYS博客,相关代码贡献给SGLang社区。这种全链条开源策略在国内科技企业中实属罕见,为行业技术演进提供了重要参考。











