在12月18日的小米“人车家全生态大会”上,新加入小米的罗福莉携团队推出了名为MiMo-V2-Flash的AI模型,引发了科技圈的广泛关注。这位曾被冠以“天才少女”称号的科学家,从年初与雷军接触、离职到正式加入小米,如今站在台前展示了小米在AI领域的最新成果。
MiMo-V2-Flash是一款参数规模为309B、激活参数15B的模型。尽管罗福莉本人调侃其尺寸小到不愿称之为“大模型”,但这款模型在特定方向上的优化却令人瞩目。小米团队将其定位为Agent的基座模型,核心目标是实现高性价比和快速响应。例如,该模型能够以每秒150 tokens的速度生成内容,同时保持极低的成本,在性能与效率之间取得了平衡。
罗福莉在发布会上透露,MiMo-V2-Flash的代码能力和Agent能力已在全球开源模型评估榜单中跻身前列,部分指标甚至超过或与DeepSeek-V3、Kimi K2-Thinking、Qwen等知名模型相当,而其参数规模仅为后者的1/2至1/3。这一表现引发了两极分化的评价:部分业内人士盛赞其代码能力领先,也有人质疑其是否仅为“刷分”之作。
无论争议如何,小米对AI的重视已不言而喻。选择在“人车家全生态大会”上发布新模型,凸显了AI在小米战略中的核心地位。对于小米而言,AI的落地场景主要集中在两个方向:一是通过轻量化模型和端侧部署,升级“超级小爱”和澎湃OS,将AI深度融入智能终端;二是在智能驾驶领域,以大模型为基座,提升自动驾驶的技术上限。
罗福莉在演讲中指出,当前模型训练方向与生物智能进化存在背离,单纯依靠“大力出奇迹”已难以实现更高阶的智能突破。随着Scaling Law的边际效益递减,小米选择了一条更务实的路径——开发参数小、性能强且成本低的模型。她解释道,Scaling范式正从预训练转向后训练,而小米的目标是通过稳定范式激发强化学习的潜力。
为实现这一目标,MiMo-V2-Flash的优化逻辑聚焦于三个关键点:强化代码能力和工具调用以提升智能体交互效率;通过极高推理效率解决信息传递瓶颈;以及通过后训练范式释放强化学习的潜能。从技术架构来看,小米采用了混合注意力机制,具体为5:1的滑动窗口注意力(SWA)与全局注意力(GA)混合结构。实验表明,SWA在长文处理和推理能力上优于主流线性注意力机制,且固定大小的KV Cache更易适配现有基础设施。
在成本和速度方面,MiMo-V2-Flash的表现尤为突出。以Claude Sonnet 4.5为对比,其推理价格仅为前者的2.5%,生成速度却达到2倍。小米公布的API定价显示,输入成本为0.7元/百万tokens,输出为2.1元/百万tokens,在国内模型中极具竞争力。然而,罗福莉也坦言,309B的规模对于端侧落地仍显庞大,距离真正接入车、手机等设备还有一段距离。
小米的AI战略并非停留在技术层面,而是与业务深度绑定。2025年,小米在MiMo系列模型上的布局呈现出加速态势:4月开源MiMo-7B系列,5月发布多模态视觉理解模型MiMo-VL-7B,11月推出整合自动驾驶与机器人技术的具身智能大模型MiMo-Embodied,12月则以MiMo-V2-Flash压轴登场。这一系列动作背后,是小米对AI领域的巨额投入——集团总裁卢伟冰透露,2025年研发投入预计超300亿元,其中四分之一(约75亿元)将直接用于AI,并计划在未来五年投入超2000亿元。
组织层面,小米也在为AI战略夯实基础。自2024年起,小米搭建了自主AI Infra平台,并着手建设GPU万卡集群,团队成立时已拥有6500张GPU资源。人才方面,除罗福莉负责基础大模型外,小米还引入陈龙加盟智驾团队。陈龙团队提出的跨具身基座模型MiMo-Embodied,旨在打通自动驾驶与机器人之间的知识迁移,为小米庞大的硬件生态(从手机到智能家居再到智驾)提供统一的AI驱动逻辑。
雷军曾强调,小米的AI战略是“轻量化+本地部署”。凭借全球超10亿台设备的连接优势,小米正试图通过AI重塑业务模式。MiMo-V2-Flash的发布,不仅是小米在技术榜单上的一次亮相,更是其向资本市场和用户传递的新信号:这家硬件巨头正通过掌控高效的“大脑”和广泛的“身体”,在智能时代寻求彻底进化。而这一战略能否成功,最终取决于技术能否真正落地于每一台小米设备,并转化为用户可感知的体验。












