小米公司近日正式开源了其最新研发的混合专家模型(MoE)——Xiaomi MiMo-V2-Flash,这款专为智能体AI打造的模型凭借卓越的推理性能和超高性价比,在全球开源社区引发广泛关注。该模型总参数量达3090亿,但通过动态路由机制将活跃参数量压缩至150亿,在保持强大能力的同时显著降低了计算资源消耗。
技术架构方面,MiMo-V2-Flash创新性地融合了Hybrid注意力机制与多层MTP推理加速模块。其独特的1:5全局注意力与滑动窗口注意力(SWA)混合结构,配合128的窗口大小设计,不仅原生支持32K上下文长度,更可通过扩展模块将处理能力提升至256K。这种设计使得模型在处理长文本时既能保持高效运算,又能精准捕捉关键信息。
在权威智能体评测基准中,该模型以显著优势跻身全球开源模型第二位。特别值得关注的是,其代码生成能力已超越所有现有开源模型,达到与闭源标杆Claude 4.5 Sonnet相当的水平。更令人瞩目的是,在保持性能领先的同时,MiMo-V2-Flash的推理成本仅为Claude 4.5 Sonnet的2.5%,而生成速度却提升了两倍,真正实现了"性能与效率的完美平衡"。
为方便开发者与用户直接体验,小米同步推出了基于该模型的在线AI聊天服务Xiaomi MiMO Studio。该服务不仅支持深度对话功能,还整合了实时联网搜索能力,用户无需复杂部署即可感受智能体AI的强大实力。在开源策略上,小米采用MIT协议全面开放模型权重与推理代码,同时提供极具竞争力的商业API服务——输入价格仅为每百万tokens 0.1美元,输出价格为每百万tokens 0.3美元,且目前正处于限时免费推广期。












