在国产GPU技术发展的关键节点,摩尔线程于首届MUSA开发者大会上抛出重磅炸弹:不仅公布了全功能GPU技术路线图,更一口气推出覆盖芯片、集群、终端设备的十大核心产品。这场以"全栈自主·生态共赢"为主题的盛会,标志着国产GPU正式进入规模化落地阶段。
架构创新成为破局关键。新一代"花港"架构实现FP4-FP64全精度覆盖,算力密度提升50%的同时能效提升10倍。其独创的MTLink高速互联技术,支持1314GB/s片间带宽,为构建十万卡级智算集群奠定基础。更值得关注的是,架构内置的AI生成式渲染引擎(AGR)与硬件光追加速模块,使国产GPU首次具备全流程图形渲染能力,实时光追性能较前代提升50倍。
硬件矩阵呈现立体化布局。面向AI训练场景的"华山"芯片,集成新一代异步编程引擎与全精度张量计算单元,在FP8精度下性能超越国际标杆产品;专注图形渲染的"庐山"芯片,通过UniTE统一渲染架构实现3A游戏性能15倍跃升;智能SoC"长江"芯片则将CPU、GPU、NPU等六大核心模块集成于单芯片,提供50TOPS异构算力。这些芯片共同构成从数据中心到边缘设备的完整算力支撑体系。
在集群计算领域,夸娥万卡智算集群实现重大突破。该集群采用计算与交换一体化设计,实测训练算力利用率达60%(Dense模型),有效训练时间占比超90%。更引人注目的是其推理性能:与硅基流动联合优化的MTT S5000单卡,在DeepSeek R1模型上实现4000 tokens/s的Prefill吞吐与1000 tokens/s的Decode吞吐,刷新国产GPU性能纪录。现场演示显示,运行混元视频生成模型时,其单机推理速度已超越国际主流产品。
终端设备创新同样亮眼。全球首款AI算力本MTT AIBOOK搭载长江SoC芯片,提供50TOPS端侧算力与多系统兼容能力。这款预装智能体"小麦"的设备,不仅支持8K视频播放与四屏扩展,更通过全栈整合实现"开箱即用"的开发体验。同步亮相的AI Cube迷你计算设备,则以掌心尺寸集成完整智算能力,为边缘计算场景提供新选择。
软件生态建设驶入快车道。MUSA 5.0全栈软件实现三大突破:编程生态兼容CUDA C与原生MUSA C,计算库muDNN效率超98%,编译器性能提升3倍。更值得期待的是即将开源的计算光刻库muLitho与量子计算框架MUSA-Q,这些底层技术开放将加速国产计算生态的成熟。目前,MUSA生态已吸引超过20万开发者,与200余所高校开展产教融合项目。
这场技术盛宴背后,是国产GPU对技术自主的执着追求。正如清华大学郑纬民院士所言,构建"算力自主、算法自强、生态自立"的完整体系,是提升国家竞争力的必由之路。摩尔线程通过MUSA架构的持续迭代,不仅在硬件性能上缩小与国际标杆的差距,更在生态建设上走出独特路径——从超大规模智算集群到开发者终端设备,从基础软件栈到前沿应用探索,一幅自主计算生态的蓝图正在徐徐展开。












