在摩尔线程举办的首届MUSA开发者大会(MDC 2025)上,创始人张建中携一系列重磅成果亮相,向行业展示了国产GPU在技术演进与生态建设上的全新突破。这场以“全功能GPU”为核心主题的发布会,不仅展现了摩尔线程从单点技术到系统级能力的跨越,更释放出国产算力基础设施迈向长期主义的明确信号。
张建中在演讲中强调,GPU的发展史本质是算力边界的持续拓展。从早期专注于图形渲染,到通过可编程能力演变为通用并行计算平台,再到如今成为AI时代的核心载体,GPU的每一次跃迁都源于对多样化计算需求的响应。随着生成式AI向具身智能、物理AI等新形态演进,未来五到十年,算力平台需同时具备计算、仿真、图形与感知能力,这决定了单一功能加速器无法满足需求。
全功能GPU的架构设计正是为此而生。其核心在于集成四大计算引擎:AI计算引擎支撑模型训练与推理,3D图形渲染引擎服务数字内容生产,高性能计算引擎赋能科学模拟,智能视频编解码引擎优化云端算力传输。这种“四引擎协同”的模式,使得单一硬件平台即可覆盖从云端训练到终端推理、从科学计算到数字孪生的全场景需求。
作为摩尔线程自主研发的元计算统一架构,MUSA在此次大会上升级至5.0版本,标志着其技术体系步入成熟阶段。新架构原生支持MUSA C编程语言,深度兼容TileLang、Triton等国际主流语言,核心计算库muDNN的GEMM与FlashAttention效率突破98%,编译器性能提升3倍,并集成高性能算子库,显著加速训练与推理全流程。
更值得关注的是MUSA的生态开放战略。摩尔线程宣布将逐步开源计算加速库、通信库及系统管理框架等核心组件,并推出兼容跨代GPU指令的中间语言MTX、面向渲染+AI融合计算的muLang、量子计算框架MUSA-Q等工具链。这一举措旨在构建“国际生态+国产生态”的双轮驱动模式,覆盖“云边端”全系列产品,为开发者提供统一软件栈支持。
基于MUSA体系,摩尔线程发布了新一代全功能GPU架构“花港”。该架构在计算密度、能效、精度支持与互联能力上实现全面突破:算力密度提升50%,支持从FP4到FP64的全精度计算;通过自研MTLink高速互联技术,可扩展至十万卡级智算集群;内置AI生成式渲染架构与硬件光追引擎,图形渲染性能较前代提升数倍。截至2025年6月,摩尔线程累计授权专利达514项,其中发明专利468项,为架构自主可控提供了坚实保障。
基于“花港”架构,摩尔线程规划了两款芯片:面向AI训推一体的“华山”系列与专注图形渲染的“庐山”系列。前者集成全精度张量计算单元,为万卡集群提供稳定算力;后者在几何处理、光线追踪等关键指标上实现64倍性能提升,可支持3A游戏与高端创作场景。这两款芯片的推出,标志着国产GPU在技术自研与场景覆盖上迈入新阶段。
大会现场,摩尔线程正式发布夸娥万卡智算集群,成为国产GPU在集群系统层面的首个标杆案例。该集群浮点运算能力达10Exa-Flops,在Dense大模型训练中算力利用率(MFU)达60%,MOE大模型达40%,训练线性扩展效率95%,且兼容国际主流生态。在推理侧,与硅基流动联合优化的MTT S5000单卡在DeepSeek R1 671B模型上实现Prefill吞吐4000 tokens/s、Decode吞吐1000 tokens/s,刷新国产推理性能纪录。
摩尔线程还预告了MTT C256超节点架构规划。该产品采用计算与交换一体化设计,旨在提升万卡集群的训练效能与推理密度,为下一代智算中心提供硬件基石。从单卡到集群,从性能追赶到系统优化,摩尔线程的路径选择,折射出国产GPU从“可用”向“好用”的关键转型。
这场发布会背后,是国产算力对长期主义的坚定选择。面对供应链不确定性、技术封锁与生态薄弱等挑战,摩尔线程选择以全功能GPU为支点,通过架构创新、生态开放与系统级优化,构建自主可控的算力基础设施。这条道路或许漫长,但至少从MDC 2025开始,国产GPU的演进逻辑已清晰可循——不再局限于参数竞争,而是以技术深度与生态广度,重新定义算力价值的边界。











