国产算力破局：从万卡到十万卡，跨越技术鸿沟的“三重门”挑战-数据洞察-数据世界

中科曙光近日在郑州宣布，其自主研发的scaleFabric高速网络产品已成功应用于国家超算互联网核心节点的万卡级国产智算集群。这一突破标志着国产算力基础设施在关键技术领域实现重要进展，为应对国际竞争提供了新的技术支撑。与海外巨头英伟达宣称的十万卡集群规模相比，国产算力虽在数量级上存在差距，但通过全栈自主创新，正逐步缩小技术代差。

中国科学院计算技术研究所专家指出，曙光实现的万卡集群是当前国内唯一完成CPU、GPU、交换机芯片及网卡芯片全栈国产化的案例。此前，英伟达通过收购迈络思掌握InfiniBand（IB）网络核心技术，长期垄断高端算力集群的互联市场。国产算力产业因这一技术瓶颈，在向超大规模集群发展的过程中面临诸多限制。曙光scaleX集群的落地，不仅打破了IB网络的技术垄断，更为国产算力生态的完善奠定了基础。

从技术层面看，万卡到十万卡的跨越并非简单的规模扩张。中科曙光高级副总裁李斌表示，当集群规模呈数量级增长时，计算效率的可扩展性与系统可靠性成为核心挑战。行业数据显示，支撑下一代万亿参数大模型训练需八万至十万卡规模的集群，而单点故障率在超大规模系统中会被指数级放大。确保十万张加速卡协同运行数小时甚至数天完成训练，其技术复杂度呈几何级上升。

奇异摩尔联合创始人祝俊东从互联角度分析，超大规模集群对交换机带宽、存储容量及端侧协议提出更高要求。传统IB或RoCEv2协议基于“无损网络”设计，但在十万卡规模下，网络必然变为“有损”，需解决高效重传、丢包处理及拥塞管理等难题。该公司通过自研Kiwi Fabric协议栈，采用快速检测与重传机制应对挑战。然而，硬件与协议仅是基础，网络、计算、供电、机柜形态及上层控制系统的整体协同同样关键。

北京科技大学储根深教授的实践印证了这一点。其团队利用曙光scaleFabric支持的GPU显存直接互联技术，将通信路径从“GPU-CPU内存-网络-CPU内存-GPU”优化为“GPU显存直通网络”，使万卡规模下部分软件的通信开销从50%降至10%。这表明，硬件性能需通过软件栈深度适配才能转化为实际效率。但目前国内既懂芯片架构又懂AI算法的复合型人才团队仍显不足。

系统级调优是释放硬件潜力的另一关键。科大讯飞AI工程院专家鲍中帅指出，国产单卡性能已对标英伟达A100，但万卡以上集群的性能发挥依赖网络与系统性调优能力。国内具备全栈调优能力的厂商较少，这不仅是硬件比拼，更是系统工程与软件实力的综合较量。曙光提出的scaleX超集群与算存传耦合架构，试图通过系统创新实现“1+1+1>3”的效果，但需全产业链协作。

在技术路线选择上，国产算力面临IB与以太网RoCE的分野。中科曙光scaleFabric选择兼容IB生态，因其“无损网络”特性对RDMA性能至关重要。但部分行业专家认为，全球多数智算中心基于RoCE技术，且互联网企业已形成成熟的以太网架构，单独部署IB会增加网络复杂性。这种分歧源于用户背景：超算领域习惯IB体系，而智算领域以互联网企业为主，更倾向以太网。

这种双轨格局对国产算力发展提出双重挑战。一方面，需支持不同算力芯片适配，形成开放生态；另一方面，需解决增量部署的兼容性问题。例如，用户若保留英伟达IB交换机仅替换国产网卡，可能因私有协议限制导致通信失败。这凸显了掌握自主核心技术的重要性。

国产算力正探索一条差异化发展路径。与海外“暴力堆算力”不同，国内通过提升算力效率、降低成本推动AI普惠，并依托电力优势与互联技术追赶，实现“以系统优势弥补单点差异”。在软件层面，国产厂商通过精细化优化挖掘硬件潜力；在架构层面，存算一体、重构计算等新型架构为突破海外限制提供新可能。