华为首次线下展出昇腾384超节点，算力高达300PFLOPS！

2025年07月27日

7月26日，2025世界人工智能大会（WAIC）在上海世博中心启幕，华为首次线下展出昇腾384超节点，即Atlas 900 A3 SuperPoD，支持单集群300PFLOPS算力输出。

据介绍，该产品基于超节点架构，采用全对等（Peer-to-Peer）UB 总线，将384 颗 NPU + 192 颗鲲鹏 CPU 通过无阻塞 Clos 架构互联，单跳时延 <200 ns，带宽 392 GB/s，比传统 RoCE 提升 15 倍。3168 根光纤 + 6912 个 400 G 光模块实现百纳秒级互联，支持 2 m 以上长距部署，突破了铜缆距离限制。

这些大带宽低时延互联技术，解决了昇腾384超节点集群内计算、存储等各资源之间的通信瓶颈，通过系统工程的优化，实现资源的高效调度，让超节点像一台计算机一样工作。

具体性能上，昇腾384超节点单集群 BF16 稠密算力 300 PFLOPs，约为英伟达 GB200 NVL72 的 1.7 倍。
能效比（MFU）从行业平均 30% 提升到 45% 以上，已用于训练 7180 亿参数的盘古 Ultra MoE 大模型。

值得一提的是，在今年5月的鲲鹏昇腾开发者大会上，华为推出了昇腾超节点（CloudMatrix 384），成功实现业界最大规模的384卡高速总线互联。昇腾超节点具备超大带宽、超低时延、超强性能的三大优势，包括多款训练和推理产品，基于超节点创新架构，更好的满足模型训练和推理对低时延，大带宽，长稳可靠的要求。

本月初，华为云官微通过一段视频展示了CloudMatrix 384超节点算力集群，并表示该超节点算力集群可实现业界最大单卡推理吞吐量——2300Tokens/s；业界最大集群算力——16万卡，万卡线性度高达95%；云上确定性运维-40天长稳训练、10分钟快速恢复。

华为云表示，新一代昇腾AI云服务，是最适合大模型应用的算力服务。

简单来说，华为CloudMatrix并非简单的“堆卡”，而是通过高带宽全对等互联（Peer-to-Peer）来设计，这也是CloudMatrix 384硬件架构的一大创新。

传统的AI集群中，CPU相当于公司领导的角色，NPU等其它硬件更像是下属，数据传输的过程中就需要CPU审批和签字，效率就会大打折扣。

但在CloudMatrix384中，CPU和NPU等硬件更像是一个扁平化管理的团队，它们之间的地位比较平等，直接通过UB网络通信直接对话，效率自然就上来了。

今年4月份，国际知名半导体研究和咨询机构SemiAnalysis发布专题报道称，华为云最新推出的AI算力集群解决方案CloudMatrix 384（简称CM384）凭借其颠覆性的系统架构设计与全栈技术创新，在多项关键指标上实现对英伟达旗舰产品GB200 NVL72的超越，标志着中国在人工智能基础设施领域实现里程碑式突破。

据SemiAnalysis披露，华为云CM384基于384颗昇腾芯片构建，通过全互连拓扑架构实现芯片间高效协同，可提供高达300 PFLOPs的密集BF16算力，接近达到英伟达GB200 NVL72系统的两倍。此外，CM384在内存容量和带宽方面同样占据优势，总内存容量超出英伟达方案3.6倍，内存带宽也达到2.1倍，为大规模AI训练和推理提供了更高效的硬件支持。

（图片引自SemiAnalysis报道）