可支持百万卡扩展！中科曙光发布国内首个开放架构AI超集群系统

2025年09月07日

9月5日，在2025重庆世界智能产业博览会上，中科曙光发布了国内首个基于AI计算开放架构设计的产品——曙光AI超集群系统。该系统以GPU为核心，实现了“算、存、网、电、冷、管、软”一体化紧耦合设计，具备“超高性能、超高效率、超高可靠、全面开放”四大特点，可为万亿参数大模型训练推理、行业大模型微调、多模态大模型开发、AI4S等场景提供高效算力底座。

相比封闭系统，曙光AI超集群系统除了通过紧耦合设计像一台计算机般高效工作外，还支持多品牌AI加速卡以及兼容CUDA等主流软件生态，为用户提供更多开放性选择，并大幅降低硬件成本和软件开发适配成本，保护前期投资。

当前，伴随AI大模型快速演进以及全球IT产业生态体系调整，国内AI算力领域面临高端算力供给不足、国产加速卡性能差距大、算力成本高、自主软硬件生态不成熟等严峻挑战。

而发展更大规模、更高效智算集群来弥补国产单卡算力差距以突破算力瓶颈，打造开放式、标准化、高效率的算力集群，以实现智算集群的易用与可控成本，已经成为产业界共识。

“中科曙光拥有30年高性能计算技术积累，可携手产业伙伴一起突破当下算力瓶颈，共建开放、普惠的智算产业生态。”中科曙光总裁助理、智能计算产品事业部总经理杜夏威表示，克服国内AI算力多维挑战，需汇聚芯片、计算系统、大模型等产业链多方力量，构建开放AI计算架构并拉通产业间跨层协作，以打破“技术墙”与“生态墙”。

而作为开放式、标准化、高效率算力集群的样板，曙光AI超集群系统具有如下技术特点：

超高性能：单机柜可搭载96张GPU卡、算力规模达百P级、访存总带宽超180TB/s；支持多精度、混合精度运算；支持百万卡超大集群扩展。

超高效率：千卡集群大模型训练推理性能达到业界主流水平2.3倍、开发效率提升4倍、人天投入减少70%；存算传协同，提升GPU计算效率55%；先进冷板液冷，394项节能设计PUE低于1.12。

超高可靠：121项设备和链路RAS可靠性设计；平均无故障时间（MTBF）提高2.1倍；平均故障修复时间（MTTR）降低47%；超30天长稳运行集群可靠性测试；实现百万级部件故障自动分析与秒级隔离。

全面开放：基于AI计算开放架构设计；硬件适配多品牌AI加速卡；软件兼容主流AI计算生态；多项技术能力开放与共享。

杜夏威介绍，曙光AI超集群系统不仅是产品，更是面向产业界的开放创新平台。依托AI超集群系统，中科曙光将开放AI存储优化能力、液冷基础设施设计规范、DeepAI基础软件栈等三项技术能力，助力合作伙伴、重点用户在AI应用存储性能加速、液冷超节点系统设计、GPU开发统一开发框架等方面获得高级别技术共享、深度定制优化与专业技术支持。

可支持百万卡扩展！中科曙光发布国内首个开放架构AI超集群系统

付费内容

Trending now