AMD MI350系列解析:推理性能提升35倍,超越英伟达B200!MI400算力还将翻倍!

当地时间2025年6月12日,AMD在美国加州圣何塞召开“Advancing AI 2025”大会,正式发布了Instinct MI350系列GPU加速器及全面的端到端集成人工智能(AI)平台愿景,并推出了基于行业标准的开放、可扩展的机架级人工智能基础设施。此外,AMD还披露了下一代AI加速器MI400、代号为Venice的服务器CPU的部分信息。

一、MI350系列:AI计算性能提升4倍,推理能力提升35倍

作为MI325系列的迭代产品,全新发布的MI350系列GPU,拥有MI350X和MI355X两个版本。这两个版本均基于最新的CDNA4架构,加入了对于FP4/FP6数据格式的支持,并且采用了台积电第二代3nm(N3P)制程工艺,晶体管数量达到了1850亿颗,同时还集成了288GB HBM3e 12Hi,带宽提升到了8 TB/s(MI325X 为6TB/s )。根据AMD的介绍称,MI350系列的AI计算性能相比MI300系列提升了4倍,推理能力提升了35倍。

1、N3P制程,全新CNDA4架构

具体来说,最新的CDNA4架构采用了针对生成式AI和大语言模型的增强型矩阵计算引擎;在支持 FP8 和 FP16之外,还支持 FP4 和 FP6 这类适合推理的低精度格式,并且还支持混合精度算法。CDNA4还增强了Infinity Fabric和先进封装连接,并针对能效进行了提升。

作为最早采用Chiplet和先进封装技术的处理器厂商,AMD MI350系列也延续了这方面的设计,其基于N3P制程的加速器复合裸片(XCD)堆叠在N6制程的I/O基础裸片(IOD)上,这种3D混合架构也有助于整体计算密度和每瓦性能的提升。而IOD-IOD和HBM3E集成则采用了台积电目前成熟度最高的CoWoS-S封装技术整合在一起。

MI350系列拥有两个N6制程的IOD,每个IOD上整合了4个XCD和L2缓存,而每个XCD则拥有4个基于台积电第二代3nm(N3P)制程的着色器引擎和4MB的L2缓存。两个IOD之间则是通过AMD Infinity Fabric AP互连技术整合在一起,通信速率高达5.5 TB/s。

具体到单个XCD内部的4个着色器引擎,每个着色器引擎当中拥有8个CU(Compute Units,还有一个是冗余的),单个CU当中拥有4个Matrix Cores。

因此,MI350系列共计拥有256个CU、1024个Matrix Cores、32MB L2缓存,同时还通过 7x16 Infinity Fabric互联链路整合了256MB Infinity Cache 和8个36GB 12Hi HBM3E。在外部接口方面,MI350系列还支持128 GB/s的PCIe 5.0互联。

△AMD M350系列GPU现场实拍

2、低精度性能暴涨90%,优于英伟达B200

在具体的AI性能表现方面,根据AMD公布的数据显示,MI350系列当中最强的MI355X虽然在Vector FP64/32/64、Matrix FP32/64等数据类型计算当中,理论峰值性能和 FLOPS/clock/CU 性能都与MI300X相当或略低(Matrix FP64计算性能仅为一半),但是在Matrix FP16/BF16、FP16/BF16 Sparsity(稀疏性)、Matrix FP8、FP8 Sparsity、Matrix INT8/INT4、INT8/INT4 Sparsity等数据类型的计算当中,MI355X的理论峰值性能都实现了高达90%的提升。

此外,MI300X并不支持FP6/FP4,而MI355X的在Matrix FP6/FP4、FP6/FP4 Sparsity的计算当中,性能则分别达到了10 PFLOPs和20 PFLOPs。另一款MI350X 的Matrix FP4/FP6 性能最高也达到了18.45 PFLOPS。

作为对比,英伟达的 B300 (Blackwell Ultra) 的Matrix FP4性能为最高为15 PFLOPS。

与上一代产品相比,MI350X 的Matrix FP8 计算吞吐量约为Matrix 9.3 PFLOPS,而速度更快的 MI355X 则为 10.1 PFLOPS,远高于MI325X的Matrix FP8的2.61 PFLPOS和FP8 Sparsity的5.22 PFLOPS性能。同时,MI355X 的Matrix FP8 性能也比英伟达B300 高出 0.1 PFLOPS。

从具体的大模型中的性能表现来看,AMD表示,MI350X在Llama 3.1 405B模型上的FP4性能达到了MI300 FP8性能的35倍。

在其他一些热门的AI大模型上,MI355X的性能表现也平均达到了MI300X的3倍以上。

MI355X在推理性能上相比英伟达B200也具有领先优势。比如MI355X的DeepSeek R1的FP4性能相比英伟达B200提升了20%;MI355X在Llama 3.1 405B模型的FP4性能也相比英伟达B200提升了30%,达到了与英伟达GB200相当的水平。

如果以经济效益来看,AMD表示,MI355X相比英伟达B200在同样成本下可以获得多出40%的Token收益。

AMD表示,MI350系列超过了AMD的五年目标,将人工智能训练和高性能计算节点的能效提高了30倍,最终提高了38倍。

3、AI工作负载能效提升30%

作为一款AI加速器,MI350系列为了提高AI工作负载的性能目标进行了非常的多的升级和优化。

比如,MI350系列可以支持在功耗不倍增的情况下实现双倍的计算吞吐量,主要是通过增强内存带宽和本地数据共享来实现提高计算吞吐量;在数据量化方面,MI350系列还提供对FP8(缩放和非缩放)的全面访问、以及FP6和FP4这类适合推理的低精度格式的支持,可以降低非核心功耗以提高计算性能。

另外,对于GenAl/LLM等AI工作负载来说,HBM的容量和带宽至关重要。对此MI350系列整合了总共288GB容量的HBM3E,读取带宽高达8TB/s,相比上代的MI300系列单个CU的HBM读取带宽提升了50%。同时,得益于N3P制程对于XCD功耗带来的压制、更宽的HBM内存管道所带来的较低的频率实现全带宽、通过设计优化以降低全带宽下的电压等措施,使得MI350系列HBM读取带宽的功耗降低了30%。

4、MI350系列服务器平台及机架设计

由于MI350系列此次专门加入了对于 FP4 和 FP6 低精度格式的支持,这也使得其在AI推理任务当中的性能表现尤为突出,导致其定位也主要面向推理。因此,其横向扩展规模也限制在了最多8个GPU互联。

AMD为MI350系列带来了4种分区选项,包括:单个分区(SPX+NPS1)、两个分区(DPX+NPS2)、四个分区(QPX+NPS2)、8个分区(CPX+NPS2)。

其中,单个分区(SPX+NPS1)方案可以支持高达520B参数的AI模型,8个分区(CPX+NPS2)方案可以支持最多8个Llama 3.1 70B实例的部署。

在基于MI350系列的服务器平台设计方面,AMD带来 MI350X 模块,其功耗为1000W,采用风冷方案;性能更高的MI355X模块,功耗高达1400W,主要采用液体冷却方案。

戴尔、Supermicro、华硕、Gigabyte等众多服务器厂商在现场也展示了基于AMD MI350系列GPU的服务器。

△戴尔展示的8*MI350 AI服务器液冷方案

在基于MI350系列的AI服务器的机架设计方面,AMD推出了MI355 DLC解决方案和MI350X AC解决方案。

其中,MI355 DLC解决方案,整合了128颗MI355X GPU,36TB HBM3E,FP16/BF16性能达644PFLOPS,FP8性能达1.28EFLOPS,FP6/FP4性能达2.57EFLOPS。

MI350X AC解决方案整合了64颗MI355X GPU,18TB HBM3E,FP16/BF16性能达295PFLOPS,FP8性能达590PFLOPS,FP6/FP4性能达1.18EFLOPS。

值得一提的是,在此次会议上,AMD还公布了一项新的2030年目标,即在2024年的基础上将机架级能效提高20倍,到2030年,典型的人工智能模型需要在不到一个充分利用的机架上训练超过275个机架,从而减少95%的电力消耗。

5、三季度上市

AMD表示,MI350系列即将于今年三季度上市,并且将获得甲骨文(Oracle)、戴尔、Supermicro、HPE、思科等数十家厂商的采用。

之前的传闻就显示,甲骨文公司向AMD下了数十亿美元的 MI355系列GPU 订单,“第一批3万颗MI355X GPU,将用于构建一个针对训练和推理工作负载的集群”。

二、MI400、Venice CPU曝光

在MI350系列发布的同时,AMD还首次披露了即将于2026年推出下一代的MI400系列加速器、基于“Zen 6”的AMD EPYC “Venice” CPU和 Pensando“Vulcano”NIC的部分细节。

其中,MI400系列GPU加速器将基于2nm制程,集成432GB的HBM4内存,内存带宽将达19.6TB/s,单个GPU的横向扩展带宽也将高达300GB/s,而MI400 GPU的算力将高达FP4数据格式下40PFLOPS、FP8格式下20PFLOPS。

AMD董事会主席兼首席执行官苏姿丰表示,“MI400系列真正汇集了我们在硅、软件和系统方面学到的一切,以交付一个完全集成AI的平台,这是从头开始构建的。这也使得MI400的AI计算能力相比MI355X系列高出2倍,HBM4带宽增加近2.5 倍,推理性能增加10倍。”

基于“Zen 6”的AMD EPYC“Venice”CPU将基于2nm制程,拥有多达256个内核,CPU到GPU的互联带宽将达到上一代的两倍,CPU性能将提升70%,内存带宽也将高达1.6TB/s。

AMD Pensando“Vulcano”NIC则将基于3nm制程,网络吞吐量将达到800G,单个GPU的横向扩展带宽将达到上代的8倍,并且也支持UA-Link和PCIe。

AMD还预览了其名为“Helios”的下一代AI机架。它将基于下一代AMD Instinct MI400系列GPU、“Zen 6”的AMD EPYC“Venice”CPU和AMD Pensando“Vulcano”NIC。

根据AMD披露的数据显示,“Helios” AI机架(整合了72个MI400 GPU)在GPU整体性能上将达到与英伟达将于2026年推出的Vera Rubin相当的水平,但是在HBM4容量和带宽等方面将达到英伟达Vera Rubin的1.5倍。(Vera Rubin NVL144集成了72颗Vera CPU+144颗 Rubin GPU,采用288GB显存的HBM4芯片,显存带宽13TB/s,搭配第六代NVLink和CX9网卡。FP4精度的推理算力达到了3.6ExaFLOPS,FP8精度的训练算力也达到了1.2ExaFlOPS。)

AMD还将会在2027年推出全新一代的AI机架,届时将会搭载代号为“VERANO”的EPYC CPU和MI500系列GPU加速器。

苏姿丰表示,客户对 MI400 系列GPU和 Helios 的热情非常高。我们已经深入开发2027年的下一代AI机架,它将通过我们的下一代 Verano CPU和MI500 GPU在性能、效率和可扩展性方面进一步突破极限。

三、全新ROCm 7带来强大的AI生态支持

众所周知,英伟达目前在AI市场强大的市场地位,除了得益于其强大的GPU性能之外,CUDA软件生态优势则其更为强大的护城河。对此,其他的竞争对手要想与之竞争,也不得不考虑对于CUDA进行兼容。

AMD最新推出的开源人工智能软件栈ROCm 7 旨在满足生成式人工智能和高性能计算工作负载日益增长的需求,同时全面显著改善开发人员体验。ROCm 7 改进了对行业标准框架的支持,扩展了硬件兼容性,并提供了新的开发工具、驱动程序、API和库,以加速人工智能的开发和部署。

其中一项关键举措就是集成了最新的HIP 7.0 接口,使得AMD的自动 HIPIFY 转换工具与 HIP 运行时和编译器紧密集成,用户可以使用 HIPIFY 快速将 CUDA 代码移植到 HIP C++ 中,以支持 AMD GPU。

此外,AMD通过ROCm软件继续深化Instinct GPU对前沿AI模型的支持,为最新AI模型Meta Llama 4和谷歌Gemma 3、DeepSeek-R1提供全面的支持。

根据AMD披露的数据显示,得益于ROCm 7的加持,相比于上一代的ROCm 6,Llama 3.1 70B的推理性能提升到了原来的3.2倍,Qwen 2-72B的推理性能提升到了原来的3.4倍,DeepSeek R1的推理性能提升了到了原来的3.8倍。

同样,在训练性能方面,得益于ROCm 7的加持,相比于上一代的ROCm 6,Llama 2 70B、Llama 3.1 8B、Qwen 1.5 7B的性能也平均提升了3倍。

即便是对比基于CUDA的英伟达B200 GPU,在开源的ROCm 7的加持下,AMD MI355X的FP8吞吐量也取得了30%的优势。

为了进一步丰富基于AMD AI解决方案的软件生态系统,AMD还宣布向全球开发者和开源社区广泛提供AMD开发者云。专为快速、高性能的人工智能开发而构建,用户将可以访问一个完全托管的云环境,该环境具有工具和灵活性,可以开始人工智能项目,并无限增长。

凭借ROCm 7和AMD开发者云,AMD正在降低障碍,扩大对下一代计算的访问。与Hugging Face、OpenAI和Grok等领导者的战略合作正在证明共同开发的开放解决方案的力量。

四、Pollara NIC+Instinct GPU+EPYC CPU,打造AI系统级解决方案

随着生成式人工智能和大型语言模型的出现,对于AI集群中的传统以太网络带来了前所未有的挑战。这些先进的AI/ML模型需要强大的通信能力,包括紧密耦合的并行处理、快速的数据传输和低延迟通信——而这些要求是专为通用计算而设计的传统以太网一直以来难以满足的。尽管面临这些挑战,以太网凭借其广泛的应用和丰富的运营经验,仍然是人工智能集群网络技术的首选。然而,传统以太网在支持专用人工智能工作负载方面的局限性也日益凸显。

对此,AMD在2024年10月推出了业界首款UEC 1.0规范的网卡——Pensando Pollara 400 AI NIC,它提供完全可编程的 400 千兆每秒 (Gbps) RDMA 以太网网络接口卡 (NIC),旨在优化HPC和AI数据中心网络,具有可编程硬件管道、可编程RDMA传输、可编程拥塞控制和通信库加速功能,最大限度地利用AI集群并减少延迟,保持CPU与GPU之间不间断的通信。

官方表示,Pensando Pollara 400 AI NIC在性能上超越了此前的 RoCEv2,其有望为AI工作负载带来6倍的性能提升,同时有望增强人工智能基础设施的可扩展性和可靠性,使其更适合大规模部署。

今年4月,AMD Pensando Pollara 400 AI NIC已经正式上市,并向客户发货。AMD表示,相信通过为客户提供易于扩展的解决方案来保留客户的选择权,在开放式生态系统中,以不牺牲性能的前提下降低总拥有成本。

在AMD看来,其Pollara NIC+Instinct GPU+EPYC CPU产品组合,构建了AMD完整的面向数据中心的先进的AI硬件解决方案,再加上配套的ROCm等相关软件以及UA-LINK(通过纵向扩展互连技术实现对1024个加速器的超大规模集群支持,直接对标英伟达NVLink技术体系),则构成了完整的AI系统级解决方案。

小结:

在2024财年,AMD营收达到了创纪录的258亿美元。特别是数据中心业务收入创新高至126亿美元,同比暴涨94%,在总营收当中的占比几乎达到了一半。其中,AMD Instinct加速器实现了超过50亿美元的收入。得益于AMD EPYC CPU和Instinct GPU强劲的销售增长,今年一季度,AMD数据中心业务营收达37亿美元,同比增长57%。

对于此次发布的MI350系列,此前摩根大通分析师Harlan Sur在与AMD首席执行官苏姿丰举行了投资者会议之后就曾发布预测报告称,AMD“下一代 MI350 加速器平台将为其2025年下半年带来强劲增长”,预计AMD 的 AI GPU 业务2025年将达到60%以上的同比增长。

值得注意的,在今天的AMD先进AI发布会上,苏姿丰还邀请到了Open AI 创始人兼CEO Sam Altman到场助阵,这似乎也预示着OpenAI接下来可能将会考虑采用AMD下一代的AI加速芯片。

此外,AMD的增长并不仅仅依赖于来自云端AI对其EPYC CPU和Instinct GPU需求的增长,凭借自身的AI技术能力,AMD在PC市场也是高歌猛进,市场份额也是持续提升。

根据AMD最新公布的数据显示,截至目前AMD Ryzen AI 300系列已有23家客户采用,Ryzen AI Max已有70家客户采用Threadripper+Radeon AI。

除了在自身产品端的持续发力之外,AMD也在持续通过并购来加速自身AI实力的壮大。

近期,AMD已经完成对ZT Systems的收购,将领先的系统级及机架级专业技术与AMD GPU、CPU、网络芯片和开源软件结合起来。

今年5月底,AMD宣布收购了硅光子领域新创公司Enosemi,进一步扩大在共同封装光学(CPO)领域的实力,强化AMD全方位AI 解决方案供应商的地位。这也使得AMD在下一代人工智能系统中支持和开发各种光子学和联合封装光学解决方案。

今年6月5日,AMD又宣布从 Untether AI 收购一支由人工智能硬件和软件工程师组成的才华横溢的团队,并表示这有助于AMD提升公司的 AI 编译器和内核开发能力,并增强其数字和 SoC 设计、设计验证和产品集成能力。

显然,这一系列的收购也将有助于AMD更好的与英伟达进行竞争,以把握2028年数据中心AI加速器市场5000亿美元的市场机遇。

编辑:芯智讯-浪客剑

0

付费内容

查看我的付费内容