阿里玄铁C930深度解析:主频突破3.4GHz,SPECint2006得分15.2/GHz

作为国产RISC-V处理器IP领军企业,阿里巴巴达摩院近年来已经发布了3大系列RISC-V处理器IP和XT-Link系列互联IP,覆盖高性能、高能效、低功耗等不同场景。其中,作为目前达摩院最强的服务器RISC-V处理器IP——玄铁C930,在2024年就已经推出,2025年3月已正式开启交付。

2025年7月18日,在2025年RISC-V中国峰会的“高性能计算分论坛”上,国产RISC-V处理器IP领军企业阿里巴巴达摩院高级技术专家贾昊䶮详细介绍了玄铁高性能CPU IP C930的技术细节和最新迭代进展,主频已经突破3.4GHz,性能得分也达到15.2/GHz。

△阿里巴巴达摩院高级技术专家贾昊䶮

从玄铁C930的结构图来看(如下图左侧),自上而下分别是指令取指子系统,译码与乱序发射子系统,执行子系统,以及多集访存子系统,其中紫色的模块是向量执行单元,包括加解密,还有协处理器拓展部分。从产品特性来看,玄铁C930在支持最新的RVA23 Profile标准,增强了向量计算、浮点运算等高性能计算能力的基础上,还加入了玄铁Matrix扩展、玄铁协处理器扩展,并支持RISC-V Vector Cypto、RISC-V Hypervisor、AIAv1.0等众多RISC-V官方在高性能方面的规范。

据贾昊䶮介绍,此前玄铁团队认为迈过3G主频大关的时候,才算是迈入了高性能处理器的大门,而玄铁C930在目前典型的工作场景下,工作频率已经可以达到3.4GHz以上。性能方面,SPEC int 2006的得分超过了15.2/GHz。随着软硬件进一步的协同优化和客户的协同优化,未来性能数据有望取得更好的表现。

从玄铁C930的微架构当中的流水线来看,下图当中,最上面的紫色模块的是分支预测和取指子系统,黄色的模块是指令调度单元,绿色的模块是整形计算和分支执行单元,粉色的模块是向量执行单元,桃红色和灰色的模块是访存子系统。

具体来说,C930拥有6-Wide、16级深度乱序流水线,分支预测和取指部分采用的是解耦架构,用以实现独立的分支预测。同时,C930还拥有6条整型和分支流水线;2条矢量和浮点流水线,最大支持512位矢量计算;3条访存流水线,最大支持3-Load/2-Store;支持指令融合。

在缓存方面,C930拥有64KB L1 Cache;支持I-Cache Coherence;拥有最大1MB Private L2 Cache,访问带宽64B/cycle;Cache支持Parity/ECC。

贾昊䶮指出,由于C930的分支预测采用了解耦的架构,超前的分支预测准确率,尤其是BDB的命中率、准确率就会尤为重要。在这一方面,达摩院在C930实现了多种高性能的机制,相比前代实现了开销的大幅下降。

在指令调度的部分,C930为了实现乱序超标量超高的IPC目标,高吞吐的流水线、高性能的乱序技术,是必不可少的。在吞吐的带宽方面,C930是6-wide流水线带宽,11-wide发射带宽,以及8-wide的速度。在高性能乱序技术方面,C930也研发了多种高性能技术,比如支持快速重建的checkpoints设计、zero-delay move加速、Stavation/Livelock 消除机制,特别是可压缩ROB技术,这些都对乱序空间及乱序能力都有很大的提升,有助于实现极致的IPC。

在C930的访存部分,执行流水线可以支持快速的非对其访问,高性能的数据预取,还有非常大的空间;L1 Cache方面,C930采用的是64kb的规格,并且支持四路组相联、支持ECC;地址管理方面,C930支持多级TLB,支持硬件回填,以及RISC-V社区定义的全部虚拟地址管理的模式,并支持两层虚拟地址架构;L2 Cache方面,C930最大可以支持到1MB,支持DRRIP的替换策略。同时,也为服务器生态提供ECC的支持。这些都使得C930在数据吞吐方面的速度得到了显著的提升。

在目前大家关注的人工智能计算方面,玄铁C930在支持RVA23 Profile标准,增强了向量计算、浮点运算等高性能计算能力的基础上,还加入了玄铁Matrix扩展、玄铁协处理器扩展,这也使得C930的int8算力可以达到8TOPS,并支持灵活的算力配比,支持多种选择。并且解耦的实现方式,可以让用户在能效比优先或性能优先之间进行自主选择。

需要指出的是,玄铁团队自研了大位宽的Vector引擎玄铁TITAN,支持 512-4096 位可扩展向量长度配置,可实现指令级并行加速。与此同时,玄铁还全新设计了张量算力引擎TPE(Tensor Processing Engine),是更适合AI的原生架构方式,通过 AME(Attached Matrix Extension )完成扩展后,这样使得C930可以实现在GEMM(通用矩阵乘法)算力利用率提升至96.8%,相比友商达到2-3倍的性能提升,可适配大模型实时训练场景。

作为RISC-V处理器IP提供商,玄铁团队一直致力于以最高质量,提供完整且灵活的玄铁处理器系统解决方案。为此,玄铁团队在处理器核心、互连、中断、PMU等方面也在不断迭代创新,下图中所示的全部紫色部分的IP,皆由玄铁提供。

除了支持RISC-V社区定义的这些拓展和规范之外,玄铁还在PMU基础上实现了性能分析工具,这在C930本身的性能优化过程当中起到非常关键的作用。C930还支持DIVI虚拟中断直通技术,适配PCIe5.0、IOMMU(输入输出内存管理单元)设计,都可以非常有效助力搭建系统级解决方案。

贾昊䶮告诉芯智讯:“玄铁已有的成熟的解决方案可以满足客户的需求,玄铁团队也在积极研发,未来可以期待我们的玄铁真正实现全系统的玄铁IP覆盖。”

作为一款服务器级的RISC-V处理器IP,要想打造服务器CPU,仅有高性能的RISC-V CPU是不够的,还需要高速互联IP,以实现高性能的多核集群。对此,玄铁也拥有自研的XT-Link系列互联IP,其中与C930搭配的是最强的XL-300。

据介绍,XL-300基于弹性可配置架构,单个Cluster最多可支持8处理器的核心,也支持大小核的搭配配置,L3 Cache最大可支持到23MB,还有丰富的对对外接口。XL-300还对特定的场景进行性能优化,支持容量分配、带宽分配,同ID上的DPC独显也会进行另行的加速设计。

贾昊䶮表示,XL-300在玄铁团队不断地优化下,相比上一代的XL-200,频率提升20%、带宽翻倍,面积仅增加了5%,使得硬件成本大幅降低。

在系统级方案搭建方面,也离不开IOMMU(输入输出内存管理单元),玄铁C930对此采用的是分布式高并发的IO TLB设计,支持AXI、LTI灵活集成;独立的CU设计,适配多种接口,包括PCIe、CXL;集成了IO MPT,支持机密虚拟化;面向加速器场景,还支持共享队列虚拟化(GIPC);支持设备QS的管控;支持RISC-V社区的IOMMU规范。

“总之玄铁分布式的IO MMU是一款面向服务器领域的功能完备高性能的IO MMU,实现了全栈软件生态的支持。”贾昊总结道。

一个稳定系统的搭建,离不开在架构上的可靠性和安全性的设计,玄铁C930在这些方面也有很好的支持,比如支持RAS特性,支持RISC-V Smmtt v0.3、RISC-V CoVE v0.7、瞬态执行攻击安全性增强。

玄铁C930还支持DSA机制,用户可以进行自定义指令集扩展,通过玄铁预定义的一些自定义指令集拓展,以及译码接口,可以帮助客户快速高效的参照使用运力,实现对自己特定应用场景的加速。同时,C930还拥有玄铁协处理器扩展接口,可以实现灵活应用的协处理的拓展支持。

贾昊䶮强调,通过玄铁自定义的协处理接口标准,可以实现C930和协处理器之间的高速数据信息传递,这样也可以高效定制指令和工具链。客户只需要根据指令规范,依据实际的需求进行定义、编写、拓展、描述文件,依据流程自动就生成工具链,可以完成对玄铁处理器的适配,这样可以大大节省开发的周期和成本。

编辑:芯智讯-浪客剑

0

付费内容

查看我的付费内容