9月12日消息,近日苹果公司发布的A19系列处理器当中,作为最强的处理器A19 Pro,自然是备受外界关注。而最新的测试数据显示,A19 Pro在CPU性能上虽然相比前代仅提升了约11%-12%,但是如果仅看CPU单线程性能,则超越了苹果的桌面处理器M4以及AMD的锐龙 9 9950X。GPU 性能相比上一代则提升了 37%,达到了与苹果M3当中的GPU以及AMD 的Radeon 890M 集成 GPU相当的性能。
CPU性能提升11%-12%
A19 Pro拥有6个CPU核心,其中包括:两个高性能内核,运行频率高达 4.26 GHz(相比上代提升6.5%),并具有改进的分支预测(在分支繁重的工作负载下性能更高、能效更高)和增加的前端带宽(这意味着每周期指令数更高,但并不表明内核每周期可以解码多少条指令);四个节能效核,与前代产品相比,其最后一级缓存增加了 50%。
最新的测试显示,全新的A19 Pro处理器在 Geekbench 6 基准测试中,CPU单线程性能得分3895,比上一代产品高出 11%,比高通的骁龙 8 Elite 高出 36%,并且超越了苹果自家的 M4(高出 5.3%)和 AMD 强大的锐龙 9 9950X(高出 11.8%)。不过,由于只有6个CPU核心,因此在多线程性能得分为 9746 分,仅比 A18 Pro 高出 12%。所以,这款智能手机 SoC 在多线程工作负载方面仍然无法击败台式机和笔记本电脑的 CPU。
虽然单线程和多线程CPU性能 11% - 12% 的代际性能提升看起来相当稳健,但与 A18 Pro 相比 A17 Pro的(约 18%)提升相比,这一数字相对较低。
需要指出的是,A19 Pro 处理器采用的是台积电第三大3nm(N3P) 工艺制造,N3P 是 N3E 的光学缩小版,与 N3E 相比,它可在相同功率下将晶体管密度提高 4%,性能提高 5%,或在相同频率下将功耗降低 5% - 10%。
考虑到制程工艺的提升,这也使得A19 Pro的大核CPU主频得益提升了6.5%,叠加一些微架构改进,因此其性能的提升幅度达到了约11%-12%。然而,考虑到苹果在 iPhone 19 Pro 上采用了均热板散热系统和铝合金一体成型机身,该公司并未大幅提升 CPU 主频以获得更高的峰值性能,这着实令人意外。或许苹果决定专注于分支密集型工作负载,以及/或者更高的 IPC 性能比单一频率更能带来好处。目前看来,这些增强功能在 Geekbench 6 中并未显著提升性能。
GPU性能提升37%
A19 Pro拥有5核GPU和6核GPU两个版本,该GPU配备了第二代动态缓存,提升了浮点数学计算速率,带来了统一的图像压缩。其中,5核版本的每个GPU当中还集成了神经加速器,峰值运算能力是A18 Pro的3倍。苹果声称这允许在 iPhone 中实现 MacBook Pro 级别的性能。
根据Geekbench 6测试的6核GPU版本的A19 Pro数据显示,其GPU得分为45657分,相比上代快了37%。与iPad Air中M2或M3的GPU性能以及AMD的Radeon 890M集成GPU性能相当。
此外,最新的分析称,A19 Pro的GPU还拥有矩阵乘法加速单元(Matrix Multiplication Acceleration Units),这有助于提升AI性能。
长期以来,苹果自研的GPU与英伟达一类的显示卡最大的差异之一,就是缺乏像NVIDIA Tensor Core这类专为张量运算设计的硬件加速核心。 这也是英伟达在深度学习和大型语言模型(LLM)运算上能遥遥领先的关键。 最新的Tensor Core不仅运算速度惊人,更原生支持多种浮点精度(如FP64、TF32、BF16、FP16等),能与各式大模型训练及推理引擎完美配合。
虽然苹果这次的GPU升级包含了矩阵乘法加速单元,但这并不等同于英伟达的Tensor Core。 Tensor Core 是一个更为复杂且全面的运算核心,它不仅能执行矩阵乘法,更针对多种低精度浮点运算(如 FP8、FP6)进行了深度优化,这些都是现代大模型训练与推论的关键。 也就是说,苹果的GPU虽然补上了矩阵运算这块短板,但其原生支持的精度和运算效率,仍有待后续的技术发展来追赶。
在深度学习的世界里,无论是训练还是推论,最核心且最频繁的运算就是矩阵乘法(Matrix Multiplication)。 你可以把一个神经网络想象成一系列复杂的数学运算,其中每个神经元之间的连接权重,都可以用一个巨大的矩阵来表示。 当输入数据(例如一张图片、一段文字)进入这个网络时,它会与这些权重矩阵进行连串的乘法运算,以产生最终的输出。
这就是为什么矩阵乘法的运算速度,直接决定了 AI 模型训练与推论的快慢。 一个好的 AI 芯片,其性能高低很大程度上取决于它处理这些巨型矩阵乘法的能力。
虽然,苹果曾大力推广其自家的“神经网络引擎(ANE)”,苹果也试图通过专用硬件来处理 AI 任务,然而开发者实际对于其NPU的应用却不如预期。
首先,ANE的使用体验极不友善,开发者必须将模型转换成特定格式才能运行,过程繁琐。 其次,也是最重要的,ANE 的效能远远落后时代。 由于苹果最初并未预料到以 Transformer 架构为基础的大型语言模型(LLM)会迅速崛起,这类模型对内存带宽的需求极高,而 ANE 的带宽效能却表现平平。 根据实测,ANE的最大带宽仅约120GB/s,甚至不及2016年推出的NVIDIA GTX 1060显卡。 这导致在现实应用中,开发者很少会选择使用 ANE 来运行大型模型。
因此,在M4 芯片上,苹果已经开始试水,直接提供最高512GB 统一内存的配置,这显示苹果早已意识到大模型对内存容量的庞大需求。如果未来的M5 Max 能搭载带宽更高的LPDDR6,其內存带宽有望达到900GB/s,将足以与主流消费级显卡一较高下。
编辑:芯智讯-浪客剑