谷歌第四代TPU芯片细节曝光：性能达NVIDIA A100的1.7倍，能效也提高了1.9倍

2023年04月06日

4月6日消息，据外媒报道，当地时间周二，Alphabet旗下谷歌披露其用于训练人工智能（AI）模型使用的超级计算机的最新细节。该公司表示，这些系统基于第四代TPU芯片，速度和能耗效率均高于英伟达A100系统。

报道称，谷歌已经应用其自研的第四代Tensor Processing Unit（TPU v4），并将这些芯片应用于90%以上的人工智能训练工作。在公布的论文中，谷歌详细阐述了该公司如何利用自己定制的光开关将4000多个TPU v4芯片组合到一台超级计算机系统中。

由于谷歌Bard和OpenAI的ChatGPT使用的大语言模型规模急剧扩大，使得需要的算力也越来越大，这也意味着需要越来越多的高性能芯片。PaLM是谷歌迄今为止公开披露的规模最大的语言模型，该模型需要分配到两台各包含4000个TPU v4芯片的超级计算机中，耗时50多天进行训练。而这些模型在训练过程中，必须分配到数千个芯片上运行，由这些芯片共同协作来完成。

如果要将这些数量庞大的芯片整合到一个计算系统当中，并且能够很好的进行协作，就需要改善这些芯片之间连接的效果，这也已经成为科技公司开发人工智能超级计算机时的重要竞争点。

谷歌表示，该公司的超级计算机使之可以在运行过程中轻松对芯片间的连接进行重新配置，有助于避免问题和调整性能。“电路切换可以轻松绕过故障组件。”谷歌院士诺姆·乔皮（Norm Jouppi）和谷歌杰出工程师大卫·帕特森（David Patterson）在博文中写道，“这种灵活性甚至可以让我们改变超级计算机的互联拓扑机构，从而加快机器学习模型的性能。”

虽然谷歌现在才刚刚公布其超级计算机的技术细节，但这套系统2020年就已经应用到该公司位于奥克拉荷马州的数据中心。谷歌表示，创业公司Midjourney使用该系统训练其模型，他们开发的工具只需要简单的文本就可以生成全新的图像。

谷歌表示，对于规模相当的系统，TPU v4可以提供英伟达A100强1.7倍的性能，同时在能效上也能提高1.9倍。另外，谷歌超算速度还要比Graphcore IPU Bow快约4.3倍至4.5倍。

虽然谷歌并没有将第四代TPU与英伟达现有的H100旗舰芯片进行对比，这是因为后者发布时间较晚，而且采用了更新的技术。但是，谷歌暗示，他们可能正在开发能够与英伟达H100抗衡的新一代TPU，但并未披露细节信息。乔皮接受采访时表示，谷歌拥有“未来芯片的健康管线”。

编辑：芯智讯-浪客剑