亚马逊云端AI推理芯片Inferentia商用,Inf1实例可提供最高2000 TOPS算力

当地时间12月3日,亚马逊在“AWS re:invent”大会上正式发布了自主研发的第二代基于Arm架构的服务器芯片Graviton2,同时公布了去年发布的云端AI推理芯片Inferentia的最新进展。

亚马逊AWS在此次大会上推出了Inf1实例,该实例由Inferentia芯片提供支持,是一个在云端为AI推理提供支持的实例,AWS CEO Andy Jassy称之为云中可用的成本最低的推理产品。

Andy Jassy 指出:使用云服务为AI解决方案提供动力的运营成本绝大多数来自推理,而推理芯片可能会很昂贵,并且要求低延迟和高吞吐量。许多企业都在模型训练的定制芯片上投入了大量精力,尽管常规 CPU 上已经能够较好地执行推理运算,但定制芯片的效率明显更高。“与Nvidia G4实例相比,Inf1具有更低的延迟,吞吐量将提高3倍,并且每个实例的成本降低40%。”

Inferentia芯片还将由Annapurna Labs提供支持,该芯片企业是2015年被以色列AWS收购的。Inferentia芯片拥有4的个NeuronCore,可以提供128TOPS的算力,而每个Inf1实例可以提供2000 TOPS的算力。

与 EC4 上的常规 G4 实例相比,Inferentia 能够让 AWS 带来更低的延时、三倍的吞吐量、且降低 40% 单次的成本。

Inf1实例目前已经上市,并将与PyTorch,MXNet和TensorFlow集成。不过,目前其仅可在EC2计算服务中使用,但明年,Inf1将可以用于EKS实例和Amazon的SageMaker,来进行机器学习的推理运算。

​编辑:芯智讯-林子

0

付费内容

查看我的付费内容