亚马逊云端AI推理芯片Inferentia商用，Inf1实例可提供最高2000 TOPS算力

2019年12月04日

当地时间12月3日，亚马逊在“AWS re：invent”大会上正式发布了自主研发的第二代基于Arm架构的服务器芯片Graviton2，同时公布了去年发布的云端AI推理芯片Inferentia的最新进展。

亚马逊AWS在此次大会上推出了Inf1实例，该实例由Inferentia芯片提供支持，是一个在云端为AI推理提供支持的实例，AWS CEO Andy Jassy称之为云中可用的成本最低的推理产品。

Andy Jassy 指出：使用云服务为AI解决方案提供动力的运营成本绝大多数来自推理，而推理芯片可能会很昂贵，并且要求低延迟和高吞吐量。许多企业都在模型训练的定制芯片上投入了大量精力，尽管常规 CPU 上已经能够较好地执行推理运算，但定制芯片的效率明显更高。“与Nvidia G4实例相比，Inf1具有更低的延迟，吞吐量将提高3倍，并且每个实例的成本降低40％。”

Inferentia芯片还将由Annapurna Labs提供支持，该芯片企业是2015年被以色列AWS收购的。Inferentia芯片拥有4的个NeuronCore，可以提供128TOPS的算力，而每个Inf1实例可以提供2000 TOPS的算力。