当地时间5月28日,晶圆级AI芯片厂商Cerebras Systems 宣布基于其CS-3系统的云服务在400B参数的Llama 4 Maverick模型上创造了LLM推理速度的世界纪录,达到每个用户每秒2500个Token,这是英伟达DGX B200(包含了8个Blackwell GPU)系统的2.5倍。这项记录是由基准公司Artificial Analysis测得的。
根据官方资料显示,Cerebras Systems 的CS-3系统基于其第三代晶圆级AI芯片WSE-3,采用了一整张12英寸晶圆来制作,基于台积电5nm制程,芯片面积为46225平方毫米,拥有的晶体管数量达到了4万亿个,拥有90万个AI核心,44GB片上SRAM,整体的内存带宽为21PB/s,结构带宽高达214PB/s。使得WSE-3具有125 FP16 PetaFLOPS的峰值性能,相比上一代的WSE-2提升了1倍。
Artificial Analysis的联合创始人兼首席执行官Micah Hill-Smith表示:“Cerebras已经打破了英伟达上周创下的Llama 4 Maverick推理速度记录。”。“人工分析将Cerebras的Llama 4 Maverick端点的基准测试为每秒2522个令牌,而NVIDIA Blackwell的同一型号每秒1038个令牌。我们测试了数十家供应商,Cerebras是Meta旗舰型号中唯一优于Blackwell的推理解决方案。”
凭借这一结果,Cerebras在400B参数的Llama 4 Maverick模型上创造了LLM推理速度的世界纪录,该模型是Llama 3家族中最大、最强大的模型。Artificial Analysis还测试了多个其他模型供应商,结果如下:SambaNova 794 Token/秒,亚马逊290 Token/秒、Groq 549 Token/秒;谷歌125 Token/秒和微软Azure 54 Token/秒。
Cerebras Systems首席执行官Andrew Feldman表示:“当今企业中部署的最重要的人工智能应用程序——代理、代码生成和复杂推理——都受到推理延迟的瓶颈。这些用例通常涉及多步思维链或大规模检索和规划,GPU上的生成速度低至每秒100个Token,导致等待时间为几分钟,使生产部署不切实际。Cerebras率先重新定义了Llama、DeepSeek和Qwen等模型的推理性能,定期提供超过2500 Token/用户。”
Cerebras称,凭借其创纪录的性能,Cerebras是Llama 4在任何部署场景中的最佳解决方案。Cerebras Inference不仅是第一个也是唯一一个打破该模型2500 TPS/用户里程碑的API,而且与人工分析基准中使用的英伟达Blackwell不同,现在可以使用Cerebras硬件和API。英伟达使用了大多数用户无法使用的自定义软件优化。有趣的是,英伟达的推理提供商中没有一家提供英伟达公布业绩的服务。这表明,为了实现1000 TPS/用户,英伟达被迫通过批量大小为1或2来降低吞吐量,使GPU的利用率低于1%。另一方面,Cerebras在没有任何特殊内核优化的情况下实现了这种破纪录的性能,它将很快通过Meta的API服务提供给所有人。
对于推理、语音和代理工作流等尖端人工智能应用程序,速度至关重要。这些AI应用程序通过在推理过程中处理更多Token来获得智能。这也会使它们变慢,迫使客户等待。当客户被迫等待时,他们就会离开,去找能更快提供答案的竞争对手——谷歌十多年前在搜索中就发现了这一点。凭借破纪录的性能,Cerebras硬件和由此产生的API服务是世界各地开发人员和企业人工智能用户的最佳选择。
编辑:芯智讯-浪客剑