Cerebras在4000亿参数大模型上实现创纪录的推理速度，达到英伟达DGX B200的两倍

2025年05月29日

当地时间5月28日，晶圆级AI芯片厂商Cerebras Systems 宣布基于其CS-3系统的云服务在400B参数的Llama 4 Maverick模型上创造了LLM推理速度的世界纪录，达到每个用户每秒2500个Token，这是英伟达DGX B200（包含了8个Blackwell GPU）系统的2.5倍。这项记录是由基准公司Artificial Analysis测得的。

根据官方资料显示，Cerebras Systems 的CS-3系统基于其第三代晶圆级AI芯片WSE-3，采用了一整张12英寸晶圆来制作，基于台积电5nm制程，芯片面积为46225平方毫米，拥有的晶体管数量达到了4万亿个，拥有90万个AI核心，44GB片上SRAM，整体的内存带宽为21PB/s，结构带宽高达214PB/s。使得WSE-3具有125 FP16 PetaFLOPS的峰值性能，相比上一代的WSE-2提升了1倍。

Artificial Analysis的联合创始人兼首席执行官Micah Hill-Smith表示：“Cerebras已经打破了英伟达上周创下的Llama 4 Maverick推理速度记录。”。“人工分析将Cerebras的Llama 4 Maverick端点的基准测试为每秒2522个令牌，而NVIDIA Blackwell的同一型号每秒1038个令牌。我们测试了数十家供应商，Cerebras是Meta旗舰型号中唯一优于Blackwell的推理解决方案。”

凭借这一结果，Cerebras在400B参数的Llama 4 Maverick模型上创造了LLM推理速度的世界纪录，该模型是Llama 3家族中最大、最强大的模型。Artificial Analysis还测试了多个其他模型供应商，结果如下：SambaNova 794 Token/秒，亚马逊290 Token/秒、Groq 549 Token/秒；谷歌125 Token/秒和微软Azure 54 Token/秒。

Cerebras Systems首席执行官Andrew Feldman表示：“当今企业中部署的最重要的人工智能应用程序——代理、代码生成和复杂推理——都受到推理延迟的瓶颈。这些用例通常涉及多步思维链或大规模检索和规划，GPU上的生成速度低至每秒100个Token，导致等待时间为几分钟，使生产部署不切实际。Cerebras率先重新定义了Llama、DeepSeek和Qwen等模型的推理性能，定期提供超过2500 Token/用户。”

Cerebras称，凭借其创纪录的性能，Cerebras是Llama 4在任何部署场景中的最佳解决方案。Cerebras Inference不仅是第一个也是唯一一个打破该模型2500 TPS/用户里程碑的API，而且与人工分析基准中使用的英伟达Blackwell不同，现在可以使用Cerebras硬件和API。英伟达使用了大多数用户无法使用的自定义软件优化。有趣的是，英伟达的推理提供商中没有一家提供英伟达公布业绩的服务。这表明，为了实现1000 TPS/用户，英伟达被迫通过批量大小为1或2来降低吞吐量，使GPU的利用率低于1%。另一方面，Cerebras在没有任何特殊内核优化的情况下实现了这种破纪录的性能，它将很快通过Meta的API服务提供给所有人。

对于推理、语音和代理工作流等尖端人工智能应用程序，速度至关重要。这些AI应用程序通过在推理过程中处理更多Token来获得智能。这也会使它们变慢，迫使客户等待。当客户被迫等待时，他们就会离开，去找能更快提供答案的竞争对手——谷歌十多年前在搜索中就发现了这一点。凭借破纪录的性能，Cerebras硬件和由此产生的API服务是世界各地开发人员和企业人工智能用户的最佳选择。

编辑：芯智讯-浪客剑

Cerebras在4000亿参数大模型上实现创纪录的推理速度，达到英伟达DGX B200的两倍

相关文章:

付费内容

Cerebras在4000亿参数大模型上实现创纪录的推理速度，达到英伟达DGX B200的两倍

相关文章:

付费内容

Trending now