Amazon-AWS and Cerebras Collaboration Aims to Set a New Standard for AI Inference Speed and Performance in the Cloud

核心合作与解决方案 - AWS与Cerebras Systems宣布合作，旨在为生成式AI应用和大语言模型工作负载提供最快的云端AI推理解决方案，该方案将在未来几个月内通过Amazon Bedrock推出[1] - 此次合作是首创的云端协作，AWS成为Cerebras分解式推理解决方案的首个云提供商，且该方案将通过Amazon Bedrock独家提供[1] - 解决方案结合了AWS Trainium驱动的服务器、Cerebras CS-3系统以及Elastic Fabric Adapter网络，部署在AWS数据中心[1] 技术架构与性能优势 - 解决方案采用“推理分解”技术，将AI推理分为提示处理（“预填充”）和输出生成（“解码”）两个阶段，并针对不同计算特性进行优化[1] - AWS Trainium芯片针对计算密集、可并行化的预填充阶段进行优化，而Cerebras CS-3系统则针对内存带宽密集型、串行化的解码阶段进行优化[1] - 通过EFA低延迟、高带宽网络连接两者，该集成系统将提供无与伦比的性能和速度，预计推理速度将比当前可用方案快一个数量级[1] - Cerebras CS-3是世界上最快的AI推理系统，其内存带宽比最快的GPU高出数千倍[1] - 该解决方案基于AWS Nitro系统构建，确保安全、隔离和运营一致性[1] 市场定位与客户采用 - 两家领先的AI实验室——Anthropic和OpenAI——已承诺使用Trainium。Anthropic将AWS列为其主要训练合作伙伴，OpenAI将通过AWS基础设施消耗2吉瓦的Trainium容量[1] - OpenAI、Cognition、Mistral等公司使用Cerebras来加速其最苛刻的工作负载，特别是在智能体编码领域[1] - 今年晚些时候，AWS还将提供使用Cerebras硬件运行的领先开源LLM和Amazon Nova模型[1] 公司背景与行业地位 - Cerebras Systems构建了世界上最快的AI基础设施，其旗舰产品Wafer Scale Engine 3是世界上最大、最快的AI处理器，面积比最大的GPU大56倍，单位计算功耗更低，推理和训练速度快20倍以上[2] - AWS是全球领先的云服务提供商，拥有最全面的AI能力和全球基础设施，为数百万客户提供服务[2] - Cerebras Systems近期完成了10亿美元的H轮融资，投后估值约为230亿美元，由Tiger Global领投[2] - Cerebras Systems已与美国能源部签署谅解备忘录，以在下一代AI和高性能计算技术方面进行合作[2]