你应该知道的10个AI芯片术语

文章核心观点 - AI芯片是AI体验的基础，理解其硬件至关重要，行业正从通用硬件转向为特定AI工作负载优化的专用芯片，以追求更好的性能、效率和性价比 [1][7] AI芯片关键类别与定义 - AI加速器：专为AI工作负载（如训练和推理）构建的芯片类别，相比通用芯片能提供显著更好的性能和效率，例如AWS Trainium芯片 [1] - 专用芯片：从零开始为特定工作负载设计的芯片，是AI基础设施领域的重要转变，旨在优化性能、效率和成本，亚马逊的定制芯片业务年收入跑率已超过200亿美元 [7][8] - CPU：作为通用“大脑”，在协调日益复杂的AI系统（特别是智能体AI）负载方面作用关键，亚马逊最新一代Graviton处理器性能比前代提升多达25% [3] - GPU：凭借并行处理能力成为训练大型AI模型的首选硬件，但随着工作负载多样化，行业正转向更广泛的专用硬件组合 [4] AI计算过程与硬件需求 - 训练：通过向模型输入海量数据集进行教导的过程，是计算密集度最高的任务之一，构建前沿模型可能需要成千上万颗芯片运行数周或数月，专用芯片在此发挥重要作用，例如Anthropic使用超过100万颗Trainium2芯片训练Claude模型 [10] - 推理：模型应用所学知识生成输出的过程，其要求（如速度和单次查询成本）与训练不同，推动了专门为推理优化的芯片发展 [5] - 工作负载：指要求芯片执行的计算任务，不同AI工作负载（训练、推理、协调智能体）对硬件有不同需求，促使行业从“一颗芯片搞定一切”转向为合适的工作负载匹配合适的芯片 [11] 系统性能与成本考量 - 集群：将成千上万颗芯片连接成一个单一强大系统，以提供训练前沿AI模型所需的远超单芯片的计算能力，其规模和效率是决定模型训练速度和成本效益的主要因素，例如亚马逊的Project Rainier是全球最大的AI计算集群 [2] - 吞吐量：系统可同时处理的AI请求或操作数量，是高用户量AI应用扩展的关键，专用芯片旨在最大化吞吐量而不使成本激增 [9] - 性价比：衡量每美元支出所能获得计算能力的关键指标，是公司采用Trainium和Graviton等专用芯片的核心原因，这些芯片旨在比通用方案提供更高的单位美元产出 [6]