Workflow
异构推理架构
icon
搜索文档
芯片龙头,反击英伟达
半导体行业观察· 2026-04-09 09:18
英特尔与SambaNova联合推出的异构推理架构 - 英特尔和SambaNova宣布推出已投入生产的异构推理架构,该架构将推理过程拆分为多个阶段,分别由不同的芯片处理:使用AI加速器或GPU进行预填充,使用SambaNova的SN50可重构数据流单元进行解码和生成令牌,并使用英特尔Xeon 6处理器来运行代理工具和进行系统编排[1] - 该平台旨在满足各种工作负载需求,从英伟达和其他新兴厂商手中夺取市场份额,计划于2026年下半年面向企业、云运营商和自主AI项目推出[1][2] - 该架构与英伟达Rubin平台思路类似,但关键区别在于新平台采用英特尔Xeon 6处理器,而非竞争对手的产品[1] 架构性能与优势对比 - 根据对比表格,该联合方案在部署万亿参数模型时,仅需256颗SambaNova SN50解码芯片,而使用英伟达Grog 3 LPU则需要2000颗以上芯片[2] - 该方案可接入现有数据中心,每个机柜仅需30千瓦功率,而英伟达方案需要新建液冷数据中心设施,功率超过1兆瓦[2] - 在硬件适应变化的高端工作负载方面,该方案利用率高,而英伟达方案利用率低[2] - 根据SambaNova内部数据,与基于Arm的服务器CPU相比,Xeon 6的LLVM编译速度提升超过50%;与竞争对手的x86处理器相比,其在向量数据库工作负载方面的性能提升高达70%[2] - 该架构的最大优势之一是SambaNova SN50和基于Xeon的服务器可直接兼容30千瓦的数据中心,覆盖了绝大多数企业数据中心的功率需求[2] AI工作负载演变与CPU重要性提升 - 智能体AI工作负载正在重塑数据中心计算需求,将性能瓶颈从以GPU为中心的推理转移到CPU密集型的编排和工作流管理[3] - 新兴的智能体AI系统将推理转变为分布式、多步骤过程,涉及规划、工具调用、验证和迭代推理,这种架构变化带来了巨大的CPU需求,使CPU容量成为维持系统吞吐量和成本效益的关键因素[3] - 在代理工作流中,CPU执行编排任务,如控制流管理、分支逻辑、重试以及多个代理和外部服务之间的协调,每次调用都可能产生额外的CPU、内存和I/O开销[5] - 当CPU资源不足时,GPU会处于空闲状态,等待预处理、工具执行或验证步骤完成,导致昂贵的加速器硬件利用率低下[5] 基准测试揭示的CPU瓶颈 - 在一个模拟金融异常检测的工作流程中,CPU操作占据了总运行时间的大部分,仅数据增强一项就比基于GPU的模型推理步骤耗时更长[5] - 在AI辅助代码生成的基准测试中,尽管使用了高核心数系统,基于CPU的沙盒执行仍然比GPU代码生成耗时略长,CPU阶段涉及子进程管理、测试执行和结果分析[6] - 这些发现表明,在智能体系统中,验证循环的时间可以与推理时间相媲美甚至超过推理时间,如果不相应地扩展CPU性能,仅提高GPU性能并不能提高整体吞吐量[6] 基础设施规模建议与影响 - 实验得出的基础设施规模建议强调保持CPU与GPU的平衡比例,目前的指导原则是CPU与GPU的比例应在1:1到1.4:1之间,相当于每个GPU大约需要86到120个CPU核心[6] - 较小的模型由于生成令牌的速度更快,因此需要额外的CPU容量来保持GPU的满负荷运行,而更强大的CPU则可以降低所需的比例[6] - 未来的高性能GPU可能会进一步增加对CPU的需求,随着编排复杂性的增加,可能会推高CPU与GPU的比例[6] - CPU资源配置不足会导致编排延迟、工具执行缓慢以及验证循环变慢,从而降低GPU利用率并增加运营成本,扩展CPU资源可确保数据准备、协调和验证的持续进行,使GPU能够以最高效率运行[7] - 随着智能体AI的发展,CPU将在推理基础设施中扮演日益重要的角色,部署智能体的组织必须重新考虑传统的以GPU为中心的扩展策略,转而设计能够提供充足CPU容量的均衡架构[7]