异构推理架构 - 财报，业绩电话会，研报，新闻

异构推理架构

搜索文档

半导体行业观察· 2026-04-09 09:18

英特尔与SambaNova联合推出的异构推理架构 - 英特尔和SambaNova宣布推出已投入生产的异构推理架构，该架构将推理过程拆分为多个阶段，分别由不同的芯片处理：使用AI加速器或GPU进行预填充，使用SambaNova的SN50可重构数据流单元进行解码和生成令牌，并使用英特尔Xeon 6处理器来运行代理工具和进行系统编排[1] - 该平台旨在满足各种工作负载需求，从英伟达和其他新兴厂商手中夺取市场份额，计划于2026年下半年面向企业、云运营商和自主AI项目推出[1][2] - 该架构与英伟达Rubin平台思路类似，但关键区别在于新平台采用英特尔Xeon 6处理器，而非竞争对手的产品[1] 架构性能与优势对比 - 根据对比表格，该联合方案在部署万亿参数模型时，仅需256颗SambaNova SN50解码芯片，而使用英伟达Grog 3 LPU则需要2000颗以上芯片[2] - 该方案可接入现有数据中心，每个机柜仅需30千瓦功率，而英伟达方案需要新建液冷数据中心设施，功率超过1兆瓦[2] - 在硬件适应变化的高端工作负载方面，该方案利用率高，而英伟达方案利用率低[2] - 根据SambaNova内部数据，与基于Arm的服务器CPU相比，Xeon 6的LLVM编译速度提升超过50%；与竞争对手的x86处理器相比，其在向量数据库工作负载方面的性能提升高达70%[2] - 该架构的最大优势之一是SambaNova SN50和基于Xeon的服务器可直接兼容30千瓦的数据中心，覆盖了绝大多数企业数据中心的功率需求[2] AI工作负载演变与CPU重要性提升 - 智能体AI工作负载正在重塑数据中心计算需求，将性能瓶颈从以GPU为中心的推理转移到CPU密集型的编排和工作流管理[3] - 新兴的智能体AI系统将推理转变为分布式、多步骤过程，涉及规划、工具调用、验证和迭代推理，这种架构变化带来了巨大的CPU需求，使CPU容量成为维持系统吞吐量和成本效益的关键因素[3] - 在代理工作流中，CPU执行编排任务，如控制流管理、分支逻辑、重试以及多个代理和外部服务之间的协调，每次调用都可能产生额外的CPU、内存和I/O开销[5] - 当CPU资源不足时，GPU会处于空闲状态，等待预处理、工具执行或验证步骤完成，导致昂贵的加速器硬件利用率低下[5] 基准测试揭示的CPU瓶颈 - 在一个模拟金融异常检测的工作流程中，CPU操作占据了总运行时间的大部分，仅数据增强一项就比基于GPU的模型推理步骤耗时更长[5] - 在AI辅助代码生成的基准测试中，尽管使用了高核心数系统，基于CPU的沙盒执行仍然比GPU代码生成耗时略长，CPU阶段涉及子进程管理、测试执行和结果分析[6] - 这些发现表明，在智能体系统中，验证循环的时间可以与推理时间相媲美甚至超过推理时间，如果不相应地扩展CPU性能，仅提高GPU性能并不能提高整体吞吐量[6] 基础设施规模建议与影响 - 实验得出的基础设施规模建议强调保持CPU与GPU的平衡比例，目前的指导原则是CPU与GPU的比例应在1:1到1.4:1之间，相当于每个GPU大约需要86到120个CPU核心[6] - 较小的模型由于生成令牌的速度更快，因此需要额外的CPU容量来保持GPU的满负荷运行，而更强大的CPU则可以降低所需的比例[6] - 未来的高性能GPU可能会进一步增加对CPU的需求，随着编排复杂性的增加，可能会推高CPU与GPU的比例[6] - CPU资源配置不足会导致编排延迟、工具执行缓慢以及验证循环变慢，从而降低GPU利用率并增加运营成本，扩展CPU资源可确保数据准备、协调和验证的持续进行，使GPU能够以最高效率运行[7] - 随着智能体AI的发展，CPU将在推理基础设施中扮演日益重要的角色，部署智能体的组织必须重新考虑传统的以GPU为中心的扩展策略，转而设计能够提供充足CPU容量的均衡架构[7]