CPU再度崛起,需求飙升
半导体行业观察·2026-02-10 09:14

文章核心观点 - 自2023年以来,数据中心的发展重心从CPU转向了GPU和网络,导致英特尔等传统CPU供应商错失增长机会 [2] - 然而,过去六个月情况发生巨大变化,CPU需求因强化学习和Vibe编码等因素而飙升,其在数据中心的作用迎来转折点 [2][5] - 2026年将是数据中心CPU市场激动人心的一年,英特尔、AMD、ARM阵营等多厂商将推出新一代产品,竞争格局将发生显著变化 [7] 数据中心CPU的作用和演变 - 现代数据中心CPU的雏形可追溯至20世纪90年代,英特尔奔腾Pro和至强系列通过多芯片模块(MCM)设计提升了性能 [9] - 互联网泡沫时代,数据中心CPU市场发展为价值数十亿美元的产业,设计重点转向多核集成和同步多线程(SMT)技术 [10][11] - 2000年代末云计算的兴起是重大转折点,CPU硬件虚拟化成为关键,但Spectre和Meltdown漏洞导致禁用SMT后性能损失高达30% [12][13] - 新冠疫情至ChatGPT发布前,英特尔向云端和企业数据中心交付了超过1亿颗至强可扩展CPU [14] - AI时代,CPU在数据中心角色被颠覆,分为管理GPU的“头部节点”和追求每瓦吞吐量的“云原生Socket整合”两大类 [15] - Socket整合比例可达10:1甚至更高,疫情期间购买的数百万台英特尔Cascade Lake服务器正被功耗低至其五分之一的新CPU取代 [17] - 如今,为支持AI训练和推理,CPU使用率再次加速增长,例如微软为OpenAI打造的“Fairwater”数据中心配备48MW的CPU和存储大楼为295MW的GPU集群提供支持 [19] - 强化学习训练循环需要大量CPU并行执行代码编译、验证和物理模拟等操作,检索增强生成(RAG)和智能体模型也增加了对通用CPU的需求 [21][22] - 展望2026年,数据中心对CPU和DRAM需求将更高,AMD预计服务器CPU市场将实现“强劲的两位数”增长 [22] 多核CPU互连技术发展史 - 早期双核设计(如英特尔奔腾D)核心间通信通过前端总线(FSB)在北桥芯片进行,而AMD Athlon 64 X2在同一芯片上集成双核和内存控制器,通过片上网络(NoC)通信 [24] - 随着核心数增加,早期采用全连接交叉开关,但链路数量随核心数大幅增加,实际极限约为4个核心,更高核心数通过多芯片模块实现 [28][29] - 英特尔在2010年Nehalem-EX处理器中引入环形总线架构,将核心、内存控制器等节点排列成环路,以控制布线复杂度 [33] - 为扩展核心数,英特尔后续采用了“虚拟环”、双独立环形总线(如18核Haswell)等设计,但导致了非均匀内存访问(NUMA)问题 [41][44] - 2017年,英特尔在Skylake-X至强可扩展处理器中采用网状互连架构,核心以网格形式排列,成为未来十年核心扩展的基础 [49] - 网状架构下,内存访问和核心间延迟存在显著差异,可通过子NUMA集群(SNC)模式优化,但每个处理器被视为多个插槽 [49] - 采用EMIB先进封装技术的Sapphire Rapids实现了跨芯片的网状架构,将核心数增至60个,但平均核心间延迟从Skylake的47ns增至59ns [59] - 随后的Emerald Rapids将芯片减至2片,核心数增至66个,L3缓存容量几乎翻三倍至320MB [60] - 在Xeon 6平台,英特尔采用异构解耦设计,将I/O与计算核心分离,计算芯片可混合搭配P核和E核配置 [64] - Sierra Forest处理器采用E核心,以8x6网格排列,最多激活144个核心,但市场接受度有限 [66] - Clearwater Forest采用Foveros Direct混合键合,将核心堆叠在基础芯片上,使核心数达288个,但性能仅比Sierra Forest快17%,且面临延迟和成本挑战 [67][69] 主要厂商2026年CPU架构分析 英特尔 - Diamond Rapids设计转向类似AMD的架构,四个核心构建模块(CBB)芯片围绕中央I/O芯片,最多启用192个核心 [88] - 每个CBB内部,32个双核模块通过混合键合连接到基片,两个核心共享一个公共L2缓存 [88] - 该设计放弃了EMIB高级封装,使用基板走线连接,预计跨CBB延迟会显著增加 [89][90] - 最大问题在于缺少同步多线程(SMT),导致192核192线程的Diamond Rapids相比128核256线程的Granite Rapids性能仅提升约40% [92] - 英特尔取消了主流的8通道Diamond Rapids-SP平台,其销量最大的核心市场在2028年前将没有新一代产品 [93] AMD - Venice架构最终采用先进封装技术,使用高速短距离链路将CCD芯片连接到分成两个芯片的中央I/O集线器 [95] - I/O芯片总共有16个内存通道,支持MRDIMM-12800,可提供1.64TB/s带宽 [95] - CCD内部采用网状网络,Zen6c处理器以4x8网格排列,八个N2 CCD芯片使核心数量达到256个 [96] - 针对AI头部节点的“-F”系列将采用12核Zen6 CCD,最多在8个CCD中实现96个核心 [97] - AMD声称顶级256核版本的每瓦性能比192核Turin版本高出1.7倍以上,并引入了新的AI数据类型指令 [99] - AMD将推出全新的8通道Venice SP8平台,提供高达128个高密度Zen 6c核心,旨在企业级市场获得份额 [100] NVIDIA - Grace CPU设计专注于核心节点和扩展GPU内存,通过900GB/s的NVLink-C2C链路让GPU访问CPU内存,最高配备480GB LPDDR5X内存 [103] - 采用ARM Neoverse V2设计,部署在6x7网状网络上,最多启用72个核心 [103] - 其分支预测引擎存在瓶颈,处理未优化HPC代码时速度较慢,优化后可带来50%的速度提升 [104] - Vera CPU将于2026年推出,C2C带宽翻倍至1.8TB/s,内存容量达1.5TB,带宽1.2TB/s,采用7x13网格,最多激活88个核心 [106] - Vera采用全新的定制ARM核心“Olympus”,支持SMT,实现88核176线程,浮点单元端口增至6个,整体性能提升2倍 [114] AWS (亚马逊) - Graviton5于2025年底预览,配备192个Neoverse V3核心,采用台积电3nm工艺,晶体管数量达1720亿 [116][120] - L3缓存从Graviton4的36MB提升至192MB,内存带宽(12通道DDR5-8800)提升57% [120] - PCIe通道升级至Gen6但数量从96条减至64条,是成本优化举措 [120] - 采用改进的芯片组架构,两个核心共享一个网格节点,排列成8x12网格,核心网格分布在多个计算芯片上 [121] - AWS在内部使用数千颗Graviton CPU运行EDA工具来设计未来芯片,并宣布Trainium3加速器将使用Graviton CPU作为头节点 [123] 微软 - Cobalt 200于2025年底发布,核心数从128个增至132个,采用Neoverse V3设计,性能比Cobalt 100提升50% [127][128] - 核心配备3MB L2缓存,通过标准ARM网状网络连接到两颗3nm计算芯片,每芯片采用8x8网状结构,共192MB共享L3缓存 [128] - 与Graviton5不同,Cobalt 200仅用于Azure通用计算服务,不作为AI头节点 [128] 谷歌 - Axion C4A实例最多搭载72个Neoverse V2核心,采用9x9网格布局,预留9个核心提高良率 [132] - 为成本效益的横向扩展,Axion N4A实例采用64个Neoverse N3内核,采用台积电3nm工艺定制设计 [133] - 谷歌计划将内部服务迁移到ARM架构,并未来设计Axion CPU用作TPU集群的头部节点 [133] Ampere Computing - AmpereOne CPU核心数提升至192个,采用5nm工艺和芯片组设计,将I/O分离到独立芯片 [140] - 采用定制ARM内核注重核心密度,配备2MB L2缓存,整数性能比Altra Max提升一倍 [140] - 2025年被软银以65亿美元收购,原路线图不再适用,收购原因包括软银希望提升其Stargate项目的CPU设计水平,以及甲骨文希望剥离该业务 [141] - 由于上市时机和性能问题,市场需求不足,Oracle的Ampere CPU采购额从2023财年的4800万美元骤降至2025财年的370万美元 [141][142] ARM - ARM计划在2026年推出完整的数据中心CPU设计方案Phoenix,Meta将成为其首个客户,这意味着ARM将直接与获得其Neoverse CSS授权的客户竞争 [143] - Phoenix采用128个Neoverse V3内核,通过ARM的CMN网状网络分布在两颗3nm芯片上,配备12通道DDR5-8400内存和96条PCIe Gen 6通道 [144] 华为 - 计划在2026年推出鲲鹏950处理器,核心数量翻倍至192个,采用自主研发的LinxiCore核心并保留SMT支持 [150] - 承诺在OLTP数据库性能上比鲲鹏920B提升2.9倍,将部署在泰山950 SuperPoD机架中,每个机架可容纳16台双路服务器,配备高达48TB DDR5内存 [150] - 路线图延续至2028年的鲲鹏960系列,将有高性能(96核)和高密度(256核以上)两个版本 [151]