文章核心观点 - 当前及未来的人工智能发展,特别是AI Agent和强化学习的兴起,使得高性能CPU在数据中心的重要性与GPU并重,CPU正迎来其“事业的第二春”[9][10][28][73][74] AI算力需求演变:从CPU到GPU,再到CPU与GPU协同 - AI训练早期(如1998年)依赖CPU,训练一个CNN模型需在单个CPU上运行两三天,效率低下且成本高昂[12][13][15] - 2012年ImageNet大赛成为转折点,使用两张GTX 580显卡将图像识别准确率提升十个百分点,GPU自此成为AI发展的核心算力,英伟达市值随之跃升[20][21][24][25] - 在早期的生成式AI应用中(如ChatGPT),交互模式简单,主要为GPU进行矩阵运算生成回答,CPU参与度有限[29][31][32] AI发展新趋势驱动CPU需求复苏 - AI Agent的兴起:以Claude Code、龙虾等为代表的AI工具,其工作流程不再是简单问答,而是需要自主理解目标、调用工具(如浏览器、电商接口)、搜索信息并决策,形成了GPU与CPU交替工作的“连环交替”模式[33][34][35][38][39] - 强化学习(RL)成为关键:当前头部模型(如DeepSeek R1、OpenAI、Anthropic、Google、阿里Qwen、Grok)的性能提升越来越依赖强化学习,该过程需要模型在模拟环境中执行并验证结果(如运行代码),这大量依赖CPU进行环境模拟、结果验证和评分[45][46][47][50][51][52] CPU性能成为数据中心效率的关键瓶颈 - CPU负责AI推理前的关键准备工作,包括接受用户请求、分配模型数据、加载模型权重、更新KV缓存等,若CPU性能不足,会导致高功耗的GPU闲置等待,整体效率降低,增加时间和电费成本[59][60][61][62][63] - AMD的实验数据显示,为8块Instinct MI300x GPU搭配更高性能的CPU(AMD EPYC™ 9575F vs. Xeon 8592+),在多个模型(Llama-3.1-8B/70B, Mixtral 8x7B)的推理测试中,平均性能可提升1.09倍;为8块Nvidia H100搭配高性能CPU,平均性能可提升1.08倍[68][69][72] - 尽管高性能CPU自身功耗增加0.8%,但通过提升GPU工作效率8%,实现了更高的整体能效比,即“数据中心越贵,数据中心越便宜”[69][70][71] 行业厂商的战略布局与市场影响 - 主要云厂商正积极增加数据中心CPU配置,例如微软在建设Fairwater数据中心时,专门额外建造了一栋全是CPU的大楼[41][42] - 科技巨头采取不同策略加强CPU能力:谷歌自主研发服务器CPU Axion;Meta与Arm合作共同研发CPU;其他大模型厂商则直接向英特尔等传统CPU供应商采购[54][57] - CPU需求复苏为英特尔、AMD等传统CPU厂商,以及试图进入该市场的英伟达带来了新的增长机遇[6][7][75]
不好,CPU也要被干涨价了