Nvidia-“训练为王”终结：AI推理新浪潮，英伟达谷歌华为切换赛道

AI算力需求结构向推理侧迁移 - 市场共识认为AI推理的转折点已至，英伟达CEO黄仁勋预测AI推理的规模很快将达到训练负载的十亿倍[1] - AI推理芯片企业曦望董事长预计，2026年AI推理计算需求将达到训练需求的4—5倍，推理算力租赁价格半年涨幅近40%[1] - IDC预计到2028年，推理工作负载占比将达到73%，智能体应用规模化将推动算力需求进一步向推理侧迁移[1] - 头部厂商动作表明，AI算力重心已从训练逐步切换至推理，国产算力厂商正加大押注力度[1] AI推理的技术特征与市场要求 - AI推理是持续性、碎片化的运营支出，对时延、并发和单位Token成本敏感，与传统批量化的训练不同[2] - 智能体应用需要多轮推理和长上下文记忆，单个任务消耗的Token数量可能是传统对话的数十倍[2] - 目前多数推理任务仍由CPU承担，GPU虽快但主要用于训练，推理算力需求更少但需要更多内存以避免瓶颈[2] - 不同应用场景对推理时延要求差异大，游戏用户期望15毫秒首Token时延，电商约20毫秒，智能体自助服务约50毫秒，客服机器人约100毫秒[3] - 时延的差异化要求意味着单一通用推理芯片难以覆盖全部负载，硬件厂商需在吞吐、时延、成本间取舍[3] 行业定价趋势与竞争格局 - 英伟达CEO黄仁勋认为推理Token价值已显著抬升，市场具备按响应速度分层定价的条件，高价值用户愿为更低延迟付费[3] - 英伟达将Groq纳入CUDA生态，开辟响应更快但吞吐量较低的推理细分市场，以覆盖对速度敏感的高端需求[3] - 云服务进入涨价周期，算力资源稀缺性强化，国产模型与国产硬件协同优化持续推进，国产加速卡与超节点方案进入密集落地阶段[3] 国际巨头产品战略动向 - 谷歌在Google Cloud Next26大会上发布第八代TPU新品，首次按训练/推理拆分架构，推出面向推理的TPU 8i[4] - TPU 8i瞄准AI实时推理需求，发力多智能体协同等复杂场景，通过优化内存配置与片内数据吞吐降低延迟[5] - 谷歌称TPU 8i在推理环节的性价比提升了近80%，同等算力成本下可支撑更大规模的AI并发调用[5] - 谷歌云高管指出，芯片根据训练和服务需求进行个性化定制将使整个社区受益[5] 国产算力厂商发展现状与技术路线 - 中国AI训练与推理需求爆发式增长，全国算力总量已跃居全球第二，全球占比超过30%[5] - 以华为昇腾、寒武纪思元系列为代表的国产AI芯片正加速崛起，行业地位持续攀升[5] - 华为在推理产品上体现Prefill（预填充）－Decode（解码）分离思路[6] - 寒武纪强调训练与推理一体化的架构与生态，其第五代MLUarch微架构的7nm思元590芯片集群FP16算力达2.048 PFLOPS，支持Chiplet异构集成与8卡互联[6] - 寒武纪技术路线的关键支点包括自研指令集（已迭代至第四代，同一套指令集支持训练和推理）以及训推一体的软件平台Cambricon Neuware[6] - 思元590已在互联网大厂的千卡级集群中商用部署[6] 国产厂商的差异化布局与生态挑战 - 除华为和寒武纪外，摩尔线程等公司围绕通用GPU路线推进，在推理场景重点突破多卡互联和软件工具链技术瓶颈[7] - 曦望等AI芯片企业瞄准推荐系统、长上下文推理、端侧部署等细分场景，试图在巨头主导的通用市场外寻找机会[7] - 关键挑战在于生态，英伟达CUDA已构建完整体系，是其最深的护城河[7] - 华为宣布CANN编译器和Mind系列套件将于2025年底前完成开源，寒武纪持续开放NeuWare工具链，意图降低开发者迁移门槛[7]