AI算力需求结构向推理侧迁移 - 市场共识认为AI推理的转折点已至,英伟达CEO黄仁勋预测AI推理的规模很快将达到训练负载的十亿倍[1] - AI推理芯片企业曦望董事长预计,2026年AI推理计算需求将达到训练需求的4—5倍,推理算力租赁价格半年涨幅近40%[1] - IDC预计到2028年,推理工作负载占比将达到73%,智能体应用规模化将推动算力需求进一步向推理侧迁移[1] - 头部厂商动作表明,AI算力重心已从训练逐步切换至推理,国产算力厂商正加大押注力度[1] AI推理的技术特征与市场要求 - AI推理是持续性、碎片化的运营支出,对时延、并发和单位Token成本敏感,与传统批量化的训练不同[2] - 智能体应用需要多轮推理和长上下文记忆,单个任务消耗的Token数量可能是传统对话的数十倍[2] - 目前多数推理任务仍由CPU承担,GPU虽快但主要用于训练,推理算力需求更少但需要更多内存以避免瓶颈[2] - 不同应用场景对推理时延要求差异大,游戏用户期望15毫秒首Token时延,电商约20毫秒,智能体自助服务约50毫秒,客服机器人约100毫秒[3] - 时延的差异化要求意味着单一通用推理芯片难以覆盖全部负载,硬件厂商需在吞吐、时延、成本间取舍[3] 行业定价趋势与竞争格局 - 英伟达CEO黄仁勋认为推理Token价值已显著抬升,市场具备按响应速度分层定价的条件,高价值用户愿为更低延迟付费[3] - 英伟达将Groq纳入CUDA生态,开辟响应更快但吞吐量较低的推理细分市场,以覆盖对速度敏感的高端需求[3] - 云服务进入涨价周期,算力资源稀缺性强化,国产模型与国产硬件协同优化持续推进,国产加速卡与超节点方案进入密集落地阶段[3] 国际巨头产品战略动向 - 谷歌在Google Cloud Next26大会上发布第八代TPU新品,首次按训练/推理拆分架构,推出面向推理的TPU 8i[4] - TPU 8i瞄准AI实时推理需求,发力多智能体协同等复杂场景,通过优化内存配置与片内数据吞吐降低延迟[5] - 谷歌称TPU 8i在推理环节的性价比提升了近80%,同等算力成本下可支撑更大规模的AI并发调用[5] - 谷歌云高管指出,芯片根据训练和服务需求进行个性化定制将使整个社区受益[5] 国产算力厂商发展现状与技术路线 - 中国AI训练与推理需求爆发式增长,全国算力总量已跃居全球第二,全球占比超过30%[5] - 以华为昇腾、寒武纪思元系列为代表的国产AI芯片正加速崛起,行业地位持续攀升[5] - 华为在推理产品上体现Prefill(预填充)-Decode(解码)分离思路[6] - 寒武纪强调训练与推理一体化的架构与生态,其第五代MLUarch微架构的7nm思元590芯片集群FP16算力达2.048 PFLOPS,支持Chiplet异构集成与8卡互联[6] - 寒武纪技术路线的关键支点包括自研指令集(已迭代至第四代,同一套指令集支持训练和推理)以及训推一体的软件平台Cambricon Neuware[6] - 思元590已在互联网大厂的千卡级集群中商用部署[6] 国产厂商的差异化布局与生态挑战 - 除华为和寒武纪外,摩尔线程等公司围绕通用GPU路线推进,在推理场景重点突破多卡互联和软件工具链技术瓶颈[7] - 曦望等AI芯片企业瞄准推荐系统、长上下文推理、端侧部署等细分场景,试图在巨头主导的通用市场外寻找机会[7] - 关键挑战在于生态,英伟达CUDA已构建完整体系,是其最深的护城河[7] - 华为宣布CANN编译器和Mind系列套件将于2025年底前完成开源,寒武纪持续开放NeuWare工具链,意图降低开发者迁移门槛[7]
“训练为王”终结:AI推理新浪潮,英伟达谷歌华为切换赛道