Nvidia-“训练为王”终结：AI推理新浪潮，英伟达谷歌华为切换赛道

AI推理市场趋势与共识 - 市场共识认为AI推理的转折点已经到来，其规模将远超训练负载，英伟达CEO预测推理规模将达到训练负载的十亿倍[1] - 市场调研机构IDC预计，到2028年，推理工作负载占比将达到73%[1] - 行业普遍认为AI算力的重心已从训练逐步切换至推理，这一变化不容忽视[2] 推理需求激增的驱动因素与特点 - 智能体应用规模化铺开，推动算力需求向推理侧迁移[1] - 与传统对话式AI不同，智能体执行任务需要多轮推理和长上下文记忆，单个任务消耗的token数量可能是传统对话的数十倍[3] - 一个中等复杂度的企业级智能体工作流，一次完整执行消耗的推理算力相当于数百次AI聊天机器人对话[3] - 推理是持续性、碎片化的运营支出，对时延、并发和单位token成本更为敏感，而训练是一次性、批量化的投入[3] 市场供需与行业挑战 - 国内受地缘政治因素影响高端GPU短缺，而智能体、AI内容生成等新兴应用快速拉升需求，导致市场面临“等token”的窘境，多家主流大模型厂商API调用出现过载或服务中断[5] - 云服务进入涨价周期，算力资源稀缺性进一步强化[5] - 推理对时延要求极高，不同场景差异显著：游戏用户期望首token时延在15毫秒，电商约20毫秒，智能体自助服务约50毫秒，客服机器人约100毫秒[4] - 不同场景对时延的差异化要求意味着单一规格的通用推理芯片难以覆盖全部负载，硬件厂商必须在吞吐、时延、成本之间做出取舍[4] 国际厂商动态与战略 - 英伟达推出专为长上下文推理设计的Rubin CPU，并将推理芯片公司Groq纳入CUDA生态，以覆盖对速度敏感的高端需求[1][4] - 谷歌发布第八代TPU，首次按训练与推理拆分产品线，推出面向推理的TPU8i，该芯片在推理环节的性价比提升了近80%[1][6] - 英伟达CEO认为推理token价值已显著抬升，市场具备了按响应速度分层定价的条件[4] 国产算力厂商发展概况 - 中国AI训练与推理需求正迎来爆发式增长，全国算力总量已跃居全球第二，全球占比超过30%[7] - 预计到2027年，中国AI芯片的国产化率将从2023年的17%大幅增至55%[7] - 国产算力厂商正加大押注，争夺推理时代的入场券[1] 华为昇腾技术路线与产品 - 华为昇腾950系列采用P/D（Prefill/Decode）分离架构以平衡推理成本与效率[1] - 昇腾950PR针对AI推理中的Prefill（预填充）和推荐场景，强调低成本和大规模部署的经济性[1][7] - 昇腾950DT主打Decode（解码）阶段和训练场景，内存容量144GB、带宽达到4TB/s，面向长文本推理和千亿参数模型训练[7] - 华为计划在2026年四季度发布Atlas 950超节点，支持8192颗昇腾950DT芯片，其卡规模是英伟达NVL144的56.8倍，总算力是其6.7倍，内存容量是其15倍，互联带宽是其62倍[8] - 华为通过超节点互联技术弥补单芯片性能不足，目标是在集群层面做到世界领先[8] - 华为宣布CANN编译器和Mind系列套件于2025年底前完成开源，以降低开发者迁移门槛[10] 寒武纪技术路线与产品 - 寒武纪强调训练与推理一体化的架构与生态[8] - 硬件端迭代至第五代MLUarch微架构，7nm思元590芯片集群FP16算力2.048 PFLOPS，性能对标国际主流[8] - 软件端NeuWare平台实现“一次开发、多端部署”，兼容主流AI框架并开源工具链以降低迁移成本[9] - 思元590已在互联网大厂的千卡级集群中商用部署[9] - 寒武纪持续开放NeuWare工具链，意图降低开发者迁移门槛[10] 其他国产厂商布局 - 摩尔线程等公司围绕通用GPU路线持续推进，在推理场景中重点突破多卡互联和软件工具链领域的技术瓶颈[9] - 曦望等AI芯片企业瞄准推荐系统、长上下文推理、端侧部署等细分场景，试图在巨头主导的通用市场之外寻找机会[9] 生态建设与突破 - CUDA生态是英伟达最深的护城河，拥有近二十年积累的完整体系[10] - DeepSeek、通义千问等开源大模型与国产芯片的深度适配，正成为打破CUDA生态壁垒的突破口[10] - 当头部开源模型在国产芯片上可以“开箱即用”，应用厂商的迁移意愿会显著提升[10]