算力格局重塑 - 财报，业绩电话会，研报，新闻

算力格局重塑

搜索文档

华尔街见闻· 2026-03-01 21:53

行业趋势：AI算力竞争主战场从训练转向推理 - 英伟达计划发布整合Groq LPU技术的新推理芯片，OpenAI已同意成为其最大客户之一 [1] - OpenAI同时与初创公司Cerebras达成数十亿美元合作，表明AI巨头正从训练算力竞赛转向推理算力的多线布局 [1] - 申万宏源研究认为，2026年算力产业的核心关键词将是推理，Token消耗总量与技术范式将围绕此主题深度重构 [1] 推理算力发展的四大趋势 - 纯CPU部署场景增多，低成本推理需求加速算力下沉 [2] - LPU等专用架构崛起，挑战GPU在推理环节的主导地位 [2] - 国产算力芯片加速突破，供应链多元化趋势明确 [2] - 推理需求结构从“单次训练”向“海量Token消耗”转变，性价比成为核心竞争要素 [2] 推理需求爆发的驱动因素与数据表现 - 大模型货币化加速（如Claude发布行业插件）以及Agent落地提速（如openclaw、千问Agent），驱动推理需求扩张 [3] - 春节期间，国内头部大模型推理量大幅增长：豆包除夕当天推理吞吐量达633亿tokens，元宝月活跃用户达1.14亿，千问“春节大免单”活动参与人数超1.2亿 [3] - OpenRouter数据显示，2月9日至15日当周，中国模型调用量以4.12万亿Token首次超过美国模型的2.94万亿Token；16日至22日当周，中国模型调用量进一步冲高至5.16万亿Token，三周大涨127% [3] 技术架构演进：LPU崛起与芯片分工 - 英伟达斥资200亿美元获取Groq核心技术许可，标志着纯推理芯片的重要性获顶级玩家认可 [6] - LPU针对推理场景的延迟和内存带宽瓶颈优化，效率优势明显；英伟达新品可能涉及下一代Feynman架构或3D堆叠技术整合LPU [6] - 未来AI芯片将形成明确分工：训练端沿用GPU-HBM组合，推理端演进为ASIC+LPU-SRAM+SSD的组合方案 [6] 系统层面革新：三层网络架构 - 应用场景从chatbot转向Agent，推动算力系统架构向三层网络演进 [7] - 第一层快反应层由搭载SRAM的纯推理芯片提供低延迟反馈 [7] - 第二层慢思考层使用超大吞吐算力集群负责复杂逻辑推演，多核多线程CPU需求将显著增加 [7] - 第三层记忆层对应英伟达的ContextMemory System，通过DPU管理的SSD存储长期记忆 [7] - 英伟达与Meta完成首次大规模纯CPU部署，标志着公司正超越单一GPU销售模式 [7] 国产算力芯片的突破 - 新一代国产推理芯片在技术层面实现多项提升：支持FP8/MXFP8/MXFP4等低精度格式，算力达1P和2P；向量算力大幅提升；互联带宽相比前代提升2.5倍至2TB/s [9] - 芯片层面实现PD分离，推出面向Prefill的PR版本（采用低成本HBM）和面向Decode的DT版本，PR版本预计于2026年Q1推出 [9] - 供应链国产化进程加快：某头部封测企业2.5D封装业务收入从2022年的0.5亿元快速增长至2024年的18.2亿元，印证国产算力芯片供给能力提升 [9]