Workflow
算力格局重塑
icon
搜索文档
英伟达的“神秘芯片”背后:推理时代开启“四大算力新趋势”
华尔街见闻· 2026-03-01 21:53
行业趋势:AI算力竞争主战场从训练转向推理 - 英伟达计划发布整合Groq LPU技术的新推理芯片,OpenAI已同意成为其最大客户之一 [1] - OpenAI同时与初创公司Cerebras达成数十亿美元合作,表明AI巨头正从训练算力竞赛转向推理算力的多线布局 [1] - 申万宏源研究认为,2026年算力产业的核心关键词将是推理,Token消耗总量与技术范式将围绕此主题深度重构 [1] 推理算力发展的四大趋势 - 纯CPU部署场景增多,低成本推理需求加速算力下沉 [2] - LPU等专用架构崛起,挑战GPU在推理环节的主导地位 [2] - 国产算力芯片加速突破,供应链多元化趋势明确 [2] - 推理需求结构从“单次训练”向“海量Token消耗”转变,性价比成为核心竞争要素 [2] 推理需求爆发的驱动因素与数据表现 - 大模型货币化加速(如Claude发布行业插件)以及Agent落地提速(如openclaw、千问Agent),驱动推理需求扩张 [3] - 春节期间,国内头部大模型推理量大幅增长:豆包除夕当天推理吞吐量达633亿tokens,元宝月活跃用户达1.14亿,千问“春节大免单”活动参与人数超1.2亿 [3] - OpenRouter数据显示,2月9日至15日当周,中国模型调用量以4.12万亿Token首次超过美国模型的2.94万亿Token;16日至22日当周,中国模型调用量进一步冲高至5.16万亿Token,三周大涨127% [3] 技术架构演进:LPU崛起与芯片分工 - 英伟达斥资200亿美元获取Groq核心技术许可,标志着纯推理芯片的重要性获顶级玩家认可 [6] - LPU针对推理场景的延迟和内存带宽瓶颈优化,效率优势明显;英伟达新品可能涉及下一代Feynman架构或3D堆叠技术整合LPU [6] - 未来AI芯片将形成明确分工:训练端沿用GPU-HBM组合,推理端演进为ASIC+LPU-SRAM+SSD的组合方案 [6] 系统层面革新:三层网络架构 - 应用场景从chatbot转向Agent,推动算力系统架构向三层网络演进 [7] - 第一层快反应层由搭载SRAM的纯推理芯片提供低延迟反馈 [7] - 第二层慢思考层使用超大吞吐算力集群负责复杂逻辑推演,多核多线程CPU需求将显著增加 [7] - 第三层记忆层对应英伟达的ContextMemory System,通过DPU管理的SSD存储长期记忆 [7] - 英伟达与Meta完成首次大规模纯CPU部署,标志着公司正超越单一GPU销售模式 [7] 国产算力芯片的突破 - 新一代国产推理芯片在技术层面实现多项提升:支持FP8/MXFP8/MXFP4等低精度格式,算力达1P和2P;向量算力大幅提升;互联带宽相比前代提升2.5倍至2TB/s [9] - 芯片层面实现PD分离,推出面向Prefill的PR版本(采用低成本HBM)和面向Decode的DT版本,PR版本预计于2026年Q1推出 [9] - 供应链国产化进程加快:某头部封测企业2.5D封装业务收入从2022年的0.5亿元快速增长至2024年的18.2亿元,印证国产算力芯片供给能力提升 [9]