Workflow
Token成本
icon
搜索文档
从“更快”到“更省”:AI下半场,TPU重构算力版图
36氪· 2026-02-09 10:47
文章核心观点 - 全球AI算力竞争格局正经历从“训练为王”到“推理为王”的范式转变,成本效率成为核心竞争焦点 [1][2] - 以谷歌TPU为代表的专用架构(ASIC)芯片,凭借在推理场景下的极致能效和成本优势,正崛起为英伟达GPU的有力挑战者,重塑算力权力版图 [1][4][7] - 中国AI芯片企业,如奕行智能,通过“对标前沿、融入生态、自主创新”的策略,在全栈AI基础设施竞争中找到了突破口 [13][26][32] 行业趋势与格局演变 - **竞争范式转移**:AI算力逻辑从“训练为王”转向“推理为王”,规模化应用阶段的核心议题是降低每次推理的成本 [1][2] - **成本驱动重塑**:行业关注点从单纯算力规模转向“Token per dollar”(每美元产出的Token量),以降低服务成本,推动AI像电力一样普及 [4] - **专用架构崛起**:在“成本为王”背景下,以谷歌TPU为代表的ASIC芯片因极致效率成为头部AI公司在英伟达之外的第二选择,标志着算力竞争格局的转折点 [4][7] - **商业部署加速**:Anthropic与博通签订价值高达210亿美元的TPU订单,标志着ASIC芯片从技术探索进入大规模商业部署阶段 [7] - **生态博弈加剧**:OpenAI仅凭“威胁购买TPU”的筹码,就迫使英伟达生态链做出让步,使其计算集群总拥有成本下降约30% [7] 技术路径与竞争优势(以谷歌TPU为例) - **硬件架构创新**:TPU采取精简架构,专注于矩阵运算,并引入独特的脉动阵列设计,让数据如流水般在计算单元间连续流动,大幅减少对寄存器的频繁读写 [8] - **能效瓶颈突破**:配合大容量片上SRAM缓存与高效数据搬运引擎DMA,TPU显著降低了“数据搬运”这一主要能耗瓶颈 [8] - **成本优势显著**:从TPU v6到TPU v7,谷歌已将每百万token的推理成本降低了约70%,TPU v7的成本已降至与英伟达GB200 NVL72(每百万token成本约0.27美元)相当甚至更优的水平 [4] - **软件生态破局**:通过“硬件进化、软件开源”策略,谷歌的XLA编译技术及OpenXLA开源项目,打通了从多框架模型到不同硬件的统一编译路径,并与Meta合作推进TorchTPU项目,实现对PyTorch的原生支持,降低用户迁移成本 [10][12] 中国企业的对标与创新(以奕行智能为例) - **硬件架构对标**:公司采用类TPU架构,其矩阵、向量、标量的精简设计完全匹配大模型计算特点,降低了传统GPGPU架构中约10%-20%的额外调度与资源分配开销 [14] - **核心引擎优化**:大尺寸矩阵运算引擎采用类TPU的双脉动流水设计,数据复用率提升数倍,并显著减少数据前处理开销 [14] - **存储与数据搬运创新**:高性能4D DMA引擎通过一次操作即可完成4D数据的整体搬移与变换,大容量片上缓存使数据访问速度相比DDR方案提升1–2个数量级,近存计算设计使Flash Attention关键算子利用率相比竞品提升4.5倍 [15] - **指令集前瞻布局**:率先引入RISC-V+RVV(向量扩展)指令集,并支持RVV 1024 bit位宽,其架构中图灵完备的RISC-V保障通用计算,模块化设计支持扩展专用AI指令 [15][16] - **产品商业化进展**:基于类TPU架构+RISC-V底座推出的国内首款RISC-V AI算力芯片Epoch系列,于2025年启动量产,在头部系统厂商、互联网、数据中心及行业客户获得商业突破,实现大规模量产出货 [16] 关键技术演进方向 - **精度与能效平衡**:“低位宽、高精度”数据格式是突破能效瓶颈的关键路径,例如TPU Tensor Core在FP8模式下可提供2倍于BF16的算力密度,TPU v7 (Ironwood)的FP8峰值算力达到4.6 PetaFLOPS,而BF16仅为2.3 PetaFLOPS [18] - **中国企业技术跟进**:奕行智能的AI芯片在国内率先支持DeepSeek所需的基于分块量化的FP8计算精度,并在新一代产品支持NVFP4、MXFP4、MXFP8、MXINT8等前沿数据格式,以高效释放算力并降低存储开销 [19] - **组合技术红利**:“拓宽数据通道”(支持RVV 1024 bit位宽)与“压缩信息体积”(支持低位宽浮点精度)的双重组合,带来了算力吞吐增长与存储成本下降 [19] 软件与生态构建 - **软件栈兼容性**:奕行智能深度融合谷歌开源的StableHLO和XLA技术,全面支持PyTorch、TensorFlow、JAX、ONNX等主流框架,其智能编译器ACE已接入OpenXLA体系,可无缝迁移至TorchTPU方案 [20] - **编程模型创新**:推出原生适配Tile(分块)的动态调度架构,通过“虚拟指令+智能编译器+硬件调度器”的闭环,将复杂指令依赖与内存管理交由硬件自动完成,打破传统静态优化的性能上限 [23] - **开发生态建设**:独创VISA虚拟指令集技术,在硬件与上层软件间建立“标准翻译桥梁”,正与Triton社区推进合作,将Triton编译流引入RISC-V DSA后端,并计划开源虚拟指令集,共同打造面向RISC-V DSA的“CUDA式”开发生态 [23][26] 全栈竞争与系统级优化 - **竞争维度升级**:AI算力竞争已从单一芯片性能较量,升级为覆盖芯片、互联、软件与系统优化的全栈基础设施生态之争 [27] - **互联技术关键性**:高速互联技术是构建算力效率护城河的关键一环,例如英伟达的NVLink技术支撑了其GB200 NVL72系统的高效Scale Up互联架构 [27] - **自主互联方案**:奕行智能自研的互联技术方案ELink,支持超大带宽与超低延迟的Scale Up扩展,其任意点对点带宽可达传统互联方案的7倍,根据不同组网方案单节点聚合带宽可达14.2倍,有效支持大模型高速推理 [27][30] - **前沿功能支持**:ELink配合交换侧,已支持前沿的“在网计算”功能,可将部分计算卸载至网络交换节点,减轻带宽负担并降低通信延迟 [28] - **协议兼容与灵活性**:ELink全面支持RoCEv2、SUE、EthLink、C-Link等主流互联协议,能与支持上述协议的设备无缝高效互联,并支持800G/400G/200G可配置以太网标准协议 [28]