AI算力行业范式转变:从训练为王到推理为王 - 行业核心逻辑正发生本质改变,从以模型训练为中心的“训练为王”旧秩序,转向以规模化应用为核心的“推理为王”新时代[1] - 大模型的商业价值实现依赖于规模化推理服务,模型每天需处理数十亿次用户请求,推理成本直接决定每次API调用的利润空间[4] - 行业关注焦点已从单纯追求算力规模,转向通过提升算力利用率与能效来降低Token成本,这是实现商业价值的关键路径[37] 成本驱动下的算力竞争格局重塑 - 大模型核心商业模式是按每百万Token计费,降低单个Token成本是AI技术像电力一样渗透各行业的关键,因此市场对“Token per dollar”(每美元产出的Token量)的关注度空前增长[8] - 以谷歌TPU为代表的专用架构(ASIC)正成为强有力的挑战者,其成本优势显著。数据显示,从TPU v6到TPU v7,谷歌已将每百万token的推理成本降低了约70%[8] - 英伟达GB 200 NVL72每百万token推理成本约为0.27美元,而谷歌TPU v7在同样任务负载下,成本已降至相当甚至更优水平,标志着算力竞争格局的转折点[8] - 成本优势已成为商业博弈筹码。OpenAI仅凭“威胁购买TPU”这一策略,就迫使英伟达生态链做出让步,使其计算集群总拥有成本下降了约30%[10] - 头部AI公司开始大规模商业部署ASIC芯片,例如Anthropic与博通签订了价值高达210亿美元的TPU订单,若通过TPU v7降低30–40%单位推理成本,在其月度千亿级别API调用规模下,可能带来每年数十亿美元的利润改善[10] 谷歌TPU崛起的技术与生态逻辑 - TPU采取极其精简的专用架构设计,砍掉与AI推理无关的图形处理单元,将晶体管资源集中于大模型最核心的矩阵运算[13] - TPU引入独特的脉动阵列架构,让数据如流水般在计算单元间连续流动,大幅减少对寄存器的频繁读写,配合大容量片上SRAM缓存与高效数据搬运引擎,显著降低了“数据搬运”这一主要能耗瓶颈[13] - 为打破英伟达CUDA生态的路径依赖,谷歌采取“硬件进化、软件开源”双重攻势。其XLA编译技术及OpenXLA开源项目,打通了从多框架模型到不同硬件的统一编译路径[15] - 谷歌近期与Meta合作推进TorchTPU项目,实现TPU对PyTorch的原生支持,使开发者可将PyTorch模型无缝迁移至TPU。PyTorch在全球机器学习开发应用中占比超过80%[15] 本土芯片厂商奕行智能的技术路径与突破 - 公司硬件采用类TPU架构,其矩阵、向量、标量的精简架构设计完全匹配大模型计算特点,显著降低了传统GPGPU架构中用于调度与资源分配的额外开销(通常占总开销的10%-20%),有效提高能效比与面积效率[20] - 其大尺寸矩阵运算引擎采用类TPU的双脉动流水设计,数据复用率提升数倍,且显著减少数据前处理开销,编程更为简单易用[20] - 面对AI计算中频繁出现的4D数据,其高性能4D DMA引擎仅通过一次操作即可完成整体搬移与数据变换,相比竞品需多次操作优势明显。通过配置大容量片上缓存,其访问速度相比存放在DDR的方案提升1–2个数量级[21] - 其近存计算设计,在实测中Flash Attention关键算子利用率相比竞品提升4.5倍[21] - 公司架构率先引入RISC-V+RVV(向量扩展)指令集,并支持RVV 1024 bit位宽,精准捕捉了RISC-V向AI计算拓展的机遇。谷歌也在TPU中集成了RISC-V处理器[21] - 基于类TPU架构+RISC-V底座,公司推出了国内业界首款RISC-V AI算力芯片Epoch,该系列产品及解决方案于2025年启动量产,已在头部客户中获得商业突破并大规模量产出货[22] 精度演进:低位宽与高精度的平衡 - “低位宽、高精度”数据格式支持是行业突破能效瓶颈的关键路径。例如,TPU Tensor Core在FP8模式下可提供2倍于BF16的算力密度[25] - 以Ironwood(TPU v7)为例,其FP8峰值算力达到4.6 PetaFLOPS,而BF16仅为2.3 PetaFLOPS,显存占用和通信数据量也同步减半[25] - 奕行智能的AI芯片在国内率先支持DeepSeek所需的基于分块量化的FP8计算精度,并在新一代产品支持NVFP4、MXFP4、MXFP8、MXINT8等前沿数据格式,可高效释放算力,大幅降低存储开销[26] - “拓宽数据通道”(支持RVV 1024 bit位宽)与“压缩信息体积”(支持低位宽浮点精度)的双重组合,带来了向量算力与矩阵算力吞吐的双重增长与存储成本下降[26] 软件与生态的协同构建 - 奕行智能在软件栈深度融合谷歌开源的StableHLO和XLA技术,全面支持PyTorch、TensorFlow、JAX、ONNX等主流框架。其智能编译器ACE已接入OpenXLA体系,可无缝迁移至TorchTPU方案,让PyTorch开发者能够近乎“零代码修改”地实现模型迁移[28] - 公司推出原生适配Tile(分块)的动态调度架构,通过“虚拟指令+智能编译器+硬件调度器”的闭环,将复杂指令依赖与内存管理交由硬件自动完成,打破传统静态优化的性能上限[32] - 其独创的VISA虚拟指令集技术,在复杂硬件和上层软件之间架起“标准翻译桥梁”,降低开发门槛[32] - 在生态构建上,公司正与Triton社区推进合作,将Triton编译流引入RISC-V DSA后端,并计划开源其虚拟指令集,共同打造面向RISC-V DSA的“CUDA式”开发生态[35] 全栈竞争:从芯片到互联与系统优化 - 行业竞争已升级为覆盖芯片、互联、软件与系统优化的全栈AI基础设施生态之争[37] - 英伟达的优势不仅在于GPU与CUDA,其高速互联技术NVLink同样关键,GB200 NVL72系统正是依托NVLink实现高效的Scale Up互联架构[37] - 奕行智能自研的互联技术方案ELink,支持超大带宽与超低延迟的Scale Up扩展,是其构建算力效率护城河的关键一环[37] - ELink支持前沿的在网计算技术,可将部分计算卸载至网络交换节点,从而减轻带宽负担,降低通信延迟[38] - ELink全面支持RoCEv2、SUE、EthLink、C-Link等主流互联协议,能与支持上述协议的交换设备及芯片无缝高效互联,并支持800G/400G/200G可配置以太网标准协议[38] - ELink互联方案的任意点对点带宽(P2P带宽)可达传统互联方案的7倍,根据不同组网方案单节点聚合带宽可达14.2倍,有效支持大模型高速推理[40]
从“更快”到“更省”:AI下半场,TPU重构算力版图