Token成本
搜索文档
黄仁勋 GTC 2026 演讲实录:所有SaaS公司都将消失;Token成本全球最低;“龙虾”创造了历史;Feynman 架构已在路上
AI前线· 2026-03-17 07:30
公司战略定位 - 公司已从单一的图形处理器供应商转型为为“数万亿美元AI基建时代”提供完整技术栈的“总包工头” [2] - 公司的核心壁垒是CUDA软件生态及其庞大的安装基数,这形成了强大的“飞轮效应”,吸引了开发者、催生新市场并持续降低算力成本 [3][6] - 公司业务覆盖AI全领域,是全球唯一能运行语言、生物、图形、视觉、机器人、边缘及云端所有AI领域的平台 [18] CUDA生态与飞轮效应 - CUDA架构诞生20年,其单指令多线程(SIMT)架构和“tiles”功能降低了编程难度,并围绕其形成了包含数千种工具、编译器、框架和库的庞大生态 [4] - 公司在全球建立了数亿块运行CUDA的GPU和计算系统,服务每一朵云、每一家计算机公司和几乎每一个行业,构成了飞轮效应的基础 [6] - 飞轮效应表现为:安装基数吸引开发者,开发者创造新算法和技术突破,催生新市场并扩大生态,进而进一步扩大安装基数,同时使计算成本持续下降 [6][7] - 庞大的安装基数使得公司愿意持续优化软件,因为每项新优化都能让数百万用户受益,这延长了硬件(如六年前出货的Ampere架构)的生命周期,甚至在云上出现定价上涨 [6][7] 数据处理基础设施变革 - AI的快速发展正推动全球数据处理体系发生结构性变革,核心是结构化数据与非结构化数据的全面加速 [8] - 企业计算长期建立在结构化数据(数据框)之上,未来AI系统和智能体也将直接访问和使用这些数据库,要求数据处理基础设施获得数量级性能提升 [10] - 全球每年产生的数据中约90%是非结构化数据(如向量数据库、PDF、视频、语音),AI的多模态理解能力正将其转化为可计算的信息资源 [12] - 为支持这一转变,公司构建了两项关键基础技术:用于加速结构化数据处理的cuDF和用于处理非结构化数据及AI数据的cuVS [13] - 这些技术正逐步融入全球数据处理生态,例如IBM正利用cuDF加速其IBM watsonx.data平台 [13] AI原生行业爆发与市场前景 - 2025年风险投资对AI初创公司的投入高达1500亿美元,创历史之最,投资规模跃升至数十亿美元级,因为这些公司普遍需要海量算力和Token [15] - AI行业爆发源于三件大事:ChatGPT开启生成式AI时代、推理AI(如o1/o3)的出现以及Claude Code开启代理(Agentic)时代 [15] - AI已从“感知”进化到“生成”、“推理”,现在可以执行高效的实际工作,“推理拐点”已经到来,过去两年计算需求增长了约10,000倍,使用量增长约100倍 [17] - 公司预见通过2027年的营收将至少达到1万亿美元,2025年是公司的“推理之年” [17] - 公司业务中,60%来自顶级云服务商,40%来自区域云、主权云、企业级服务器及工业自动化 [18] AI推理性能与成本优势 - AI推理是最困难也是最关键的商业环节,它直接决定AI服务的收入来源 [22] - 衡量AI系统效率的关键指标是每瓦特生成多少token,公司从Hopper H200到Grace Blackwell NVLink 72架构,实现了每瓦特性能提升约35倍(分析师认为接近50倍),并带来更低的token成本 [22] - 通过极致的软硬件协同设计(如NVFP4计算架构、NVLink 72、Dynamo、TensorRT-LLM等),公司构建了完整的大模型推理技术体系 [20] - 仅通过更新软件栈,就能将部分AI推理平台的生成速度从约700 token/秒提升至接近5000 token/秒,性能提升约7倍 [25] - 公司的Token成本在全球范围内具有绝对优势,即便竞争对手的架构免费,其总成本(如1GW数据中心工厂15年摊销成本高达400亿美元)也不够便宜 [25] - 数据中心正从存储和计算中心转变为生产token的“AI工厂”,token成为新的数字商品 [27] Vera Rubin AI超级计算平台 - Vera Rubin是一个全新的计算平台,由七款芯片组成,涵盖计算、网络和存储,是目前最先进的POD规模AI平台 [28] - 该平台包含40个机架、1.2千万亿个晶体管、近2万个公司芯片、1152个NVIDIA Rubin GPU、60 exaflops运算能力以及10 PB/s总扩展带宽,目前已全面投产 [28] - 该平台得到了Anthropic、OpenAI、Meta、Mistral AI及所有主要云提供商的支持 [28] - 过去十年间AI计算能力实现了约4000万倍的提升,推动数据中心向“AI超级计算机”形态演进 [30] - Vera Rubin是一套从硬件到软件完全纵向整合的计算平台,专为智能体AI设计,重新设计了计算、存储和网络架构 [31] - 平台硬件包括全新的NVIDIA Vera CPU,该CPU针对高性能、大规模数据处理和能效优化,是全球首个在数据中心采用LPDDR5内存的CPU,并已开始单独销售,有望成为一项数十亿美元级业务 [33] - 系统采用100%液冷架构,通过45°C热水散热降低制冷成本,并将整机安装时间从两天缩短至约两小时 [33] - 网络互连采用第六代NVLink架构,并推出了全球首个CPO光电共封装的NVIDIA Spectrum-X以太网交换机 [35] - 通过Kyber机架架构的Rubin Ultra Compute System,可以在一个NVLink域中连接144个GPU,形成大规模统一计算机 [35] Feynman GPU架构与深度整合 - Feynman GPU架构将采用定制化HBM技术,可能基于HBM4E增强版或定制化HBM5方案,允许将部分GPU数据处理逻辑嵌入存储底层,实现超高带宽与低延迟 [41][42] - Feynman平台将搭载代号为Rosa的全新CPU,该CPU被设计为AI智能体的编排中枢,旨在高效调度GPU、存储与网络之间的Token流动 [43] - Feynman时代标志着公司将计算、存储和封装进行了深度耦合,正将数据中心演进为一台高度集成的“巨型超级计算机” [44] AI基础设施与数字孪生平台 - 公司推出NVIDIA DSX平台,这是一个面向“AI工厂”的基础设施平台,用于数据中心的数字仿真、虚拟调试和运行期动态优化 [46][47] - 数据中心建设阶段可通过工程仿真工具进行虚拟调试,大幅缩短建设周期;运行后其数字孪生系统可作为“操作系统”,由AI智能体动态调度冷却、电力和网络系统以优化效率 [46] - NVIDIA Omniverse平台被设计用于承载全球规模的数字孪生模型 [49] - 公司的AI计算基础设施正在向太空延伸,计划开发Vera Rubin Space One轨道数据中心 [49] 智能体操作系统与软件生态 - 公司高度评价并正式支持开源项目OpenClaw,其增长速度甚至超过了Linux,被视为智能体计算机的操作系统 [52][54] - OpenClaw能够连接大语言模型,管理计算资源,调用工具和服务,具备任务调度与多模态交互能力 [54] - 公司认为未来所有科技和软件公司都需要制定“OpenClaw战略”,因为企业软件正在从传统SaaS转向以智能体为核心的AaaS(Agentic as a Service) [55] - 公司与OpenClaw作者合作推出NVIDIA NemoClaw参考架构,增加了OpenShell安全组件,提供企业级安全扩展,使企业能安全部署智能体系统 [56][58] 开放模型生态与行业应用 - 公司推进开放模型生态,目前生态已包含接近300万个开放模型,覆盖语言、视觉、生物、物理和自动驾驶等多个领域 [59] - 公司已发布多条开放模型产品线(如Nemotron、Cosmos World Foundation Model、Project GR00T等),并开放训练数据和方法,策略是“纵向整合、横向开放” [59][60] - 公司宣布成立Nemotron Coalition联盟,与多家技术公司合作共同推进模型发展 [61] - 在物理AI领域,全球几乎所有机器人公司与公司合作,公司提供从训练平台、仿真到部署的完整技术体系 [62] - 自动驾驶的“ChatGPT时刻已经到来”,车辆具备推理和语音指令执行能力,公司宣布与比亚迪、现代、日产、吉利(合计年产量约1800万辆)以及Uber成为新的Robotaxi合作伙伴 [64] - AI产业正同时经历三大变革:AI推理与AI工厂、智能体系统革命,以及物理AI与机器人时代 [65]
从“更快”到“更省”:AI下半场,TPU重构算力版图
36氪· 2026-02-09 10:47
文章核心观点 - 全球AI算力竞争格局正经历从“训练为王”到“推理为王”的范式转变,成本效率成为核心竞争焦点 [1][2] - 以谷歌TPU为代表的专用架构(ASIC)芯片,凭借在推理场景下的极致能效和成本优势,正崛起为英伟达GPU的有力挑战者,重塑算力权力版图 [1][4][7] - 中国AI芯片企业,如奕行智能,通过“对标前沿、融入生态、自主创新”的策略,在全栈AI基础设施竞争中找到了突破口 [13][26][32] 行业趋势与格局演变 - **竞争范式转移**:AI算力逻辑从“训练为王”转向“推理为王”,规模化应用阶段的核心议题是降低每次推理的成本 [1][2] - **成本驱动重塑**:行业关注点从单纯算力规模转向“Token per dollar”(每美元产出的Token量),以降低服务成本,推动AI像电力一样普及 [4] - **专用架构崛起**:在“成本为王”背景下,以谷歌TPU为代表的ASIC芯片因极致效率成为头部AI公司在英伟达之外的第二选择,标志着算力竞争格局的转折点 [4][7] - **商业部署加速**:Anthropic与博通签订价值高达210亿美元的TPU订单,标志着ASIC芯片从技术探索进入大规模商业部署阶段 [7] - **生态博弈加剧**:OpenAI仅凭“威胁购买TPU”的筹码,就迫使英伟达生态链做出让步,使其计算集群总拥有成本下降约30% [7] 技术路径与竞争优势(以谷歌TPU为例) - **硬件架构创新**:TPU采取精简架构,专注于矩阵运算,并引入独特的脉动阵列设计,让数据如流水般在计算单元间连续流动,大幅减少对寄存器的频繁读写 [8] - **能效瓶颈突破**:配合大容量片上SRAM缓存与高效数据搬运引擎DMA,TPU显著降低了“数据搬运”这一主要能耗瓶颈 [8] - **成本优势显著**:从TPU v6到TPU v7,谷歌已将每百万token的推理成本降低了约70%,TPU v7的成本已降至与英伟达GB200 NVL72(每百万token成本约0.27美元)相当甚至更优的水平 [4] - **软件生态破局**:通过“硬件进化、软件开源”策略,谷歌的XLA编译技术及OpenXLA开源项目,打通了从多框架模型到不同硬件的统一编译路径,并与Meta合作推进TorchTPU项目,实现对PyTorch的原生支持,降低用户迁移成本 [10][12] 中国企业的对标与创新(以奕行智能为例) - **硬件架构对标**:公司采用类TPU架构,其矩阵、向量、标量的精简设计完全匹配大模型计算特点,降低了传统GPGPU架构中约10%-20%的额外调度与资源分配开销 [14] - **核心引擎优化**:大尺寸矩阵运算引擎采用类TPU的双脉动流水设计,数据复用率提升数倍,并显著减少数据前处理开销 [14] - **存储与数据搬运创新**:高性能4D DMA引擎通过一次操作即可完成4D数据的整体搬移与变换,大容量片上缓存使数据访问速度相比DDR方案提升1–2个数量级,近存计算设计使Flash Attention关键算子利用率相比竞品提升4.5倍 [15] - **指令集前瞻布局**:率先引入RISC-V+RVV(向量扩展)指令集,并支持RVV 1024 bit位宽,其架构中图灵完备的RISC-V保障通用计算,模块化设计支持扩展专用AI指令 [15][16] - **产品商业化进展**:基于类TPU架构+RISC-V底座推出的国内首款RISC-V AI算力芯片Epoch系列,于2025年启动量产,在头部系统厂商、互联网、数据中心及行业客户获得商业突破,实现大规模量产出货 [16] 关键技术演进方向 - **精度与能效平衡**:“低位宽、高精度”数据格式是突破能效瓶颈的关键路径,例如TPU Tensor Core在FP8模式下可提供2倍于BF16的算力密度,TPU v7 (Ironwood)的FP8峰值算力达到4.6 PetaFLOPS,而BF16仅为2.3 PetaFLOPS [18] - **中国企业技术跟进**:奕行智能的AI芯片在国内率先支持DeepSeek所需的基于分块量化的FP8计算精度,并在新一代产品支持NVFP4、MXFP4、MXFP8、MXINT8等前沿数据格式,以高效释放算力并降低存储开销 [19] - **组合技术红利**:“拓宽数据通道”(支持RVV 1024 bit位宽)与“压缩信息体积”(支持低位宽浮点精度)的双重组合,带来了算力吞吐增长与存储成本下降 [19] 软件与生态构建 - **软件栈兼容性**:奕行智能深度融合谷歌开源的StableHLO和XLA技术,全面支持PyTorch、TensorFlow、JAX、ONNX等主流框架,其智能编译器ACE已接入OpenXLA体系,可无缝迁移至TorchTPU方案 [20] - **编程模型创新**:推出原生适配Tile(分块)的动态调度架构,通过“虚拟指令+智能编译器+硬件调度器”的闭环,将复杂指令依赖与内存管理交由硬件自动完成,打破传统静态优化的性能上限 [23] - **开发生态建设**:独创VISA虚拟指令集技术,在硬件与上层软件间建立“标准翻译桥梁”,正与Triton社区推进合作,将Triton编译流引入RISC-V DSA后端,并计划开源虚拟指令集,共同打造面向RISC-V DSA的“CUDA式”开发生态 [23][26] 全栈竞争与系统级优化 - **竞争维度升级**:AI算力竞争已从单一芯片性能较量,升级为覆盖芯片、互联、软件与系统优化的全栈基础设施生态之争 [27] - **互联技术关键性**:高速互联技术是构建算力效率护城河的关键一环,例如英伟达的NVLink技术支撑了其GB200 NVL72系统的高效Scale Up互联架构 [27] - **自主互联方案**:奕行智能自研的互联技术方案ELink,支持超大带宽与超低延迟的Scale Up扩展,其任意点对点带宽可达传统互联方案的7倍,根据不同组网方案单节点聚合带宽可达14.2倍,有效支持大模型高速推理 [27][30] - **前沿功能支持**:ELink配合交换侧,已支持前沿的“在网计算”功能,可将部分计算卸载至网络交换节点,减轻带宽负担并降低通信延迟 [28] - **协议兼容与灵活性**:ELink全面支持RoCEv2、SUE、EthLink、C-Link等主流互联协议,能与支持上述协议的设备无缝高效互联,并支持800G/400G/200G可配置以太网标准协议 [28]
从“更快”到“更省”:AI下半场,TPU重构算力版图
半导体行业观察· 2026-02-09 09:18
AI算力行业范式转变:从训练为王到推理为王 - 行业核心逻辑正发生本质改变,从以模型训练为中心的“训练为王”旧秩序,转向以规模化应用为核心的“推理为王”新时代[1] - 大模型的商业价值实现依赖于规模化推理服务,模型每天需处理数十亿次用户请求,推理成本直接决定每次API调用的利润空间[4] - 行业关注焦点已从单纯追求算力规模,转向通过提升算力利用率与能效来降低Token成本,这是实现商业价值的关键路径[37] 成本驱动下的算力竞争格局重塑 - 大模型核心商业模式是按每百万Token计费,降低单个Token成本是AI技术像电力一样渗透各行业的关键,因此市场对“Token per dollar”(每美元产出的Token量)的关注度空前增长[8] - 以谷歌TPU为代表的专用架构(ASIC)正成为强有力的挑战者,其成本优势显著。数据显示,从TPU v6到TPU v7,谷歌已将每百万token的推理成本降低了约70%[8] - 英伟达GB 200 NVL72每百万token推理成本约为0.27美元,而谷歌TPU v7在同样任务负载下,成本已降至相当甚至更优水平,标志着算力竞争格局的转折点[8] - 成本优势已成为商业博弈筹码。OpenAI仅凭“威胁购买TPU”这一策略,就迫使英伟达生态链做出让步,使其计算集群总拥有成本下降了约30%[10] - 头部AI公司开始大规模商业部署ASIC芯片,例如Anthropic与博通签订了价值高达210亿美元的TPU订单,若通过TPU v7降低30–40%单位推理成本,在其月度千亿级别API调用规模下,可能带来每年数十亿美元的利润改善[10] 谷歌TPU崛起的技术与生态逻辑 - TPU采取极其精简的专用架构设计,砍掉与AI推理无关的图形处理单元,将晶体管资源集中于大模型最核心的矩阵运算[13] - TPU引入独特的脉动阵列架构,让数据如流水般在计算单元间连续流动,大幅减少对寄存器的频繁读写,配合大容量片上SRAM缓存与高效数据搬运引擎,显著降低了“数据搬运”这一主要能耗瓶颈[13] - 为打破英伟达CUDA生态的路径依赖,谷歌采取“硬件进化、软件开源”双重攻势。其XLA编译技术及OpenXLA开源项目,打通了从多框架模型到不同硬件的统一编译路径[15] - 谷歌近期与Meta合作推进TorchTPU项目,实现TPU对PyTorch的原生支持,使开发者可将PyTorch模型无缝迁移至TPU。PyTorch在全球机器学习开发应用中占比超过80%[15] 本土芯片厂商奕行智能的技术路径与突破 - 公司硬件采用类TPU架构,其矩阵、向量、标量的精简架构设计完全匹配大模型计算特点,显著降低了传统GPGPU架构中用于调度与资源分配的额外开销(通常占总开销的10%-20%),有效提高能效比与面积效率[20] - 其大尺寸矩阵运算引擎采用类TPU的双脉动流水设计,数据复用率提升数倍,且显著减少数据前处理开销,编程更为简单易用[20] - 面对AI计算中频繁出现的4D数据,其高性能4D DMA引擎仅通过一次操作即可完成整体搬移与数据变换,相比竞品需多次操作优势明显。通过配置大容量片上缓存,其访问速度相比存放在DDR的方案提升1–2个数量级[21] - 其近存计算设计,在实测中Flash Attention关键算子利用率相比竞品提升4.5倍[21] - 公司架构率先引入RISC-V+RVV(向量扩展)指令集,并支持RVV 1024 bit位宽,精准捕捉了RISC-V向AI计算拓展的机遇。谷歌也在TPU中集成了RISC-V处理器[21] - 基于类TPU架构+RISC-V底座,公司推出了国内业界首款RISC-V AI算力芯片Epoch,该系列产品及解决方案于2025年启动量产,已在头部客户中获得商业突破并大规模量产出货[22] 精度演进:低位宽与高精度的平衡 - “低位宽、高精度”数据格式支持是行业突破能效瓶颈的关键路径。例如,TPU Tensor Core在FP8模式下可提供2倍于BF16的算力密度[25] - 以Ironwood(TPU v7)为例,其FP8峰值算力达到4.6 PetaFLOPS,而BF16仅为2.3 PetaFLOPS,显存占用和通信数据量也同步减半[25] - 奕行智能的AI芯片在国内率先支持DeepSeek所需的基于分块量化的FP8计算精度,并在新一代产品支持NVFP4、MXFP4、MXFP8、MXINT8等前沿数据格式,可高效释放算力,大幅降低存储开销[26] - “拓宽数据通道”(支持RVV 1024 bit位宽)与“压缩信息体积”(支持低位宽浮点精度)的双重组合,带来了向量算力与矩阵算力吞吐的双重增长与存储成本下降[26] 软件与生态的协同构建 - 奕行智能在软件栈深度融合谷歌开源的StableHLO和XLA技术,全面支持PyTorch、TensorFlow、JAX、ONNX等主流框架。其智能编译器ACE已接入OpenXLA体系,可无缝迁移至TorchTPU方案,让PyTorch开发者能够近乎“零代码修改”地实现模型迁移[28] - 公司推出原生适配Tile(分块)的动态调度架构,通过“虚拟指令+智能编译器+硬件调度器”的闭环,将复杂指令依赖与内存管理交由硬件自动完成,打破传统静态优化的性能上限[32] - 其独创的VISA虚拟指令集技术,在复杂硬件和上层软件之间架起“标准翻译桥梁”,降低开发门槛[32] - 在生态构建上,公司正与Triton社区推进合作,将Triton编译流引入RISC-V DSA后端,并计划开源其虚拟指令集,共同打造面向RISC-V DSA的“CUDA式”开发生态[35] 全栈竞争:从芯片到互联与系统优化 - 行业竞争已升级为覆盖芯片、互联、软件与系统优化的全栈AI基础设施生态之争[37] - 英伟达的优势不仅在于GPU与CUDA,其高速互联技术NVLink同样关键,GB200 NVL72系统正是依托NVLink实现高效的Scale Up互联架构[37] - 奕行智能自研的互联技术方案ELink,支持超大带宽与超低延迟的Scale Up扩展,是其构建算力效率护城河的关键一环[37] - ELink支持前沿的在网计算技术,可将部分计算卸载至网络交换节点,从而减轻带宽负担,降低通信延迟[38] - ELink全面支持RoCEv2、SUE、EthLink、C-Link等主流互联协议,能与支持上述协议的交换设备及芯片无缝高效互联,并支持800G/400G/200G可配置以太网标准协议[38] - ELink互联方案的任意点对点带宽(P2P带宽)可达传统互联方案的7倍,根据不同组网方案单节点聚合带宽可达14.2倍,有效支持大模型高速推理[40]