硅谷前沿访谈:CUDA之父复盘英伟达20年护城河,揭开万亿算力帝国的底牌

公司战略与平台演进 - 公司的核心优势已从单一的芯片领先,演进为一整套围绕训练、推理与AI工厂组织起来的生态级平台能力,其护城河在于将芯片、系统、软件和开发者拧成统一生态平台的底层逻辑[3] - 公司同时推进七款芯片和五种机架架构,目标是以前所未有的规模服务AI工厂,完成训练与推理,以推动下一代智能体AI市场[5] - 公司通过每年发布一个新平台来保持创新节奏,这种快速迭代能力是应对AI领域高速演进的关键[25] 新产品与架构整合 - 正式将LPU纳入体系,其基于SRAM可实现极快浮点计算,但单独运行万亿参数模型需要几十个机架,在成本和基础设施效率上无法支撑大规模部署[5] - 通过将GPU与LPU优势整合到同一系统,让GPU负责注意力计算,LPU负责专家模型部分的矩阵计算,使得原本需要几十个LPU机架的工作仅需两个机架即可覆盖[6] - LPU主要服务于下一代智能体的工作负载,包括万亿参数模型、几十万Token级上下文以及每秒千Token级别的服务速度,而聊天机器人、图像生成等大部分市场需求仍由成熟平台Vera Rubin承担[6] - 推出Vera CPU,强调其兼具强单核性能与多核满性能运行能力,以承担AI智能体时代的工具调用、代码编译等任务,使GPU能调度CPU共同交付完整的AI体验,公司计划将其作为独立CPU且仅提供一种SKU推向市场[7] - 通过共封装光学技术,将Spectrum-6 CPO模块与NVLink结合,显著提升带宽与功耗效率,使得在单个机架内构建由72颗GPU协同工作的“巨型GPU”系统成为可能,未来计划将NVLink扩展规模提升至1152颗GPU[31][32][33] 软件生态与CUDA成功之道 - CUDA成功的关键在于没有重新发明编程语言,而是建立在广泛使用的C语言之上并做最小必要扩展,降低了开发者学习门槛[8] - 保持向后兼容性是CUDA的基石,从GeForce 8800到Vera Rubin,确保开发者的代码在每一代新硬件上都能沿指数曲线变得更快,即使CUDA 1.0的代码在Vera Rubin上也有百万倍的性能提升[9] - 如今的CUDA已发展成一个庞大的库和生态平台,拥有超过1000个CUDA-X库和模型,涵盖从电子结构理论、SQL查询、向量搜索到量子计算模拟等多个领域,其中许多库来自开发者社区[10] - 公司内部软件工程师数量已远超硬件工程师,软件与内核工程师与芯片设计团队被组织在同一体系内协同工作,确保从芯片到整个软件栈的同步优化与迭代[17] - AI编码正在加速CUDA的采用,公司内部已有部分CUDA内核由AI工具生成,AI Agent也深度参与CUDA-X库的调用与开发,显著提升了开发效率[18][19] 开放平台与开发者策略 - 公司的目标是为开发者打造开放平台以提升其工作效率,而非追求“主导地位”,开发者可根据需求选择从底层CUDA编程、调用库到使用预训练模型等不同切入点[12][13] - 平台保持高度开放性,开发者无需锁定整套方案,可以只购买部分组件,甚至让智能体工作负载运行在别家CPU上,公司也开放了NVLink技术,允许其他CPU或XPU集成[13][14] - 公司不公开GPU指令集,对外提供的是CUDA-X软件栈,这使得优化工作可以从最底层的芯片、内核一直延伸到整个软件栈,实现真正的软硬件协同设计[15][16] - 对于LPU,公司明确最终目标是开放其编程环境,但第一代重点是与前沿AI实验室合作支持标杆模型,未来将通过CUDA或更通用的方式实现可编程性[20] 系统集成与供应链 - 将三种不同芯片整合的最大挑战在于制造和供应链,涉及CoWoS封装、内存封装以及最终的系统级集成工程[25] - 实现AI工厂大规模部署依赖全球供应链与制造能力的协同,公司已建立包括液冷连接器、NVLink连接器、冷板等在内的完整零部件生态系统[29] - 系统工程是关键,通过复用NVL72等已建立起的供应链体系、制造流程和认证标准,使得新推出的LPX机架和Vera Rubin机架在外观和基础设施要求上保持一致,便于客户组合与集成[30] - 公司已成功将超级计算机的工程方法扩展到吉瓦级数据中心规模,目前每月出货的数据中心GPU总功耗达数个吉瓦[29] 行业竞争与创新格局 - 在推理领域,公司认为无法依靠单一芯片取胜,需要LPU、GPU、CPU、NVLink、Spectrum、ConnectX、BlueField等七款芯片协同工作,才能实现高性能、高吞吐以及理想的每Token成本,从而经济高效地大规模服务新一代智能体模型[23] - 行业创新无处不在,公司的角色是吸收各领域的最佳想法并将其推向市场,以实现更高的性能、每瓦特性能及更具优势的Token成本,然后将其规模化[24] - 面对AI工作负载专业化带来的基础设施异构化趋势,公司需要在专用化与提供可编程平台之间寻找平衡,保持芯片的开放性与可重配置性,是模型和软件得以持续优化、探索不同计算模式的基础[34]

硅谷前沿访谈:CUDA之父复盘英伟达20年护城河,揭开万亿算力帝国的底牌 - Reportify