硅谷前沿访谈：CUDA之父复盘英伟达20年护城河，揭开万亿算力帝国的底牌

公司战略与平台演进 - 公司的核心优势已从单一的芯片领先，演进为一整套围绕训练、推理与AI工厂组织起来的生态级平台能力，其护城河在于将芯片、系统、软件和开发者拧成统一生态平台的底层逻辑[3] - 公司同时推进七款芯片和五种机架架构，目标是以前所未有的规模服务AI工厂，完成训练与推理，以推动下一代智能体AI市场[5] - 公司通过每年发布一个新平台来保持创新节奏，这种快速迭代能力是应对AI领域高速演进的关键[25] 新产品与架构整合 - 正式将LPU纳入体系，其基于SRAM可实现极快浮点计算，但单独运行万亿参数模型需要几十个机架，在成本和基础设施效率上无法支撑大规模部署[5] - 通过将GPU与LPU优势整合到同一系统，让GPU负责注意力计算，LPU负责专家模型部分的矩阵计算，使得原本需要几十个LPU机架的工作仅需两个机架即可覆盖[6] - LPU主要服务于下一代智能体的工作负载，包括万亿参数模型、几十万Token级上下文以及每秒千Token级别的服务速度，而聊天机器人、图像生成等大部分市场需求仍由成熟平台Vera Rubin承担[6] - 推出Vera CPU，强调其兼具强单核性能与多核满性能运行能力，以承担AI智能体时代的工具调用、代码编译等任务，使GPU能调度CPU共同交付完整的AI体验，公司计划将其作为独立CPU且仅提供一种SKU推向市场[7] - 通过共封装光学技术，将Spectrum-6 CPO模块与NVLink结合，显著提升带宽与功耗效率，使得在单个机架内构建由72颗GPU协同工作的“巨型GPU”系统成为可能，未来计划将NVLink扩展规模提升至1152颗GPU[31][32][33] 软件生态与CUDA成功之道 - CUDA成功的关键在于没有重新发明编程语言，而是建立在广泛使用的C语言之上并做最小必要扩展，降低了开发者学习门槛[8] - 保持向后兼容性是CUDA的基石，从GeForce 8800到Vera Rubin，确保开发者的代码在每一代新硬件上都能沿指数曲线变得更快，即使CUDA 1.0的代码在Vera Rubin上也有百万倍的性能提升[9] - 如今的CUDA已发展成一个庞大的库和生态平台，拥有超过1000个CUDA-X库和模型，涵盖从电子结构理论、SQL查询、向量搜索到量子计算模拟等多个领域，其中许多库来自开发者社区[10] - 公司内部软件工程师数量已远超硬件工程师，软件与内核工程师与芯片设计团队被组织在同一体系内协同工作，确保从芯片到整个软件栈的同步优化与迭代[17] - AI编码正在加速CUDA的采用，公司内部已有部分CUDA内核由AI工具生成，AI Agent也深度参与CUDA-X库的调用与开发，显著提升了开发效率[18][19] 开放平台与开发者策略 - 公司的目标是为开发者打造开放平台以提升其工作效率，而非追求“主导地位”，开发者可根据需求选择从底层CUDA编程、调用库到使用预训练模型等不同切入点[12][13] - 平台保持高度开放性，开发者无需锁定整套方案，可以只购买部分组件，甚至让智能体工作负载运行在别家CPU上，公司也开放了NVLink技术，允许其他CPU或XPU集成[13][14] - 公司不公开GPU指令集，对外提供的是CUDA-X软件栈，这使得优化工作可以从最底层的芯片、内核一直延伸到整个软件栈，实现真正的软硬件协同设计[15][16] - 对于LPU，公司明确最终目标是开放其编程环境，但第一代重点是与前沿AI实验室合作支持标杆模型，未来将通过CUDA或更通用的方式实现可编程性[20] 系统集成与供应链 - 将三种不同芯片整合的最大挑战在于制造和供应链，涉及CoWoS封装、内存封装以及最终的系统级集成工程[25] - 实现AI工厂大规模部署依赖全球供应链与制造能力的协同，公司已建立包括液冷连接器、NVLink连接器、冷板等在内的完整零部件生态系统[29] - 系统工程是关键，通过复用NVL72等已建立起的供应链体系、制造流程和认证标准，使得新推出的LPX机架和Vera Rubin机架在外观和基础设施要求上保持一致，便于客户组合与集成[30] - 公司已成功将超级计算机的工程方法扩展到吉瓦级数据中心规模，目前每月出货的数据中心GPU总功耗达数个吉瓦[29] 行业竞争与创新格局 - 在推理领域，公司认为无法依靠单一芯片取胜，需要LPU、GPU、CPU、NVLink、Spectrum、ConnectX、BlueField等七款芯片协同工作，才能实现高性能、高吞吐以及理想的每Token成本，从而经济高效地大规模服务新一代智能体模型[23] - 行业创新无处不在，公司的角色是吸收各领域的最佳想法并将其推向市场，以实现更高的性能、每瓦特性能及更具优势的Token成本，然后将其规模化[24] - 面对AI工作负载专业化带来的基础设施异构化趋势，公司需要在专用化与提供可编程平台之间寻找平衡，保持芯片的开放性与可重配置性，是模型和软件得以持续优化、探索不同计算模式的基础[34]