公司核心战略与成功之道 - 公司的成功很大程度上归功于其领导者作为工程师和创新者所展现出的强大意志力和卓越决策 [2] - 公司的目标已从打造最好的GPU扩展到对GPU、CPU、内存、网络、存储、电源散热、软件、机架乃至整个数据中心进行极致的协同设计和机架级工程 [2] - 极致协同设计的必要性源于需要解决的问题已无法用单台计算机或单个GPU加速解决 目标是实现比单纯增加计算机数量更快的速度提升 例如增加1万台计算机但希望速度提升一百万倍 [2] - 极致协同设计涉及对整个软件栈进行优化 从架构、芯片、系统、系统软件、算法到应用程序 同时还需协同设计CPU、GPU、网络芯片、交换机、电源和散热等所有组件 [4] - 公司的组织架构直接反映了其产品目标和所处的技术环境 旨在成为生产产品的机器和系统 [4] - 公司采用独特的协作模式 领导者有约60名直接下属且几乎都与工程相关 会议避免一对一 而是集体讨论解决问题 任何关于特定组件的讨论都向所有相关专家开放 鼓励跨领域提出意见 [5] 从加速器到计算平台的演进 - 公司最初是一家加速器公司 但意识到高度专业化会限制市场规模和研发能力 从而影响在计算领域的影响力 [6] - 公司战略是找到一条狭窄的道路 逐步拓展计算能力 同时不放弃核心的专业优势 [6] - 迈向计算平台的关键第一步是发明了可编程像素着色器 第二步是创建了符合IEEE标准的FP32着色器 这吸引了流处理器等领域的开发者 [7] - 为了成为一家计算机公司并建立自己的计算架构 公司做出了一个关键的战略决策:将CUDA集成到面向消费市场的GeForce显卡中 尽管这大幅增加了成本并侵蚀了利润 [7] - 将CUDA集成到GeForce的决定使公司市值从约80亿美元一度跌至15亿美元左右 但最终被证明是公司历史上最英明的决定之一 为人工智能基础设施奠定了基石 [10] - 该决策基于一个核心洞察:计算平台的成功关键在于安装基础(用户群)而非单纯的架构优劣 CUDA通过GeForce建立了庞大的用户基础 [8][9] - 公司通过向大学赠书、开课等方式推广CUDA 最终研究人员和科学家在GeForce显卡上发现了CUDA 并利用其搭建集群 为深度学习革命奠定了基础 [10] 领导力与决策哲学 - 领导者的许多想法源于好奇心 会形成一套逻辑体系让自己确信某个未来一定会发生 并坚信不疑 [11] - 领导者不采用突然宣布重大变革的方式 而是通过日常沟通 利用外部信息、新见解和工程突破 逐步塑造董事会、管理团队和员工的信念体系 当正式宣布时 大家已基本认同 [12] - 这种“幕后领导”的方式也应用于影响行业合作伙伴 例如在GTC主题演讲中塑造行业信念 为产品发布铺平道路 [13] - 公司是一家计算平台公司 采用垂直整合方式设计优化 但将平台的每一层都开放给其他公司集成 因此需要先说服合作伙伴才能开展工作 [14] - 领导者采用名为“光速”的思维方法论 在做任何事前先确定所有事物的物理极限 并用这些极限来测试和权衡设计 追求从第一性原理出发 而非仅仅持续改进 [40][41] 人工智能扩展定律与未来展望 - 公司相信并持续关注多个维度的扩展定律 包括训练前、训练后、测试时间和智能体扩展 [14][15] - 最初人们担心高质量数据量会限制预训练扩展 但公司认为用于训练的数据量将持续扩大 其中很多将是合成数据 最终训练将受限于计算能力而非数据 [15][16] - 公司认为推理(测试时间)是比预训练更困难的计算任务 涉及思考、推理、计划和搜索 因此需要巨大的计算量 [17] - 下一个扩展定律是智能体扩展定律 智能体系统可以派生出大量子智能体 产生更多数据和经验 形成从数据到预训练、后训练、测试再到应用的循环 智能发展的根本限制是计算能力 [18][19] - 为了预测硬件需求 公司进行内部研究和模型开发 并与全球所有人工智能公司合作 了解挑战 同时保持CUDA架构在专业化和灵活性之间的平衡以适应算法变化 [19][20] - 公司快速迭代硬件架构以跟上算法发展 例如为混合专家模型推出NVLink 72 Grace Blackwell机架专为处理LLM设计 而一年后的Vera Rubin机架则专为运行智能体及与工具交互设计 [21] 供应链、能源与工程挑战 - 公司历史上在保持增长的同时还能加速增长 在人工智能计算领域的市场份额正在扩大 因此供应链(包括上游和下游)至关重要 [28] - 领导者花费大量时间与IT行业上下游基础设施公司的CEO们沟通 解释增长动力和未来方向 以指导他们的投资决策 [28] - 公司成功说服了DRAM行业的CEO投资研发HBM内存 尽管其最初使用率很低 并推动将手机低功耗存储器改造用于数据中心超级计算机 [29][30] - 公司最新的机架系统包含130万个组件 由约200家供应商提供技术支持 [30] - 随着系统架构演进 公司将数据中心的超级计算机集成转移到了供应链中的制造环节 这要求供应链增加电力供应以完成制造和测试 [31] - 公司认为电网在99%的时间里有过剩的闲置电力 提议通过设计能够优雅降级的数据中心 利用这些剩余电力 在电网需要时降低数据中心负载 [34][35] - 解决电力瓶颈需要提高每瓦每秒产生的token数量以提升效率 同时公司也致力于降低token成本 其每年下降一个数量级 [28] 竞争护城河与生态系统 - 公司最重要的资产是其计算平台的安装基础 尤其是CUDA的安装基础 这源于公司长期持续的投入、数百万开发者的信任以及庞大的软件库 [56] - 开发者选择CUDA是因为其能带来显著的性能提升(例如十倍) 并能触及数亿用户和计算机 遍布所有云平台、计算机公司、行业和国家 [56] - 公司不仅垂直整合了复杂的系统 还将其水平整合到每一家公司的计算机中 与谷歌云、亚马逊云、Azure、CoreWeave等广泛合作 生态系统覆盖几乎所有行业 [57] - 公司的业务单元已从GPU演进到计算机、集群 再到完整的AI工厂 领导者对未来产品的构想是巨型千兆瓦级装置 [58] - 公司已开始涉足太空计算 GPU已进入太空 用于卫星边缘的AI成像处理 [60] 市场前景与增长潜力 - 计算范式已从基于检索的文件系统转变为基于生成的、需要实时处理token的上下文感知系统 新范式需要比旧世界多得多的处理能力 [63] - 计算机正从“仓库”转变为“工厂” 其产出的token是能创造收入和利润的商品 智能成为一种可扩展的产品 不同价值的token将出现细分市场 [64] - 有人愿意为每百万个token支付1000美元的想法指日可待 [65] - 世界GDP将因生产力提高而加速增长 用于计算的GDP占比可能比过去增长100倍 因为计算已成为产品创造而不仅仅是存储 [65] - 公司有可能在不久的将来成为一家年收入3万亿美元的公司 这不受物理限制 且其供应链生态系统有能力支持这种规模扩张 [66] - 公司增长的最大挑战在于其并非从竞争对手那里抢占市场份额 而是在开拓一个全新的、巨大的市场 这需要行业对未来的想象力 [66]
黄仁勋三万字采访:展望10万亿市值,3万亿营收