文章核心观点 - 英伟达CEO黄仁勋在GTC大会的演讲核心并非仅是提出万亿美元的AI基础设施需求预期,而是阐述了一套新的商业逻辑:数据中心正从训练模型的场所转变为生产Token的工厂,这背后是AI推理需求爆发、Token分层定价以及硬件架构革新共同驱动的商业模式变革 [1][4] GTC大会与市场反应 - 2025年3月16日至19日,英伟达在美国圣何塞举行GTC大会,黄仁勋发表超过两小时主题演讲 [2] - 黄仁勋预测,到2027年全球AI基础设施相关需求将达到1万亿美元,并认为实际需求可能更高,产品将供不应求 [2] - 此预测发布后,英伟达美股股价瞬时跳涨超过4% [2] - 然而A股算力产业链股票在次日开盘后集体下跌,天孚通信收盘跌幅超10%,长光华芯收盘跌幅达9.72%,多数龙头股回吐了近5日涨幅 [2] - 市场落差源于时间尺度差异,黄仁勋讲的是未来需求,且下一代Feynman芯片架构要到2028年才上市,同时A股电子板块当时平均市盈率约82倍,市场存在估值担忧 [3] Token工厂:新的商业逻辑 - Token是大语言模型处理信息的基本单位,一个汉字大约对应一到两个Token [6] - AI消耗Token的量级自2022年底ChatGPT上线后经历了数次跳跃:ChatGPT使AI学会生成内容;o1模型使AI学会推理和反思;Claude Code使AI能执行复杂任务,单任务消耗Token量比简单对话多出好几个数量级 [7] - AI工作分为训练和推理两个阶段,过去全球购买GPU主要用于训练,现在重心已向推理转移 [8] - 推理服务商的业务规模过去一年增长了100倍,国内推理服务器在出货金额上占比已接近60% [8] - Token尚未形成统一市场定价体系,黄仁勋提出了未来可能出现的五档分层定价:免费层、中等层(每百万Token约3美元)、高级层(每百万Token约6美元)、高速层(每百万Token约45美元)、顶级层(每百万Token约150美元) [9] - Token价格取决于模型大小、上下文长度和响应速度,顶级层定价对应的是AI能处理此前无法完成的任务,例如一次性读完一整份合同或整个代码库 [9] 数据中心经济模型的变革 - 数据中心受电力限制,在固定功率下,单位电力产出Token最多的运营者生产成本最低 [11] - 黄仁勋展示了一组数据:同一个1吉瓦(GW)的数据中心,使用当前Blackwell架构年营收约300亿美元,换用新一代Vera Rubin架构约1500亿美元,再加上Groq LPU推理加速器后可达约3000亿美元,同一数据中心换设备后营收可相差10倍 [11] - 英伟达2026财年全年营收2159亿美元,其中数据中心业务贡献1937亿美元 [12] - 万亿美元需求预期的逻辑在于:客户现有数据中心未被充分利用,换上新一代设备后,在同等电力条件下可通过生产更多、更贵的Token使收入翻数倍 [12] - 未来企业CEO将密切关注其“Token工厂”的效能,因为这直接关系到收入 [13] - 随着工程师日常广泛使用AI工具,企业为员工使用AI的开销将大到需要单独列预算,黄仁勋预测未来每位工程师入职时获得的年度Token预算金额大约相当于其基础薪资的一半 [13][14][15] 硬件架构:Vera Rubin平台与Groq LPU - GTC大会上正式发布了Vera Rubin平台,这是一个完整的系统而非单一芯片,采用百分之百液冷设计,安装时间从两天压缩到两小时 [17] - Vera Rubin核心机架NVL72集成72颗Rubin GPU和36颗Vera CPU,通过NVLink 6相连,与上一代Blackwell相比,每瓦推理吞吐量最高提升10倍,单Token成本降至十分之一 [17] - 同时发布了全新88核Vera CPU,为AI智能体场景优化,微软CEO确认首批Vera Rubin机架已在Azure上运行 [18] - Vera Rubin在处理高并发Token生成(如每秒超过400个Token)时存在带宽短板,此缺口由Groq公司的LPU技术补足 [19] - Groq LPU与GPU是两种不同的芯片:GPU内存大(如Rubin GPU有288GB)、算力强,适合复杂计算;LPU内存小(仅500MB)但读写速度极快,在生成Token的速度和延迟上远优于GPU [19] - 英伟达通过Dynamo推理调度软件实现“解耦推理”:将需要大量算力和内存的上下文理解交给Vera Rubin处理,将对延迟敏感的Token生成交给Groq LPU,两者通过以太网协同工作,延迟减少约一半 [19] - 这套组合在高速层(45美元/百万Token)和顶级层(150美元/百万Token)实现了相比上一代35倍的性能提升 [20] - 从更长维度看,同一个1GW数据中心,Token生成速率可在两年内从每秒2200万提升到7亿 [20] - 黄仁勋建议客户:若以高吞吐批量推理为主,可完全使用Vera Rubin;若有大量编程、实时交互需求,可将25%的数据中心算力配置Groq LPU [20] - Groq 3 LPU由三星代工,已在量产,预计2025年第三季度出货 [21] 软件生态与未来路线 - 软件方面,英伟达发布了企业级智能体平台NemoClaw,为近期火爆的开源项目OpenClaw增加企业安全层 [21] - OpenClaw在几周内成为GitHub上增长最快的开源项目,黄仁勋将其地位抬升至与Linux同级,称其为智能体计算机的操作系统 [21] - Adobe、Salesforce、SAP等17家企业软件公司已宣布采用英伟达的Agent Toolkit [21] - 路线图方面,英伟达预告了2028年上市的下一代Feynman架构,首次同时支持铜缆和CPO(共封装光学)两种互连方式 [21] - 2025年是CUDA诞生20周年,英伟达目前60%的业务来自全球前五大云服务商,另外40%分布在主权AI、企业、工业、机器人等领域 [21] 其他领域合作 - GTC大会上,英伟达宣布了与Uber、比亚迪、吉利、现代、日产、五十铃在自动驾驶领域的合作 [22] - 受此消息推动,港股汽车板块在3月17日集体走强,吉利汽车盘中一度涨超5%,最终收涨4.55% [22]
黄仁勋的Token经济学
经济观察报·2026-03-17 22:23