黄仁勋的Token经济学

文章核心观点 - 英伟达CEO黄仁勋在GTC大会的演讲核心并非仅是提出万亿美元的AI基础设施需求预期，而是阐述了一套新的商业逻辑：数据中心正从训练模型的场所转变为生产Token的工厂，这背后是AI推理需求爆发、Token分层定价以及硬件架构革新共同驱动的商业模式变革 [1][4] GTC大会与市场反应 - 2025年3月16日至19日，英伟达在美国圣何塞举行GTC大会，黄仁勋发表超过两小时主题演讲 [2] - 黄仁勋预测，到2027年全球AI基础设施相关需求将达到1万亿美元，并认为实际需求可能更高，产品将供不应求 [2] - 此预测发布后，英伟达美股股价瞬时跳涨超过4% [2] - 然而A股算力产业链股票在次日开盘后集体下跌，天孚通信收盘跌幅超10%，长光华芯收盘跌幅达9.72%，多数龙头股回吐了近5日涨幅 [2] - 市场落差源于时间尺度差异，黄仁勋讲的是未来需求，且下一代Feynman芯片架构要到2028年才上市，同时A股电子板块当时平均市盈率约82倍，市场存在估值担忧 [3] Token工厂：新的商业逻辑 - Token是大语言模型处理信息的基本单位，一个汉字大约对应一到两个Token [6] - AI消耗Token的量级自2022年底ChatGPT上线后经历了数次跳跃：ChatGPT使AI学会生成内容；o1模型使AI学会推理和反思；Claude Code使AI能执行复杂任务，单任务消耗Token量比简单对话多出好几个数量级 [7] - AI工作分为训练和推理两个阶段，过去全球购买GPU主要用于训练，现在重心已向推理转移 [8] - 推理服务商的业务规模过去一年增长了100倍，国内推理服务器在出货金额上占比已接近60% [8] - Token尚未形成统一市场定价体系，黄仁勋提出了未来可能出现的五档分层定价：免费层、中等层（每百万Token约3美元）、高级层（每百万Token约6美元）、高速层（每百万Token约45美元）、顶级层（每百万Token约150美元） [9] - Token价格取决于模型大小、上下文长度和响应速度，顶级层定价对应的是AI能处理此前无法完成的任务，例如一次性读完一整份合同或整个代码库 [9] 数据中心经济模型的变革 - 数据中心受电力限制，在固定功率下，单位电力产出Token最多的运营者生产成本最低 [11] - 黄仁勋展示了一组数据：同一个1吉瓦（GW）的数据中心，使用当前Blackwell架构年营收约300亿美元，换用新一代Vera Rubin架构约1500亿美元，再加上Groq LPU推理加速器后可达约3000亿美元，同一数据中心换设备后营收可相差10倍 [11] - 英伟达2026财年全年营收2159亿美元，其中数据中心业务贡献1937亿美元 [12] - 万亿美元需求预期的逻辑在于：客户现有数据中心未被充分利用，换上新一代设备后，在同等电力条件下可通过生产更多、更贵的Token使收入翻数倍 [12] - 未来企业CEO将密切关注其“Token工厂”的效能，因为这直接关系到收入 [13] - 随着工程师日常广泛使用AI工具，企业为员工使用AI的开销将大到需要单独列预算，黄仁勋预测未来每位工程师入职时获得的年度Token预算金额大约相当于其基础薪资的一半 [13][14][15] 硬件架构：Vera Rubin平台与Groq LPU - GTC大会上正式发布了Vera Rubin平台，这是一个完整的系统而非单一芯片，采用百分之百液冷设计，安装时间从两天压缩到两小时 [17] - Vera Rubin核心机架NVL72集成72颗Rubin GPU和36颗Vera CPU，通过NVLink 6相连，与上一代Blackwell相比，每瓦推理吞吐量最高提升10倍，单Token成本降至十分之一 [17] - 同时发布了全新88核Vera CPU，为AI智能体场景优化，微软CEO确认首批Vera Rubin机架已在Azure上运行 [18] - Vera Rubin在处理高并发Token生成（如每秒超过400个Token）时存在带宽短板，此缺口由Groq公司的LPU技术补足 [19] - Groq LPU与GPU是两种不同的芯片：GPU内存大（如Rubin GPU有288GB）、算力强，适合复杂计算；LPU内存小（仅500MB）但读写速度极快，在生成Token的速度和延迟上远优于GPU [19] - 英伟达通过Dynamo推理调度软件实现“解耦推理”：将需要大量算力和内存的上下文理解交给Vera Rubin处理，将对延迟敏感的Token生成交给Groq LPU，两者通过以太网协同工作，延迟减少约一半 [19] - 这套组合在高速层（45美元/百万Token）和顶级层（150美元/百万Token）实现了相比上一代35倍的性能提升 [20] - 从更长维度看，同一个1GW数据中心，Token生成速率可在两年内从每秒2200万提升到7亿 [20] - 黄仁勋建议客户：若以高吞吐批量推理为主，可完全使用Vera Rubin；若有大量编程、实时交互需求，可将25%的数据中心算力配置Groq LPU [20] - Groq 3 LPU由三星代工，已在量产，预计2025年第三季度出货 [21] 软件生态与未来路线 - 软件方面，英伟达发布了企业级智能体平台NemoClaw，为近期火爆的开源项目OpenClaw增加企业安全层 [21] - OpenClaw在几周内成为GitHub上增长最快的开源项目，黄仁勋将其地位抬升至与Linux同级，称其为智能体计算机的操作系统 [21] - Adobe、Salesforce、SAP等17家企业软件公司已宣布采用英伟达的Agent Toolkit [21] - 路线图方面，英伟达预告了2028年上市的下一代Feynman架构，首次同时支持铜缆和CPO（共封装光学）两种互连方式 [21] - 2025年是CUDA诞生20周年，英伟达目前60%的业务来自全球前五大云服务商，另外40%分布在主权AI、企业、工业、机器人等领域 [21] 其他领域合作 - GTC大会上，英伟达宣布了与Uber、比亚迪、吉利、现代、日产、五十铃在自动驾驶领域的合作 [22] - 受此消息推动，港股汽车板块在3月17日集体走强，吉利汽车盘中一度涨超5%，最终收涨4.55% [22]