极致协同设计
搜索文档
不再卷算力的2026,英伟达开始重做数据中心
半导体行业观察· 2026-01-21 09:23
文章核心观点 - 2026年AI数据中心发展进入瓶颈,单纯堆砌算力已至尽头,竞争关键转向系统整体效率的提升[1] - 英伟达在CES 2026发布的Rubin平台和BlueField-4 DPU,并非硬件常规升级,而是针对传统数据中心低效问题的系统性解决方案,旨在“重做数据中心”,构建面向AI原生时代的硬件底座[1] - 其创新核心在于“极致协同设计”,将计算、存储、网络等多组件高度整合,形成完整价值闭环,以解决代理式AI、MoE模型及长上下文推理等新兴负载的瓶颈[2][14] - 这代表了一种思维转变,即从过往的“单点升级”逻辑转向“算力+基建”的全新协同架构,指明了未来AI原生计算的发展方向[18] AI数据中心的发展瓶颈与范式转变 - 2026年,AI数据中心发展遇到新瓶颈,单纯算力堆砌走到尽头[1] - 随着代理式AI兴起、混合专家模型普及及百万token级长上下文成为常态,竞争关键转变为高效使用算力与提升系统整体效率[1] - 传统数据中心短板暴露:处理多轮复杂对话时,GPU常处于等待数据从内存、网络或存储系统传输的状态,导致效率低下[1] - 行业需要摒弃过往聚焦局部优化的陈旧发展思路,转向系统级的协同架构[18] Rubin平台:以系统为单元的“极致协同设计” - Rubin平台放弃“单点升级”思路,以系统为基本设计单元,整合六款芯片为一个高度耦合的计算整体[2] - 采用“极致协同设计”理念,核心目标非单一组件性能最大化,而是提升整个系统在真实AI负载下的运行效率[2] - **计算核心 (Rubin GPU)**:采用双芯粒设计,集成约3360亿个晶体管,引入第三代Transformer引擎支持硬件级自适应压缩[3] - 为AI推理提供高达50 PFLOPS的NVFP4运算能力,更贴合以推理为主、长上下文的场景[3] - **计算核心 (Vera CPU)**:采用88个定制Olympus核心,兼容Armv9.2架构,通过NVLink-C2C与GPU高速直连[3] - 每个核心支持NVIDIA Spatial Multithreading,实现最多176个并发线程,服务于多模型并行和复杂调度[3] - **高速互连 (NVLink 6)**:将单GPU互连带宽提升至3.6 TB/s,使Vera Rubin NVL72机架内部总互连带宽达到260 TB/s[4] - 使72个GPU能近乎单一计算体般协同工作,大幅减少模型切分、跨节点通信及同步等待的开销,对MoE模型尤为关键[4] - **协同效能**:在全新Rubin平台上,AI推理的token成本可降至Blackwell平台的约十分之一,MoE模型训练所需GPU数量仅为前代平台四分之一左右[4] BlueField-4与基础设施重构:解决存储与网络瓶颈 - BlueField-4 DPU旨在解决算力如何高效发挥的问题,瓶颈已转移至存储、网络和控制面[6] - **存储重构**:引入推理上下文记忆存储平台,BlueField-4 DPU为其核心执行单元[8] - 通过专用处理器和硬件加速引擎,将KV缓存的部署、管理和共享从CPU/GPU上彻底卸载[8] - 借助DOCA框架实现跨节点智能调度,以极低延迟送达历史上下文数据,避免GPU空转等待[8] - **网络重构**:将BlueField-4与Spectrum-X以太网、Spectrum-6交换机绑定为整体[10] - Spectrum-X针对AI负载优化RDMA数据路径,减少横向扩展中的抖动与拥塞[10] - Spectrum-6引入硅光技术,实现高带宽、长距离传输,标志着数据中心网络从“电”向“光”的实质性迁移[10] - **性能提升**:与传统存储方案相比,该平台在每秒token处理量、单位TCO性能及能效上均可实现最高5倍提升[10] - **安全与隔离**:BlueField-4通过零信任架构和硬件级隔离,将网络、存储和安全控制收敛到DPU管理之下,为多租户云环境提供清晰安全边界[11] - **释放算力**:将网络协议处理、存储I/O管理、虚拟化与安全策略执行等基础设施任务从CPU/GPU卸载,由BlueField-4接管,提升有效算力占比[12] 算力与基建的协同效应:形成完整价值闭环 - Rubin平台与BlueField-4共同打造了AI原生数据中心的完整价值闭环,计算、存储与网络被串联为一条连续、可控的数据通路[11][14] - **代理式AI长上下文推理示例**:Rubin GPU负责密集推理计算,长上下文由BlueField-4管理存储承载,机柜内通过NVLink 6共享,跨机柜由Spectrum-X网络传输,减少GPU空转,降低整体响应时间[14] - **大规模MoE模型训练示例**:Rubin平台通过高速互连和调度减少负载不均衡,BlueField-4将基础设施工作从主计算路径剥离,使更多GPU周期用于有效计算,提升系统效率[14] - **可扩展性**:以DGX SuperPOD为代表的机柜级设计,将算力与基建整合为标准单元,可横向扩展至数万GPU规模的集群[16] - **场景化验证**:英伟达与西门子合作,其埃尔朗根电子工厂将成为全球首批完全由AI驱动的自适应制造基地,其“AI大脑”对实时性、可靠性要求极高,Rubin与BlueField-4的紧密协同是支撑核心[16] 行业启示:思维转变与未来竞争焦点 - 技术的进步不仅是参数提升,更是思维方式的转变,需要用新视角理解性能、效率与创新[19] - 未来可能有愈来愈多基础设施厂商效仿协同架构方案,芯片设计、服务器制造、数据中心建设的边界会变得模糊[18] - 系统集成能力将成为新的竞争焦点[18] - Rubin与BlueField-4的真正价值在于展示了一种新的构建AI基础设施的方法论[18]
没人需要原子弹,但每个人都需要AI
是说芯语· 2025-10-02 15:00
英伟达对OpenAI的战略定位与投资 - OpenAI被定位为共同打造下一代AI工厂的共建者而非普通客户[6] - 公司向OpenAI提出最高可达1000亿美元的投资意向用于建设AI数据中心[8] - 该AI数据中心能耗至少10吉瓦需要10台左右大型核电机组供电将配备400-500万块GPU接近英伟达2025年全年出货计划[8] - 英伟达深度参与工厂设计调试优化部署从芯片驱动到工厂级电力和网络系统[8] AI经济影响与基础设施需求 - AI被定义为帮助社会扩容脑力的基础设施世界上55%-65%的GDP来自人类脑力劳动[9] - AI辅助可使脑力劳动岗位产出翻倍甚至三倍增长[11] - AI作为实时思考系统每次推理需经历检索推理判断生成过程算力需求远超传统软件[11] - 未来智力产能需依靠全年在线的AI工厂支撑[12] 推理算力需求演变 - 推理已演变为轻量级实时的训练过程分为预训练后训练推理三个阶段[13] - 推理过程中AI会先检索再调用内部逻辑可能临时使用工具或调用其他模型辅助判断[13] - 思考时间越长答案质量越高背后潜藏巨大算力需求[15] - 推理量级从一次性回答演进为动态生成消耗真实算力[15] 英伟达的竞争策略与护城河 - 公司竞争优势在于每瓦电力产出效率而非芯片价格即使对手免费提供芯片若每瓦效率仅为十分之一客户仍会亏损[18] - 客户核心关切是在确定功率配额下能产出多少有用token而非芯片零售价[18] - 护城河建立在软硬件系统协同实现在同等能耗下产出更多更快更可靠的结果[20] 技术迭代与系统升级节奏 - 公司每年推出新架构是必要生存策略因token生成速度呈指数级飙升[22][23] - 为降低token成本需不断提升每瓦输出密度[23] - 升级涵盖GPUCPU互联交换芯片及上层软件编译器库的全系统极致协同设计[25] 应对行业自研芯片的生态战略 - 承认ASIC在稳定高频负载下的价值但强调通用平台在算法快速迭代环境下的韧性[29] - CUDA平台允许开发者一周内试验五种方法保障工程速度[29] - 通过推出CPX专用芯片开源Dynamo系统工具与英特尔合作NV Fusion构建可插拔系统生态[29] AI产业链信用体系建设 - 公司通过投资兜底租赁等方式为AI产业链提供信用背书如对CoreWeave投资1亿美元并签署13亿美元GPU租回合同[32] - CoreWeave转型AI云后营收从2500万美元飙升至近20亿美元[32] - 类似安排应用于Lambda等新云玩家通过签署订单帮助其获取融资[32] 主权AI与全球市场布局 - 各国意识到AI系统承载语言文化法律意识形态需建设可控的主权AI基础设施[35] - 建议各国在使用优秀模型的同时建立自身算力工厂团队[35] - 中国市场被定义为战略重要公司将在出口规则内合法合规最大化技术影响力[36] 人才政策与就业影响 - 强调人才是美国核心竞争力建议为STEM毕业生直接发绿卡避免人才流失[42] - AI不会导致大规模失业而是提升效率后承接更多项目增加用工需求如公司工程师数量因AI赋能而增加[43] - AI扩展现有工作能力催生新工种而非取代岗位[45] 未来AI应用场景展望 - 2030年个人将拥有云基数字分身辅助生活工作决策如会议笔记医疗提示等[46] - AI将具象化为机器人具备表情识别语音交互等能力公司正为AI造身体装神经通电源[48] - 面对指数级增长应尽早参与投入而非等待完美预测[49][51]
黄仁勋最新对话直面争议,并称中国科技仅慢“纳秒”而已
聪明投资者· 2025-09-29 15:04
AI推理革命与市场前景 - AI推理业务已占公司收入超过40%,其增长潜力被量化为"十亿倍"级别,标志着全新工业革命的开始[8] - 当前AI演进由预训练、后训练和推理三条规模定律共同驱动,其中推理过程强调模型需通过"思考"提升答案质量,而非一次性输出[9][10][11] - AI代理系统已发展为多模型、多模态的复杂系统,能够同时调用工具并处理多样化任务,增强了推理增长的确定性[12] 与OpenAI的合作逻辑 - 公司对OpenAI的股权投资被视为押注未来万亿美元市值巨头的机会,与采购行为无直接关联[5][53] - 合作涵盖芯片、软件、系统及"AI工厂"建设,支持OpenAI向自营超大规模公司转型[16][17] - OpenAI面临用户数增长与单次计算量需求的双重指数级增长,推动其基础设施投入[18][19] 加速计算与AI基础设施市场 - 全球数万亿美元的计算基础设施正从通用计算转向加速计算,这一迁移过程将创造数千亿美元的市场机会[23][24][26] - AI增强人类智能可能影响全球约50万亿美元的经济活动,未来AI基础设施年资本支出有望达到5万亿美元[29][32] - 超大规模公司如阿里巴巴计划将数据中心电力容量提升10倍,公司收入与电力消耗呈正相关关系[34] 产能与供应链管理 - 在通用计算全面转向加速计算完成前,出现供过于求的可能性极低,此过程仍需数年[5][43] - 供应链已覆盖晶圆厂、封装及HBM内存等环节,具备需求翻倍即产能翻倍的响应能力[44] - 客户需求预测持续被低估,公司长期处于追赶状态,且预测值逐年显著上升[45][46] 公司竞争壁垒与战略 - 公司通过极致协同设计同时优化模型、算法、系统与芯片,实现Hopper到Blackwell芯片30倍的性能提升[64][68] - 竞争壁垒建立在协同设计的极致性与规模的极致性基础上,客户需部署数十万块GPU以形成规模效应[71][72] - 公司定位为AI基础设施合作伙伴,而非单纯芯片供应商,支持灵活采购模式[76][77] 技术路线与行业生态 - 年度产品发布节奏为应对token生成速度的指数级增长,确保性能提升与成本控制[59][62] - 公司开源大量软件并推动开放生态,如NVLink Fusion技术整合英特尔等合作伙伴,扩大AI工厂影响力[93] - 针对ASIC竞争,认为其适用于有限市场,而AI核心计算需适应快速变化的工作负载,依赖可重构系统[90][92] 全球市场与地缘视角 - 中国科技产业被评价为充满活力且现代化程度高,技术差距仅以"纳秒"衡量,强调直面竞争的必要性[98] - 公司主张开放市场竞争符合中美双方利益,支持技术产业全球化布局[101][103] - AI与机器人技术融合可能在五年内实现,推动个性化AI助手普及,并延伸至生命科学数字孪生应用[105][108] 行业发展建议 - 面对指数级加速的AI技术变革,企业应尽早融入生态而非预测终点,以动态适应变化[109][110]
黄仁勋最新专访:关于投资OpenAI、AI泡沫、ASIC的竞争.........(三万字全文)
美股IPO· 2025-09-27 10:01
AI行业增长前景 - OpenAI很可能成为下一个万亿美元市值公司 是英伟达的重要合作伙伴 [1][3][4] - AI驱动收入将在5年内从1000亿美元增长至万亿美元级别 目前可能已达到该水平 [1][26][28] - AI将增强全球50万亿美元规模的人类智能经济活动 可能创造10万亿美元增量价值 [20][21][24] 计算范式转型 - 通用计算时代结束 全球数万亿美元计算基础设施将全面转向加速计算和AI计算 [3][17][18] - 传统超大规模计算模式(搜索 推荐 购物)正从CPU转向GPU驱动 形成数千亿美元市场 [18][28][34] - 数据处理市场(Databricks Snowflake Oracle SQL)目前主要使用CPU 未来将全面转向AI处理 [34] 英伟达竞争战略 - 通过"极致协同设计"实现系统级优化 年度发布周期使性能呈指数级提升(Hopper到Blackwell提升30倍) [3][41][47] - 即使竞争对手芯片免费 英伟达系统在总拥有成本(TCO)上仍具优势 因电力 数据中心等运营成本更低 [1][75][77] - 从GPU供应商转型为AI基础设施建设者 能整合各类ASIC满足多样化工作负载需求 [3][62][64] 技术发展路径 - AI规模定律从预训练 后训练扩展到"思考"推理定律 推理能力将实现百万倍至十亿倍增长 [3][7][8] - Token生成速度每几个月翻一番 驱动每瓦性能需持续指数级提升 电力消耗与收入直接相关 [22][24][43] - 年度发布周期包括2024年Hopper 2025年Grace Blackwell 2026年Vera Rubin 2027年Ultra 2028年Feynman [41][47] 生态系统建设 - 与OpenAI的Stargate合作涉及1000亿美元投资 帮助其建立自主AI基础设施 [3][10][11] - 推出NVLink Fusion等开源平台 整合英特尔 ARM等生态系统合作伙伴 [71][73][74] - 投资xAI CoreWeave等公司 但不与采购义务挂钩 属于机会性股权投资 [39][40] 市场容量分析 - 全球AI基础设施年资本支出可能达到5万亿美元 对应生成10万亿美元token价值(50%毛利率) [21][22] - 目前4000亿美元市场规模将增长4-5倍 阿里巴巴计划将数据中心电力容量增加10倍 [22][25] - 供应链已做好准备应对需求增长 实际需求持续超出客户预测 [31][32] 工作负载演进 - AI从单一语言模型发展为多模型系统 能同时运行 使用工具并进行研究 [9] - 传统"一次性"推理转向"思考型"推理 大幅增加单次使用的计算量 [11][13][33] - 视频生成 上下文处理等专业化工作负载需要特定芯片(如CPX) [62]