Workflow
Blackwell Ultra GPU
icon
搜索文档
英伟达与OpenAI达成千亿美元级合作 共建AI基础设施集群
环球网资讯· 2025-09-23 12:09
来源:环球网 【环球网科技综合报道】9月23日消息,据华尔街日报报道,英伟达与OpenAI达成里程碑式战略合作, 双方将联合建设全球规模最大的AI计算基础设施网络,涵盖至少10吉瓦(GW)的AI专用数据中心集 群,部署数百万块英伟达GPU,并配套构建自主可控的清洁能源供应体系。 据称,英伟达承诺为该项目提供至多1000亿美元投资,首阶段系统计划于2026年下半年通过英伟达新一 代Vera Rubin超级计算平台上线。 外媒分析称,对OpenAI而言,该协议解决了其从非营利组织转型为盈利性企业后的最大瓶颈——算力 成本。当前,训练GPT-5级模型的电费支出已占其总成本的35%,而自建数据中心可将长期运营成本降 低70%。此外,专属算力集群将支持OpenAI率先探索AGI(通用人工智能)的物理世界交互能力,例如 通过机器人集群实现全球物流自动化。 根据双方声明,首期Vera Rubin系统将于2026年第三季度在得克萨斯州达拉斯数据中心点亮,初始配置 包含50万块Blackwell Ultra GPU,算力规模相当于当前全球前50大超级计算机总和。英伟达与OpenAI计 划在未来6周内敲定股权分配、技术共享及数据 ...
光物质通道:AI 用 3D 光子互连板 --- Lightmatter Passage _ A 3D Photonic Interposer for AI
2025-09-22 08:59
**涉及的公司和行业** * **公司**:Lightmatter、Nvidia、Cerebras、Graphcore、Tachyum、AMD、Intel、Cisco、Meta、台积电(TSMC)、GlobalFoundries [1][7][13][30][44][55][69][122][129][138][204] * **行业**:人工智能(AI)加速器、高性能计算(HPC)、光子计算、先进半导体封装、数据中心互连技术 [3][7][11][13][21][28][29][42][81][82][122][138][140][141][142][148][149][155][156] **核心观点和论据** **现代AI训练的规模化挑战** * AI模型规模及其计算需求呈指数级增长,从数百万参数发展到数百亿甚至数万亿参数 [3][4] * 训练大型语言模型如GPT-3和GPT-4需要数千个GPU组成的分布式系统 [3][4] * 扩展面临双重瓶颈:摩尔定律放缓限制单芯片性能提升,多节点分布式训练引入巨大通信开销和同步延迟,使网络带宽成为关键瓶颈 [7][8][10][11] * 英伟达CEO指出,最新AI训练和推理工作负载的计算需求相比一年前的预期激增了高达100倍 [7][8] * 现代大规模AI训练陷入困境:依赖大规模GPU集群导致网络瓶颈和功耗飙升,依赖单节点性能提升则遇到半导体扩展、热管理和功率密度的限制 [10][11] * 克服计算和通信的双重瓶颈已成为后摩尔定律时代整个行业的共同挑战 [11] **Lightmatter Passage光子互连技术** * Lightmatter Passage M1000"超级芯片"平台采用创新的3D光子堆叠架构,旨在解决芯片间连接能力不足的核心瓶颈 [13][14] * 该平台在一个光子互连板上集成多达34个芯片片,总等效晶粒面积达到4,000 mm²,超越传统光刻掩模单芯片的极限 [13][14] * 提供前所未有的互连带宽:总双向带宽为114 Tbps,包含1,024条高速SerDes通道,使每个集成计算芯片片能访问每秒多太比特的I/O带宽,有效突破传统单芯片外围I/O引脚限制的瓶颈 [17] * 通过光子堆栈,众多芯片片可共享高速光通信背板,以接近单片的效率协作,为应对AI规模扩大挑战提供新途径 [21] * 技术细节:采用2×4瓦片结构,8个光互连模块拼接;每个瓦片集成16条水平光总线,每条总线支持2个全双工光链路;每个光链路通过波分复用(WDM)使用8个波长,每个波长56 Gbps,实现每链路448 Gbps,每条光总线总吞吐量接近1 Tbps [97][98][99] * 集成光电路开关,可编程改变波导连接性,实现动态可重构的光通信网络,提高系统容错能力 [103] * 利用微环调制器等紧凑光器件实现极高I/O密度,整个M1000分布有1,024个SerDes通道,通过3D堆叠垂直光耦合绕过传统电I/O的平面限制 [104][105] * 通过256根光纤与外部连接,每根光纤支持双向多波长传输,显著提升连接效率 [106][107] * 目标是将传统扩展环境中数十甚至数百个模块的通信需求浓缩成一个单一的扩展超级包,实现"芯片内的计算,芯片内的通信" [108] **光子计算的技术验证与比较** * 《自然》杂志发表的论文验证了光子学在AI加速方面的可行性,展示了首个能执行ResNet和BERT等高级神经网络的光子处理器,在多个复杂任务中实现接近32位浮点数字加速器的精度 [22][23] * 该光子处理器采用多芯片集成封装,垂直组合六个芯片(四个128×128光子张量核心PTCs和两个12nm数字控制接口DCIs),通过高速接口连接光子计算芯片与电子控制芯片 [23][24] * 在测试中实现每秒65.5万亿次的16位运算,仅消耗约78瓦电能加1.6瓦光能,实现"接近电子精度",标志着光子计算实际应用的重要一步 [26][27] * 与Lightmatter Passage比较:《自然》处理器专注于光子核心层面的张量计算,证明光子计算核心可与电子加速器竞争;Passage则专注于跨芯片互连,提供革命性数据传输架构 [28][29][116] * 两者互补:《自然》处理器增强模块内计算性能,Passage扩展模块间通信带宽,共同预示混合电子-光子架构的未来 [28][29][82][83][116][121] **与其他行业玩家的比较分析** * **Nvidia**:继续依靠GPU集群扩展和先进封装,其Blackwell Ultra GPU采用双芯片设计,拥有2080亿晶体管,性能比H100提高约50% [30][31];计划推出的Vera Rubin超级芯片结合Rubin GPU和Vera CPU,基于3nm工艺和HBM4内存(带宽13 Tbps),提供50 PFLOPS(4位)推理性能,约为Blackwell的2.5倍;Rubin Ultra通过封装两个Rubin GPU预计达100 PFLOPS FP4性能 [34][35];升级互连技术,NVLink 6提供每节点3.6 Tbps带宽,并推出基于光学的数据中心交换机(如Spectrum-X, Quantum-X),端口速度达800 Gbps [36][37];但其电气互连的功率和距离限制突出,单个Vera Rubin机架功耗高达600 kW [39][40];Passage通过光互连在单机内实现十到数百Tbps联网能力,将数据中心级通信压缩成"超级芯片",简化部署并提高效率 [42][127][128] * **Cerebras**:采取极端规模扩展策略,构建晶圆级引擎(WSE),第三代WSE-3单个芯片面积46,250 mm²,集成4万亿晶体管、90万个核心、42 GB片上SRAM,片上内存带宽达21 PB/s [44][45];可将24万亿参数模型全部权重集成在单芯片中,提供极高内部带宽密度(约为Nvidia H100的7,000倍)和超低延迟 [47][48];但面临制造良率、热管理(单个CS-3系统耗电15 kW)和成本挑战,超出一块晶圆的扩展仍依赖外部电互连(以太网/InfiniBand) [49][50];Passage通过光互连在标准芯片片间实现近乎单片的带宽通信,提供更好的成本效益和灵活性 [52][53] * **Graphcore**:专注于先进封装和内存架构创新,其第二代IPU集成900 MB分布式SRAM,通过近内存设计提供260 TB/s片上内存带宽 [55];Bow IPU采用台积电晶圆上晶圆(WoW)3D堆叠技术,将计算晶圆与电源供应晶圆直接粘合,运行频率从1.35 GHz提升至1.85 GHz,性能提升约40%,能效提升16% [58][59];但其IPU间通信仍依赖电接口,在大规模扩展时效率低于光互连 [61][62];Passage专注于打破跨芯片通信瓶颈,而Graphcore强调芯片内带宽和功率传输提升,未来结合两者技术可能解锁更高性能 [66][67] * **Tachyum**:追求"通用处理器"路线,其Prodigy芯片采用多核设计,提供192个64位核心,AI性能媲美GPU,强调核心功耗比传统处理器低一个数量级,支持统一架构处理推理、训练和通用计算 [69][70][74];在互连方面采用UCIe开放芯片片标准,并与光连接器供应商合作引入光纤高速连接增强节点间通信 [74][75][76];但其超大型模型训练仍需多芯片集群,节点间互连是关键,其光连接方法侧重于板级或机架级改进,而Passage将光集成到封装级互连结构,实现更深集成和更高带宽密度 [77][78] * **AMD MI300**:将CPU、GPU和HBM集成在一个封装中,采用芯片片堆叠和3D V-Cache技术,实现CPU和GPU共享缓存一致性和巨大HBM容量,代表另一种规模扩展方法 [129];封装集成多达九个芯片(三个计算芯片和六个HBM3堆叠),通过Infinity架构提供数百GB/s CPU-GPU通信和超过1 TB/s内部内存带宽 [131][132];但跨插槽或多节点通信仍依赖电互连(Infinity Fabric或以太网),封装和功率限制集成芯片数量 [135];Passage的3D光子堆叠提供更激进的扩展路径,使任意数量芯片片通过光子底板互连,形成"巨型APU" [136][137] * **系统互连趋势**:超大规模数据中心探索光背板和光子交换机,Meta提出构建"AI超级网络"光学织物,Intel和思科开发共封装光学(CPO)交换机,将光收发器直接置于交换机ASIC旁 [138][139];这些努力可视为系统级规模扩展,将整个网络视为单台计算机;Passage是此概念在机器级的延伸,提供模块化光子互连平台 [140][141];行业趋势是铜链路逐渐被光纤取代,光子互连成为从处理器内部到数据中心网络的焦点 [141] **铜互连的局限性与光子互连的优势** * **铜互连局限**:传输距离有限,高频下信号衰减严重,仅几厘米后即需中继器,增加功耗和延迟 [157][159][160];功耗随距离线性或更快增加,现代高速SerDes每比特消耗数皮焦耳,例如Nvidia H100的NVLink带宽约900 GB/s,I/O能耗可达数十瓦,扩展到数百Tbps需求时,纯电方案不切实际 [163][164][165];I/O引脚数量和布线密度是基本瓶颈,计算性能增长快于I/O增长,导致"计算快但数据移不出"的瓶颈 [167][168];功率密度(W/mm²)持续上升,对封装材料和热管理提出更高要求,先进GPU已达0.5–0.7 W/mm²,需要大型散热器和液冷,3D集成中多芯片片集中热量加剧冷却挑战 [170][171][172][173] * **Passage光子方案优势**:用光波导和光纤替代铜线,光信号在硅波导中损耗极低,可实现芯片间或机架级传输而无须中继器 [176][177];利用波分复用(WDM)提升带宽密度,每个波导8个波长各56 Gbps,达448 Gbps,16个波导组成~7.17 Tbps光总线,远超铜线密度 [179][180];单根光纤传输16个双向波长,提供~1 Tbps全双工吞吐量,功耗仅~100 mW/光纤,而铜线实现同等带宽需数十至数百高速通道,体积和功耗大得多 [181][182];采用微环谐振器调制器,Tx/Rx对仅占0.006 mm²(比电SerDes小约3倍),驱动功率~1 mW/设备,调制能量~0.018 pJ/比特,总能量/比特预计接近1 pJ,比先进铜SerDes高效数倍 [184][185];内部测试显示光链路在56 Gbps NRZ和112 Gbps PAM4下稳定运行,误码率达标,眼图开放,TDECQ消光比仅0.83 dB [187][188];3D堆叠结合强大电源和热管理,光子互连板集成密集TSV电源通孔,承载>2.5 A/mm²电流,支持多个150–200W级计算芯片同时工作而无供电瓶颈 [189][190][191];热管理上,3D堆叠缩短热路径,计算芯片可从顶部直接冷却,集中式热设计更易优化(如使用单一片冷板) [193][194];证明即使节点聚合数千TB/s带宽和接近千瓦级功率也能在物理限制内可靠运行,为突破铜互连约束提供明确路径 [195][196] * **行业应对比较**:Nvidia和AMD在封装级优化,如HBM通过硅中介层直接连GPU,缩短路径至毫米级,实现>1 TB/s GPU内存带宽 [204];交换机中CPO成为热点,思科和微软测试将光收发器嵌入交换机ASIC旁,实现直接光I/O [206];Passage将CPO概念从板级推进至芯片间光互连,Nvidia计划在未来Kyber机架采用CPO支持600 kW GPU系统,而Passage已在单超级模块内展示数百Tbps连接,减少对机架级交换机的依赖 [206][207];为降低铜互连功耗,行业投资SerDes创新(如PAM4、DSP/FEC均衡),但常以功耗换带宽,新一代技术提高每比特能量 [208][209];Graphcore降低每通道速度但在封装内集成更多芯片片以分散功耗,但仍依赖传统互连进行跨卡扩展,且I/O驱动摆幅电压缩放放缓,未来电I/O可能消耗系统大部分功率 [210][211];光子互连成为必然路径,不受RC约束,可长距离低功率传输,微环调制器能效高;Lightmatter报告其3D光子CPO相比传统2D CPO在功率减半下实现8倍带宽提升,是量级飞跃 [213];光子学引入新维度解决电学权衡:光信号实现"快速且远距离",3D集成实现"分布式散热"和更有效的热负载管理,缩短电源路径稳定高电流传输 [215];《自然》处理器验证了小规模混合光电子系统效率,Passage M1000将其扩展至大规模带宽和高功率集成,证明光子3D集成的可靠性 [216] **其他重要内容** **规模扩展(Scale-Up)与规模扩大(Scale-Out)的辩证关系** * 两者不应被视为对立面,而是光谱的两端 [144][151];规模扩大提供灵活性和增量增长,但系统扩展后边际收益下降(受阿姆达尔定律和通信开销增加限制);规模扩展提供更高的每资源效率,但受硬件限制和成本制约 [144][151] * 未来AI基础设施可能平衡两者,即"适度规模扩展 + 协调规模扩大",例如将数十或数百个计算芯片封装成光互连模块,然后通过高级网络连接 [145][146][152][153] * 《自然》光子处理器和Cerebras WSE代表极端规模扩展,证明单节点内突破传统限制的可行性;Nvidia和AMD正逐步将规模扩展元素注入规模扩大框架(如芯片片、更快节点间连接) [147][154] * 光电子集成正在重新定义规模扩大/规模扩展的边界,Lightmatter Passage展示了如何结合两者优势以满足下一代AI的巨大计算需求 [149][156] * 未来几年,光子互连将发挥关键作用,将大规模计算架构从松散分布集群转变为紧密结合的光学织物,为用户带来更大模型、更快训练和更低能耗 [148][155] **技术细节与性能数据** * Passage M1000总双向带宽114 Tbps,1,024条SerDes通道 [17] * Passage每个光链路通过WDM达448 Gbps,每条光总线近1 Tbps,每个瓦片总带宽巨大 [98][99] * 《自然》光子处理器性能:65.5万亿16位操作/秒,功耗~78 W电能 + 1.6 W光能 [26] * Nvidia H100 NVLink带宽约900 GB/s,假设~10 pJ/比特,I/O能耗可达数十瓦 [164] * Passage微环调制器Tx/Rx对面积0.006 mm²,驱动功率~1 mW,调制能量~0.018 pJ/比特 [184][185] * Passage光纤传输~1 Tbps全双工吞吐量,功耗~100 mW/光纤 [181][182] * Lightmatter 3D光子CPO相比传统2D CPO实现8倍带宽提升,功耗减半 [213]
三大股指期货涨跌不一 美联储利率决议重磅来袭
智通财经· 2025-09-17 20:37
盘前市场动向 1. 9月17日(周三)美股盘前,美股三大股指期货涨跌不一。截至发稿,道指期货涨0.07%,标普500指数期货跌0.04%,纳指期货 跌0.07%。 | = US 30 | 45,792.50 | 45,816.00 | 45,718.00 | +34.20 | +0.07% | | --- | --- | --- | --- | --- | --- | | = US 500 | 6,604.10 | 6,614.40 | 6,593.60 | -2.70 | -0.04% | | 트 US Tech 100 | 24,256.90 | 24,303.80 | 24,207.80 | -17.30 | -0.07% | 2. 截至发稿,德国DAX指数涨0.04%,英国富时100指数涨0.23%,法国CAC40指数跌0.24%,欧洲斯托克50指数跌0.10%。 | 德国DAX30 | 23,333.91 | 23,476.41 | 23,285.33 | +9.44 | +0.04% | | --- | --- | --- | --- | --- | --- | | 英国富时100 | 9.216 ...
英伟达(NVDA.US)携手OpenAI等AI巨头在英国投资110亿英镑推进“星际之门”项目
智通财经网· 2025-09-17 19:36
这家美国科技巨头指出,到 2026 年底,合作公司将建成并运营人工智能工厂,为包括 OpenAI 在内的 各类领先人工智能模型提供服务,以助力英国实现其自主人工智能目标,即构建一个推动创新和发展的 平台。 智通财经APP获悉,英伟达(NVDA.US)表示,其正与 CoreWeave(CRWV.US)、微软(MSFT.US)、Nscale 和 OpenAI 合作构建英国的人工智能基础设施,以促进创新、经济增长和就业机会的增加。Nscale、 OpenAI 和英伟达正在共同建立英国版"星际之门",该分支项目将于 2026 年前在 Nscale 的英国数据中 心内部署Blackwell Ultra GPU。 英伟达将与英国人工智能基础设施公司 Nscale 合作,在美国、葡萄牙和挪威的各类人工智能工厂中大 规模部署 30 万个英伟达 Grace Blackwell 图形处理单元(简称 GPU),其中在英国将部署多达 6 万个 GPU。 英伟达、Nscale、CoreWeave以及其他公司计划在英国投资高达 110 亿英镑用于建设人工智能工厂,这 些工厂将配备多达 12 万块Blackwell GPU——这将是英国历 ...
If you invested $1,000 in NVDA when Nvidia released 1st AI chip, here's your return now
Finbold· 2025-05-11 22:05
公司历史表现 - 英伟达首款AI芯片Tesla P100于2016年4月5日发布 当时AI尚处早期阶段 主要应用于学术研究 [2] - 若在2016年以拆分调整后0.89美元股价投资1000美元 目前价值约131067美元 回报率超13000% [2][3] - 公司股价从P100发布至今涨幅超过13000% 最新收盘价达116.65美元 [1][3] 技术发展路径 - Tesla P100采用Pascal架构 集成150亿晶体管 芯片面积610平方毫米 晶体管数量达当时市场主流处理器三倍 [4] - 后续推出Hopper H100成为行业黄金标准 Blackwell样品已开始发货 [5] - 最新Blackwell Ultra GPU瞄准"推理时代" 其AI训练和推理需求预计将提升100倍计算能力 [6] 财务表现 - 2024财年Q4营收达393.3亿美元 超出分析师预期的380.5亿美元 调整后每股收益0.89美元 高于预期的0.84美元 [7] - 公司预计2025年Q1营收约430亿美元 同比增长65% Blackwell芯片预计将贡献主要收入 [7] 行业地位 - 英伟达GPU已成为AI训练的基础设施 推动公司市值大幅增长 [5] - 连续推出的Hopper和Blackwell等创新芯片驱动性能提升和市场采用 [1] - 强劲的Q4业绩和2025年指引显示公司在AI领域的持续主导地位 [1]
英伟达打响“股价保卫战” 黄仁勋回答了十个关键问题
搜狐财经· 2025-05-05 13:58
文章核心观点 - 英伟达CEO黄仁勋在GTC 2025大会演讲被赋予“股价保卫战”意义,他认为AI芯片需求持续增长,大会发布新产品和系统,搜狐汽车整理其试图回答的十大问题 [2][3] 生成式AI相关 - 人工智能过去十年进步惊人,先有感知型AI,后专注生成式AI,其改变计算模式,从检索型变为生成型 [3][4] AI发展方向 - 推出可与数字世界互动、代表用户执行任务的Agent AI,接下来是有望为人形机器人提供动力的物理人工智能 [5] 推理型AI相关 - 推理型AI可像人一样分步骤推理选最佳结果,通过强化学习和自监督学习发展,训练需处理数万亿级token,推动了模型发展 [6] - 推理型AI生成Token数量巨大,需提高系统计算速度十倍,意味着一百倍以上计算量,训练和推理服务所需计算资源过去一年爆炸式增长 [7] 数据中心业务 - 今年迄今Blackwell GPU已向四大云平台销售360万块,分析师预测全球数据中心资本支出到2030年达数万亿美元,建设规模1万亿美元时间点会更快到来 [8] - 数据中心业务增长动力是计算方式转型和从检索型计算到生成型计算转变,未来各行业公司将有AI工厂 [8][9] 边缘计算领域 - 英伟达与思科、T - Mobile和服务器ODC合作将AI带入边缘计算领域,利用无线电网络和通信数据中心资源,实现加速计算与AI融合,AI可优化通信效果 [10] 自动驾驶汽车领域 - 英伟达投入超十年,技术被广泛应用,与通用汽车在多领域合作,打造“Halos”安全体系,经安全评估且拥有超1000项专利 [11] - 通过Omniverse和Cosmos加速AI开发,采用模型蒸馏、闭环训练和合成数据生成等方法提升自动驾驶安全性和智能化 [12] Dynamo软件 - Dynamo是开源软件,可提高人工智能推理效率并降低成本,能让Nvidia Hopper平台为Meta的Llama型号提供服务的性能提高一倍,加速用户采用人工智能推理 [14][15] AI系统路线图 - Blackwell Ultra今年下半年上市,亚马逊AWS、谷歌云、微软Azure和甲骨文将首批提供支持服务 [16] - 下一代系统Vera Rubin预计2026年下半年推出,含144个独立Nvidia GPU;2027年下半年发布含576个GPU的Rubin Ultra,大幅提高AI计算能力和效率 [16]
1 Trillion Reasons to Buy Nvidia's Stock Right Now
The Motley Fool· 2025-03-23 02:00
文章核心观点 - 英伟达CEO预计到2028年数据中心基础设施资本支出将达1万亿美元或更多 若预测实现 其股价还有很大上涨空间 且当前股价估值有吸引力 是长期投资的好选择 [1][10][11] 更多增长可期 - 到2028年数据中心基础设施资本支出达1万亿美元 将加速该领域支出 对英伟达是好消息 其GPU是AI基础设施建设的支柱 [2] - 英伟达估计2024年数据中心基础设施支出约4000亿美元 戴尔奥罗集团估计达4550亿美元 英伟达目前占据该支出的25% - 30% [3] - 若英伟达保持当前市场份额 2028年仅数据中心基础设施收入就达2500 - 3000亿美元 公司计划在芯片和软件方面继续领先 [4] 芯片创新 - 英伟达推出新的Blackwell Ultra GPU 今年下半年开始发货 新芯片性能更强 适用于对时间敏感的服务 预计其收入远超早期Hopper架构 [4] - 公司将推出新的Vera Rubin芯片 结合GPU、下一代Rubin架构和定制CPU 其CPU速度是早期Grace Blackwell芯片中现成CPU的两倍 [5] - 公司计划在2027年下半年推出“Rubin Next”芯片 将当前Blackwell芯片中的GPU裸片数量从两个增加到四个 [5] 软件创新 - 英伟达推出新的开源软件系统Nvidia Dynamo 可提高推理吞吐量并降低成本 有助于协调和加速跨数千个GPU的推理通信 [6] 拓展新市场 - 英伟达推出Isaac GROOT N1 称“通用机器人时代已至” 该模型可训练人形机器人掌握任务 有望填补全球5000万个工作岗位的缺口 [7] - 英伟达将与通用汽车合作 帮助其开发自动驾驶系统 除供应GPU外 还将协助构建定制AI系统 通用汽车将用其GPU和软件训练AI制造模型 [8][9] - 英伟达上月与丰田达成协议 为其提供芯片和软件 以运行先进驾驶辅助功能 [9] 是否值得买入 - 英伟达是AI基础设施建设的大赢家 仍有很大机会 公司持续创新 不仅关注AI训练 还着眼于AI推理 并寻求数据中心以外的增长 [10] - 近期市场抛售使英伟达股价估值有吸引力 其远期市盈率低于26倍 市盈率相对盈利增长比率低于0.5 是长期投资的好选择 [11]
一文读懂英伟达GTC:有关Blackwell全家桶、硅光芯片和黄仁勋的“新故事”
投中网· 2025-03-19 14:44
英伟达GTC 2025大会核心要点 硬件产品线更新 - 推出Blackwell Ultra GPU,采用台积电N4P工艺,搭配HBM3e内存显存提升至288GB,FP4精度算力达15PetaFLOPS,推理速度比Hopper架构提升2.5倍 [8][11] - 发布Blackwell Ultra NVL72机柜,含72颗GPU+36颗Grace CPU,显存20TB,总带宽576TB/s,推理性能比H100提升50倍,6710亿参数模型推理速度达每秒1000 tokens [13][14][16] - 预告2026年Rubin架构GPU及Vera Rubin NVL144机柜,FP4精度算力3.6ExaFLOPS,性能是Blackwell Ultra的3.3倍 [16][17] - 推出DGX Super POD超算工厂,含576颗Blackwell Ultra GPU,FP4算力11.5ExaFLOPS,支持生成式AI全流程 [18][22] 软件生态布局 - 推出开源推理加速软件Nvidia Dynamo,可使Llama模型性能翻倍,DeepSeek推理模型token生成提升30倍,支持千级GPU集群扩展 [36][38][41][46] - 发布48B参数Llama Nemotron模型,token吞吐量达Llama 3 70B的5倍,但训练效率低于DeepSeek V3 [47][49][51] - 推出AI Agent开发平台NVIDIA AIQ,集成RAG系统与多Agent工作流,支持企业数据智能分析 [53][54][59][60] 具身智能战略 - 发布世界基础模型Cosmos,含Transfer/Predict/Reason三模块,支持物理世界模拟与行为预测 [64][65][67] - 推出人形机器人基础模型Isaac GR00T N1,采用双系统架构,已应用于1X等头部机器人公司 [68][71] - 构建DGX训练计算机+AGX边缘计算机+Omniverse数据生成计算机的三位一体算力体系 [75][77] 市场数据与趋势 - 2024年美国四大云厂商采购130万颗Hopper芯片,2025年Blackwell GPU采购量预计达360万颗 [6] - 云厂商AWS/Google Cloud/Azure及服务器厂商Dell/HPE等15家制造商将成为Blackwell产品首批客户 [16] - 光电共封模块(CPO)交换机性能提升3.5倍,部署效率提升1.3倍,扩展弹性超10倍 [29][32]
不止芯片!英伟达,重磅发布!现场人山人海,黄仁勋最新发声
21世纪经济报道· 2025-03-19 11:45
文章核心观点 英伟达GTC2025大会围绕AI推理时代展开,发布了涵盖计算架构、企业AI应用、数据中心、机器人和自动驾驶等领域的技术,构建完整AI生态体系,有望推动企业和个人生产力变革,虽发布会后股价下跌,但大会或提振AI市场部分正面情绪 [28][30] 分组1:大会概况 - 当地时间3月18日,英伟达创始人兼CEO黄仁勋在英伟达GTC2025大会发表演讲,称其为“AI界的超级碗”,今年关键词是“推理”和“token”,AI叙事重心从训练转向推理 [1] - Forrester副总裁兼首席分析师戴鲲认为大会有三个方向值得关注,分别是面向后训练和推理的加速计算、面向企业级智能代理开发的Agentic AI、AI在物理世界中的应用 [3] 分组2:芯片家族 - 英伟达发布Blackwell Ultra系列芯片及下一代GPU架构Rubin,Vera Rubin NLV144计划于2026年下半年上线,Rubin Ultra NVL576将于2027年下半年面世 [5] - Grace Blackwell已全面投入生产,新平台强化推理能力,Blackwell Ultra在训练和测试时间缩放推理方面实现突破,被称为“AI工厂平台” [6] - Blackwell Ultra(GB300)包含GB300 NVL72机架级解决方案和HGX B300 NVL16系统,GB300 NVL72 AI性能提升1.5倍,使AI工厂收益机会相比Hopper平台提高50倍;HGX B300 NVL16推理速度提高11倍、计算能力提升7倍、内存容量扩大4倍 [8][9] - 瑞银报告指出,Blackwell系列需求强劲,GB200瓶颈解决,英伟达加快B300/GB300推出,预计第一季度提前量产,2025年第三季度大规模出货 [10] - 基于Blackwell Ultra的产品预计2025年下半年由合作伙伴推出,思科、戴尔等将率先推出相关服务器,预计到2028年数据中心投资超一万亿美元,暗示英伟达有增长空间 [11] 分组3:CPO交换机 - 英伟达推出全新NVIDIA Photonics硅光子技术,通过共封装光学取代传统可插拔光学收发器,可降低40MW功耗,提高AI计算集群网络传输效率 [13] - 推出Spectrum-X与Quantum-X硅光子网络交换机,Spectrum-X以太网平台带宽密度达传统以太网1.6倍,Quantum-X光子Infiniband平台AI计算架构速度较前代提升2倍,可扩展性增强5倍 [14] - 英伟达光子交换机集成光通信创新技术,较传统方式减少75%激光器使用,能效提升3.5倍等;摩根大通报告指出CPO应用于GPU最早可能2027年实现,且面临多项技术挑战,对基板供应商是利好 [15] 分组4:软件升级 - 英伟达关注机器人、自动驾驶等领域,生成式AI改变计算方式,计算机成为token生成器,数据中心演变成AI工厂 [17] - 英伟达新推出AI推理服务软件Dynamo,支持下Blackwell推理性能可达上一代Hopper的40倍,能最大化AI工厂token收益,采用分离式推理架构实现高效AI推理计算 [18][19] - 英伟达推出Llama Nemotron系列推理模型和AI - Q,支持企业和开发者构建AI Agent,提升推理能力,减少开发成本和部署难度 [20] - 英伟达核心护城河CUDA是强大软硬件体系,已拥有各领域AI工具 [21] 分组5:端侧AI和机器人 - 英伟达推出基于NVIDIA Grace Blackwell平台的全新DGX个人AI超级计算机系列,包括DGX Spark和DGX Station,将原本仅限数据中心使用的架构性能引入桌面环境 [23][24] - 英伟达正式发布全球首款开源、可定制的通用人形机器人基础模型Isaac Groot(GROOT N1),采用双系统架构,可适配多种任务,已被多家机器人制造商采用 [25] - 英伟达推出一系列模拟框架和方案,在机器人基础模型和体系化解决方案上再次升级,摩根大通预计其在Physical AI方面会有更多突破 [26] 分组6:市场情绪 - 过去一季度AI领域变化大,英伟达GTC2025大会发布众多技术,但发布会结束后股价下跌3.43% [28] - 摩根大通报告指出整体AI市场情绪偏空,GTC大会有望提振部分正面情绪,改善Blackwell系统供应状况,预计2026年AI数据中心资本支出继续健康增长 [29]
黄仁勋年度演讲来了,Scaling Law失效只是假象,推理需求暴涨100倍,AI模型优化迎来新挑战|GTC 2025
AI科技大本营· 2025-03-19 09:49
演讲核心观点 - 英伟达推出下一代Blackwell Ultra芯片,提升AI训练和推理能力,并规划至2028年的芯片路线图[7][11][16] - 公司提出"AI工厂"概念,强调数据中心将从检索计算转向生成计算,预计到2028年数据中心资本支出超1万亿美元[43][69][71] - 发布个人AI超级计算机DGX Spark和DGX Station,面向模型微调与推理市场[19][21] - 布局量子计算领域,设立加速量子研究中心(NVAQC),推动量子计算与AI融合[23][25] - 推出人形机器人基础模型Isaac GR00T N1和开源物理引擎Newton,宣布"通用机器人时代已经到来"[31][33][165] 芯片与技术发布 - Blackwell Ultra芯片包含GB300 NVL72和HGX B300 NVL16两个版本,相比前代Hopper GPU,大语言模型推理速度提升11倍,算力增加7倍,内存容量扩大4倍[8] - 公布未来芯片路线图:2026年推出Rubin架构,2027年更新Rubin Ultra,2028年推出Feynman架构[11][14][16] - Rubin性能可达Hopper的900倍,Blackwell是Hopper的68倍[16] - 推出基于硅光子技术的Spectrum-X和Quantum-X交换机,能效提升3.5倍,信号稳定性提高63倍[28][30] AI与计算趋势 - 计算领域迎来拐点,AI增长加速,推理所需计算量比预期多100倍[43][63] - 从感知AI、生成式AI到自主式AI和物理AI的演进,每个阶段都带来新的市场机会[56] - 推出分布式推理服务库NVIDIA Dynamo,作为AI工厂的操作系统,并宣布开源[111][113] - 强调合成数据的重要性,需要生成万亿级token来训练AI模型[67] 行业应用与合作 - 与AWS、谷歌云、微软Azure等云服务商合作,将率先提供Blackwell Ultra实例[12] - 与戴尔、惠普、联想等服务器厂商合作,计划2025年底推出基于Blackwell Ultra的AI基础设施[12] - 与通用汽车(GM)合作构建未来自动驾驶车队,推出自动驾驶安全系统NVIDIA Halos[82][84] - 与思科、T-Mobile合作构建AI边缘计算无线网络堆栈[80] 机器人技术 - Isaac GR00T N1是全球首个开放且完全可定制的人形机器人基础模型,配套Isaac GR00T蓝图技术生成合成数据[31] - 开源物理引擎Newton由Google DeepMind和迪士尼共同开发,专为机器人设计[33] - 机器人Blue亮相,由Newton物理引擎驱动,展示具身智能技术进展[35][171] - 预测物理AI和机器人学将成为最大行业之一,机器人将作为数字工作者与人类并肩工作[148][165]