英伟达GTC大会核心发布 - 英伟达发布全新Blackwell Ultra AI芯片,代号GB300,接棒B200成为新一代最强AI芯片,性能参数包括20 petaflops AI算力、288GB HBM3e内存、1.1 ExaFLOPS FP4推理能力 [8][10][11] - 推出两款AI PC产品:DGX Station(配备784GB系统内存和800Gbps网络)和DGX Spark(每秒1000万亿次AI计算),支持本地大模型部署 [12][13][16] - 下一代AI芯片Rubin官宣,2026年推出,性能达Hopper的900倍,配备HBM4内存和NVLink6技术,FP4推理算力3.6 ExaFLOPS [17][19][20][21] - Rubin Ultra版本将于2027年推出,集成4颗GPU,每颗提供100 petaflops FP4算力和1TB HBM4e内存 [27][28] 技术突破与性能提升 - Blackwell Ultra在FP8训练任务中达1.2 ExaFLOPS,内存带宽14.4TB/s(前代2倍),快速内存40TB(前代1.5倍) [11] - Rubin芯片采用双GPU设计,支持288GB HBM4内存,推理算力50 petaflops(Blackwell的2.5倍) [23][24] - 网络技术升级:Spectrum-X以太网和Quantum-X InfiniBand交换机提供800Gb/s吞吐量,Quantum-X可扩展性达前代5倍 [12][30][32] - CPO光电集成技术显著提升交换机能效:传输效率提高、功耗降低30%、体积缩小50% [34][38] 行业应用与生态布局 - 提出"AI工厂"概念,推出专用操作系统Dynamo,具备GPU动态调度、智能路由、低延迟通信和内存管理功能 [36][39][42] - 发布全球首款开源人形机器人模型Isaac GR00T N1,采用双系统认知架构,支持工厂任务和家庭服务 [41][44][46] - 与Google DeepMind和Disney合作开发开源物理引擎Newton,现场展示交互机器人"Blue" [45][47] - 8块Blackwell GPU实现DeepSeek-R1模型全球最快推理:每秒30000 token,吞吐量较1月提升36倍,成本效率提高32倍 [49][50] 市场竞争与战略方向 - 行业重心从训练转向推理,强调推理成本效率而非单纯算力堆积,Blackwell架构使100MW工厂硬件需求减少 [4][6][56] - 面临Meta/Google自研芯片竞争,通过提升推理场景技术优势(如FP4精度吞吐量达前代3倍)对冲训练需求见顶风险 [58][59] - 产品迭代周期缩短至1年,同步布局量子计算领域,但未在主题演讲中重点提及 [52][53] - 软件生态建设加速:优化TensorRT-LLM等工具链,支持PyTorch/TensorFlow框架,推动算力向行业生产力转化 [50][54]
黄仁勋甩出三代核弹AI芯片,DeepSeek成最大赢家