AI工厂

搜索文档
NVIDIA GTC 2025:GPU、Tokens、合作关系
Counterpoint Research· 2025-04-03 10:59
AI经济与Tokens化 - Tokens是用于检索或生成信息的新型"货币",推动AI经济发展,需要大量算力支持[1] - AI推理模型复杂度提升需要更高准确性,组织机构需遵循预训练、后训练和测试时的扩展流程[1] - NVIDIA愿景聚焦构建跨行业"AI工厂",涵盖企业IT、云计算到机器人技术[1] NVIDIA芯片技术进展 - 发布Blackwell超级AI工厂平台GB300 NVL72,AI性能比GB200 NVL72提升1.5倍[6] - 公布芯片路线图,支持从Hopper系列升级到Rubin/Feynman系列,Rubin Ultra采用四掩模版GPU,FP4精度达100 petaFLOPS,搭载1TB HBM4e存储器[6] - 新款Vera CPU拥有88个Arm核心,性能是Grace CPU两倍,功耗仅50W,更新周期两年[6] - 推出Spectrum-X硅光子学产品,可横向扩展至数百万GPU,节省数兆瓦电力[6] 系统与基础设施 - 发布DGX SuperPOD GB300,配备36个Grace CPU和72个Blackwell GPU,AI性能比Hopper系统高70倍[10] - 采用第五代NVLink技术和大规模共享内存系统,可扩展至数千个GB超级芯片[10] - 推出1 petaFLOPS的个人超级计算机系统GB10,针对桌面优化微调与推理[14] 软件生态系统 - Dynamo开源框架提升AI推理效率,可使GPU的Tokens生成能力提升30倍以上[19] - Halos平台整合自动驾驶安全系统,覆盖从芯片到算法全链条[20] - CUDA-X拥有超100万开发者,成为最受欢迎的AI编程工具包[23] - 发布Isaac GR00T N1人形机器人基础模型,采用双系统架构模拟人类决策与反射[25] 行业应用拓展 - Aerial平台构建端到端AI驱动的6G技术栈,与T-Mobile等合作开发原生AI网络[23] - Omniverse-Cosmos平台支持机器人训练与场景微调,与DeepMind合作开发物理引擎[25] - 软件专业技术是NVIDIA核心优势,推动高性能芯片在HPC、自动驾驶等领域的应用[25]
刚刚,老黄携GB300震撼登场!DeepSeek推理暴涨40倍加速全球最快,26年Rubin问世
创业邦· 2025-03-19 11:17
文章核心观点 英伟达在GTC大会展示过去一年进展,发布新产品路线图,强调Scaling Law未撞墙,未来数据中心建设规模将达万亿美元,还推出开源推理软件和通用机器人模型,有望在AI和机器人领域持续引领发展[1][23][27] 分组1:大会亮点与行业趋势 - 英伟达老黄在GTC大会介绍过去一年进展,称今年GTC是AI的超级碗,每个人都是赢家 [2] - Blackwell全面投产,因AI拐点至,训练推理AI/智能体系统对计算量需求大增 [3] - 英伟达预言未来有工厂的公司将有实体工厂和AI工厂,CUDA核心及算力将引爆行业变革 [4] - 通用计算到尽头,行业正从通用计算机转向加速器和GPU上运行的机器学习软件,计算机成为生成token的工具 [28] - 加速计算趋势无法阻挡,AI将进入各行业,英伟达CUDA - X库为科学领域提供加速框架 [29] 分组2:产品路线图 - AI芯片每年一更,下一代Rubin明年亮相,英伟达构建云上、企业和机器人AI基础设施 [5][8] - 今年下半年将问世的Blackwell Ultra提升训练和测试时推理能力,显存从192GB提升到288GB,GB300 NVL72的AI性能比NVIDIA GB200 NVL72高出1.5倍 [6][7] - 2026年下半年预计发布Vera Rubin,推理时每秒50千万亿次浮点运算,比Blackwell速度高出一倍多,显存升级为HBM4,带宽从8TB/s提高到13TB/s,扩展NVLink吞吐量提升到260TB/s,机架间CX9链路达28.8TB/s [9][10] - 2027年下半年预计推出Rubin Ultra版本,FP4精度推理性能达15 ExaFLOPS,FP8精度训练性能为5 ExaFLOPS,相比GB300 NVL72性能有14倍提升,配备HBM4e内存,带宽为4.6 PB/s,支持NVLink 7,带宽为1.5 PB/s,较上一代提升12倍,机架支持CX9,带宽达115.2 TB/s [11] - 2028年将上市Feynman,命名致敬美国理论物理学家Richard Feynman [17] 分组3:桌面级产品 - 推出Blackwell RTX PRO工作站和服务器系列,包括数据中心、桌面和笔记本GPU,为开发者等提供AI支持,RTX PRO 6000 Blackwell吞吐量高达1.5倍,第五代Tensor Core每秒4000万亿次AI运算,第四代RT Core性能提升2倍 [19] - 带来两款由Blackwell驱动的DGX个人桌面AI超级计算机DGX Spark和DGX Station,DGX Spark是最小的AI超级计算机,配备128GB内存,核心是GB10 Grace Blackwell超级芯片,每秒1000万亿次AI计算能力;DGX Station将数据中心级性能带到桌面,采用GB300 Grace Blackwell Ultra桌面超级芯片,配备784GB统一内存 [20][22] 分组4:Scaling Law与数据中心 - 老黄称Scaling Law没撞墙,推理计算量需求大增,数据可通过强化学习和合成数据获取,AI处于转折点 [25][26] - 2024年全球TOP 4云服务商买进130万块Hopper架构芯片,预计2028年数据中心建设规模达一万亿美元 [27] 分组5:架构与扩展 - 英伟达通过网络InfiniBand和Spectrum X实现scale up,Spectrum X具备低延迟和拥塞控制特性,成功扩展最大单GPU集群 [14] - 官宣首个共封装硅光子系统,每秒1.6T的CPO,基于「微环谐振器调制器」技术,用台积电工艺构建,可扩展至数十万甚至百万GPU规模 [15][16] - HGX系统架构解决纵向扩展问题,包含8个GPU,通过MVLink 8连接到CPU架,再通过PCI Express连接,用InfiniBand连接多个设备,NVLink交换机让GPU全带宽通信,液冷压缩计算节点,实现一个机架Exaflops级超算 [31][32][33] 分组6:推理Scaling问题与解决 - 推理Scaling是「终极计算」问题,推理中响应时间和吞吐量存在矛盾,需最大化生成token曲线下方面积,还需巨大带宽和浮点运算能力 [36] - 传统LLM用不到500个token快速回答问题但结果错误,推理模型需超8000个token推理简单问题,计算量增加150倍,万亿级参数模型需通过管线、张量和专家并行组合解决,NVlink可实现规模终极Scaling [37][38][39] 分组7:NVIDIA Dynamo - 发布开源推理软件NVIDIA Dynamo,被称为「AI工厂的操作系统」,能协调加速数千个GPU间推理通信,分配LLM处理和生成阶段到不同GPU,优化GPU资源利用 [41][42] - Dynamo能让运行Llama模型的AI工厂在Hopper架构上性能和收入双双翻倍,在GB200 NVL72集群上运行DeepSeek - R1模型时,每个GPU生成token数量提升超30倍,还能动态分配GPU、卸载推理数据降低成本 [42] - Dynamo完全开源,支持PyTorch、SGLang、NVIDIA TensorRT - LLM和vLLM [43] 分组8:性能对比与效益 - 新的Blackwell架构比Hopper强,能耗固定时性能提升25倍,推理模型上高40倍,用MVLink 8技术加速,引入4位浮点数优化,能效高的架构对未来数据中心重要 [44] - Blackwell扩展到MVLink 72加上Dynamo软件效果更好,能适应不同工作负载,老黄认为大型项目投资最新技术如Blackwell可避免落后,买得越多赚得越多 [45][46] 分组9:通用机器人模型 - 预计本世纪末世界劳动力短缺超5000万,通用机器人时代到来,具身智能遵循三大Scaling Law,数据短缺问题可由英伟达Omniverse和Cosmos解决 [48][49] - 官宣世界首个开源、完全可定制的通用人形机器人模型GROOT N1,采用「双系统架构」,慢思考系统推理规划行动,快思考系统转化为精确动作,可执行多步骤任务 [50][51][52] - 与DeepMind、迪士尼研究开发下一代开源的Newton物理引擎,让机器人精确处理复杂任务,以星球大战BDX机器人为灵感的Blue上台互动,老黄预言机器人领域将成最大产业 [54][55][56]
黄仁勋年度演讲来了,Scaling Law失效只是假象,推理需求暴涨100倍,AI模型优化迎来新挑战|GTC 2025
AI科技大本营· 2025-03-19 09:49
演讲核心观点 - 英伟达推出下一代Blackwell Ultra芯片,提升AI训练和推理能力,并规划至2028年的芯片路线图[7][11][16] - 公司提出"AI工厂"概念,强调数据中心将从检索计算转向生成计算,预计到2028年数据中心资本支出超1万亿美元[43][69][71] - 发布个人AI超级计算机DGX Spark和DGX Station,面向模型微调与推理市场[19][21] - 布局量子计算领域,设立加速量子研究中心(NVAQC),推动量子计算与AI融合[23][25] - 推出人形机器人基础模型Isaac GR00T N1和开源物理引擎Newton,宣布"通用机器人时代已经到来"[31][33][165] 芯片与技术发布 - Blackwell Ultra芯片包含GB300 NVL72和HGX B300 NVL16两个版本,相比前代Hopper GPU,大语言模型推理速度提升11倍,算力增加7倍,内存容量扩大4倍[8] - 公布未来芯片路线图:2026年推出Rubin架构,2027年更新Rubin Ultra,2028年推出Feynman架构[11][14][16] - Rubin性能可达Hopper的900倍,Blackwell是Hopper的68倍[16] - 推出基于硅光子技术的Spectrum-X和Quantum-X交换机,能效提升3.5倍,信号稳定性提高63倍[28][30] AI与计算趋势 - 计算领域迎来拐点,AI增长加速,推理所需计算量比预期多100倍[43][63] - 从感知AI、生成式AI到自主式AI和物理AI的演进,每个阶段都带来新的市场机会[56] - 推出分布式推理服务库NVIDIA Dynamo,作为AI工厂的操作系统,并宣布开源[111][113] - 强调合成数据的重要性,需要生成万亿级token来训练AI模型[67] 行业应用与合作 - 与AWS、谷歌云、微软Azure等云服务商合作,将率先提供Blackwell Ultra实例[12] - 与戴尔、惠普、联想等服务器厂商合作,计划2025年底推出基于Blackwell Ultra的AI基础设施[12] - 与通用汽车(GM)合作构建未来自动驾驶车队,推出自动驾驶安全系统NVIDIA Halos[82][84] - 与思科、T-Mobile合作构建AI边缘计算无线网络堆栈[80] 机器人技术 - Isaac GR00T N1是全球首个开放且完全可定制的人形机器人基础模型,配套Isaac GR00T蓝图技术生成合成数据[31] - 开源物理引擎Newton由Google DeepMind和迪士尼共同开发,专为机器人设计[33] - 机器人Blue亮相,由Newton物理引擎驱动,展示具身智能技术进展[35][171] - 预测物理AI和机器人学将成为最大行业之一,机器人将作为数字工作者与人类并肩工作[148][165]