英伟达Rubin CPX GPU架构变革 - 英伟达推出专为长上下文AI工作负载设计的Rubin CPX GPU 采用成本更低的GDDR7内存而非高端HBM方案 颠覆以往AI芯片搭载HBM的惯例 [1][2] - 该芯片定位解耦推理架构中的上下文阶段主力 在NVFP4格式下提供30 PFLOPs算力并搭载128 GB GDDR7显存 而标准版Rubin GPU专注于生成阶段 提供50 PFLOPs FP4算力及288 GB HBM4显存 [3][5] - 整体系统Vera Rubin NVL144 CPX机架计划2026年推出 包含144块Rubin GPU和144块Rubin CPX GPU 性能达8 ExaFLOPs NVFP4 是现役GB300 NVL72的7.5倍 [3][4] HBM与GDDR7的技术经济性对比 - HBM成本高昂且存在带宽闲置问题 在推理任务的预填充阶段因并行度高 其额外带宽未被充分利用 而解码阶段才真正需要高带宽 [8][11] - GDDR7在预填充阶段带宽和延迟已足够 配合HBM在生成阶段的分工 既保障性能又降低系统总成本 使显存成本占比大幅下降 [9] - 选择GDDR7可降低预填充与token的单位成本 可能刺激推理需求增长 进而反向推动解码阶段对HBM带宽的更高需求 [9] 内存供应链格局变化 - 英伟达对GDDR7需求激增 要求三星将产量翻倍 三星已完成扩产准备并预计本月启动量产 而SK海力士和美光产能更多锁定HBM订单 [10] - 针对中国市场的新产品"B40"将搭载三星GDDR7 预计年出货量达100万片 仅GDDR7基板需求约2000亿韩元 整体订单规模或达数万亿韩元 [12] - 三星凭借GDDR7订单巩固图形DRAM市场地位 并积极争取HBM4供应资格 计划用1c存储单元技术实现反超 [12] HBM技术发展持续 - SK海力士宣布完成全球首款HBM4开发并做好量产准备 强调通过性能、功耗和可靠性优势保持AI存储器领域领先地位 [13] - 行业仍持续追求性价比优化 HBM4被视为新里程碑 但巨头竞争焦点同时涵盖高端HBM和成本更优的替代方案 [13]
HBM,碰壁了