英伟达震惊世界的芯片

文章核心观点 - 英伟达计划在GTC 2026大会上发布多款足以震惊世界的新芯片,这些芯片旨在突破当前人工智能芯片面临的三重物理瓶颈:内存带宽差距、互连功耗以及大语言模型推理的结构性低效率 [2] - 英伟达与SK海力士工程师的会面,强烈暗示了存储器逻辑集成对于未来发展至关重要 [2] - 文章基于公开信息、学术论文和供应链数据,阐述了四种技术上可信的芯片发布情景 [2] 人工智能芯片面临的三重障碍 - 第一道墙:内存带宽差距:GPU计算能力每代提升3到5倍,而内存带宽仅增长2到3倍,导致GPU可能因数据供给不足而闲置。从H100(HBM3,约3.35 TB/s)到B200(HBM3e,约8 TB/s),再到R200(HBM4,约20.5 TB/s),带宽增长落后于算力增长 [5] - 第二道墙:互连电源:在高速率传输下,铜互连的物理限制导致信号损耗和功耗激增。例如,一个1.6Tbps的可插拔收发器消耗约30瓦,其中数字信号处理占一半以上,这正在蚕食计算能力 [6] - 第三道墙:LLM推理的结构性低效性:LLM推理分为预填充(计算密集型)和解码(内存带宽密集型)两个阶段,在同一GPU上运行会相互干扰。研究显示,将两阶段分离可在相同功耗和成本下提升2.35倍的吞吐量 [7] 潜在发布情景一:Rubin Ultra路线图成为现实 - 产品规格:Rubin Ultra将四个GPU计算芯片集成在一个封装内,配备16个HBM4E内存堆栈(1TB),在NVFP4模式下性能可达100 PFLOPS,功耗为3600W [8] - 技术挑战:封装尺寸巨大,可能采用两个中介层在基板层连接,需使用超过120mm × 120mm JEDEC规范的ABF基板 [10] - 系统性能:Rubin Ultra NVL576机架由144个封装组成,总计576个计算芯片,可提供15 ExaFLOPS的FP4算力,性能相当于GB300 NVL72的14倍 [10] - 发布时机:内存供应是关键,SK海力士已发布48GB 16层堆叠HBM4,三星也在进行HBM4测试。GTC 2026可能公布Rubin Ultra的具体生产日期和Kyber机架细节 [11] 潜在发布情景二:全硅光子堆栈 - 现有产品:英伟达在2025年GTC发布了基于硅光子技术的网络交换机Quantum-X(115 Tb/s)和Spectrum-X(最高400 Tb/s) [12] - 技术核心:采用微环调制器,在硅光子芯片上处理每个波长200 Gbps的PAM4调制,使用台积电COUPE工艺将电子与光子电路3D堆叠集成 [15] - 未来路线图:GTC 2026可能公布NVLink光纤架构路线图,实现GPU间互连从铜缆到光纤的过渡,以应对未来多机架互连的物理极限 [17] - 能效提升:Quantum-X800交换机与可插拔设备相比,能效提高3.5倍,网络弹性提高10倍 [18] 潜在发布情景三:专用推理芯片与异构架构 - Rubin CPX产品理念:这是一款仅用于推理的GPU,采用预填充-解码分解理念,用GDDR7替换HBM以降低成本,用CoWoS-S简化封装 [21] - 产品性能:其密集FP4计算能力约为20 PFLOPS,大约是R200密集FP4计算能力(约33 PFLOPS)的60%,显著高于消费级GPU的比例 [21] - 系统配置:Vera Rubin NVL144 CPX机架包含72个R200 GPU封装和144个CPX GPU,提供8 ExaFLOPS NVFP4算力,AI推理性能较GB300 NVL72提升7.5倍 [22] - 战略整合:英伟达收购Groq的LPU技术,后者专用于解码阶段。结合R200(训练/通用推理)、CPX(预填充)和Groq LPU(解码),正在形成针对不同推理阶段的异构架构 [23][25] 潜在发布情景四:长期方向——3D IC内存堆叠 - 当前局限:现有2.5D CoWoS封装中GPU与HBM并排,导致封装尺寸大、中介层成本高、数据传输距离达几毫米 [28] - 未来方案:3D IC架构将DRAM芯片垂直堆叠在GPU上方,可大幅降低延迟、提高带宽和能效。SK海力士计划从HBM5代(预计2028-2029年)引入此架构 [29] - 技术挑战:面临GPU散热影响DRAM、以及多层堆叠导致良率下降(例如GPU良率85%加八个HBM良率95%,总良率仅约56%)等根本性障碍 [30][31] - 预计时间表:HBM4/E仍为2.5D,是3D的“准备阶段”;HBM5可能是首次3D HBM尝试,与英伟达Feynman平台时间表一致;HBM6及以后3D IC将走向主流 [37] - GTC 2026可能性:大会可能正式宣布英伟达与SK海力士联合开发3D芯片 [33]