英伟达震惊世界的芯片

文章核心观点 - 英伟达计划在GTC 2026大会上发布多款足以震惊世界的新芯片，这些芯片旨在突破当前人工智能芯片面临的三重物理瓶颈：内存带宽差距、互连功耗以及大语言模型推理的结构性低效率 [2] - 英伟达与SK海力士工程师的会面，强烈暗示了存储器逻辑集成对于未来发展至关重要 [2] - 文章基于公开信息、学术论文和供应链数据，阐述了四种技术上可信的芯片发布情景 [2] 人工智能芯片面临的三重障碍 - 第一道墙：内存带宽差距：GPU计算能力每代提升3到5倍，而内存带宽仅增长2到3倍，导致GPU可能因数据供给不足而闲置。从H100（HBM3，约3.35 TB/s）到B200（HBM3e，约8 TB/s），再到R200（HBM4，约20.5 TB/s），带宽增长落后于算力增长 [5] - 第二道墙：互连电源：在高速率传输下，铜互连的物理限制导致信号损耗和功耗激增。例如，一个1.6Tbps的可插拔收发器消耗约30瓦，其中数字信号处理占一半以上，这正在蚕食计算能力 [6] - 第三道墙：LLM推理的结构性低效性：LLM推理分为预填充（计算密集型）和解码（内存带宽密集型）两个阶段，在同一GPU上运行会相互干扰。研究显示，将两阶段分离可在相同功耗和成本下提升2.35倍的吞吐量 [7] 潜在发布情景一：Rubin Ultra路线图成为现实 - 产品规格：Rubin Ultra将四个GPU计算芯片集成在一个封装内，配备16个HBM4E内存堆栈（1TB），在NVFP4模式下性能可达100 PFLOPS，功耗为3600W [8] - 技术挑战：封装尺寸巨大，可能采用两个中介层在基板层连接，需使用超过120mm × 120mm JEDEC规范的ABF基板 [10] - 系统性能：Rubin Ultra NVL576机架由144个封装组成，总计576个计算芯片，可提供15 ExaFLOPS的FP4算力，性能相当于GB300 NVL72的14倍 [10] - 发布时机：内存供应是关键，SK海力士已发布48GB 16层堆叠HBM4，三星也在进行HBM4测试。GTC 2026可能公布Rubin Ultra的具体生产日期和Kyber机架细节 [11] 潜在发布情景二：全硅光子堆栈 - 现有产品：英伟达在2025年GTC发布了基于硅光子技术的网络交换机Quantum-X（115 Tb/s）和Spectrum-X（最高400 Tb/s） [12] - 技术核心：采用微环调制器，在硅光子芯片上处理每个波长200 Gbps的PAM4调制，使用台积电COUPE工艺将电子与光子电路3D堆叠集成 [15] - 未来路线图：GTC 2026可能公布NVLink光纤架构路线图，实现GPU间互连从铜缆到光纤的过渡，以应对未来多机架互连的物理极限 [17] - 能效提升：Quantum-X800交换机与可插拔设备相比，能效提高3.5倍，网络弹性提高10倍 [18] 潜在发布情景三：专用推理芯片与异构架构 - Rubin CPX产品理念：这是一款仅用于推理的GPU，采用预填充-解码分解理念，用GDDR7替换HBM以降低成本，用CoWoS-S简化封装 [21] - 产品性能：其密集FP4计算能力约为20 PFLOPS，大约是R200密集FP4计算能力（约33 PFLOPS）的60%，显著高于消费级GPU的比例 [21] - 系统配置：Vera Rubin NVL144 CPX机架包含72个R200 GPU封装和144个CPX GPU，提供8 ExaFLOPS NVFP4算力，AI推理性能较GB300 NVL72提升7.5倍 [22] - 战略整合：英伟达收购Groq的LPU技术，后者专用于解码阶段。结合R200（训练/通用推理）、CPX（预填充）和Groq LPU（解码），正在形成针对不同推理阶段的异构架构 [23][25] 潜在发布情景四：长期方向——3D IC内存堆叠 - 当前局限：现有2.5D CoWoS封装中GPU与HBM并排，导致封装尺寸大、中介层成本高、数据传输距离达几毫米 [28] - 未来方案：3D IC架构将DRAM芯片垂直堆叠在GPU上方，可大幅降低延迟、提高带宽和能效。SK海力士计划从HBM5代（预计2028-2029年）引入此架构 [29] - 技术挑战：面临GPU散热影响DRAM、以及多层堆叠导致良率下降（例如GPU良率85%加八个HBM良率95%，总良率仅约56%）等根本性障碍 [30][31] - 预计时间表：HBM4/E仍为2.5D，是3D的“准备阶段”；HBM5可能是首次3D HBM尝试，与英伟达Feynman平台时间表一致；HBM6及以后3D IC将走向主流 [37] - GTC 2026可能性：大会可能正式宣布英伟达与SK海力士联合开发3D芯片 [33]