光子互连技术
搜索文档
英伟达加速拥抱光芯片
半导体行业观察· 2026-04-06 10:14
文章核心观点 - 英伟达计划在2028年前利用光子互连技术,将超过一千个GPU集成到一个巨型系统中,以突破当前铜互连的物理限制,构建更庞大的人工智能计算集群 [1] - 为实现这一目标,英伟达正积极投资并布局光学和互连技术供应链,包括向Marvell、Coherent和Lumentum等公司投资数十亿美元,为未来系统的广泛部署奠定基础 [1][11] - 公司的技术路线图显示,其互连策略正从依赖铜缆和可插拔光模块,向结合共封装光学(CPO)等先进技术演进,以解决功耗、带宽和扩展距离问题 [4][6][8] 英伟达的互连技术演进与挑战 - 2022年底,面对ChatGPT等大模型需要数千个GPU进行训练的需求,英伟达意识到其当时最强大的系统(仅8个GPU)和网络速度已无法满足,需要更大的处理器或更快的网络 [1] - 2024年GTC大会发布的Grace Blackwell NVL72是一个功率达120千瓦的巨型机器,采用铜质背板连接36个节点和72个GPU,实现了1.8 TB/s的传输速率,但铜线信号衰减限制了其传输距离仅为几英尺 [2] - 铜线的距离局限性迫使英伟达必须将尽可能多的GPU塞进单个机架,而公司正迅速接近铜的物理极限,需要采用光学技术来组装更大的GPU系统 [2] 从可插拔光模块到共封装光学(CPO)的转变 - 在NVL72机架设计初期,连接加速器的商业可行方法是使用可插拔光学模块,但为达到1.8 TB/s带宽,每块Blackwell GPU需要18个800 Gbps模块,导致72块GPU总功耗额外增加约20,000瓦 [4] - 2025年,英伟达成为首批将CPO技术集成到Spectrum以太网和Quantum InfiniBand交换机中的AI基础设施提供商之一,这显著减少了构建AI训练集群所需的可插拔组件数量 [5] - CPO技术将光引擎直接集成到交换机ASIC旁,有助于降低功耗,但直到最近,公司才开始探讨在其核心的NVSwitch架构中使用光模块和CPO [4][5] 下一代系统:Vera Rubin与Feynman的光学扩展 - 在2026年GTC大会上,英伟达推出了Vera Rubin NVL576和Rosa Feynman NVL1152多机架系统,计划利用光子学将计算域扩展八倍 [6] - Vera Rubin NVL576将采用铜和光纤互连的组合,网络第一层(机架内)使用铜缆,第二层主干网将采用可插拔光模块 [6] - 预计于2028年中后期出货的Feynman一代系统将提供铜缆或共封装光纤NVLink互连两种选择,公司可能将CPO集成到NVLink交换机ASIC或甚至GPU封装中,以简化网络架构、降低延迟 [8][9] 供应链投资与战略布局 - 为保障未来光学互连所需的核心组件供应,英伟达在过去一个月向光学激光器公司Coherent和Lumentum分别投资20亿美元,总计40亿美元 [11] - 公司还与Marvell达成一项20亿美元的合作协议,合作内容包括将NVLink Fusion技术集成到定制XPU中,以及共同开发光纤I/O技术 [11] - Marvell以32.5亿美元收购Celestial AI的交易可能与此相关,后者的光子互连技术可用于构建跨机架的相干存储网络,这对英伟达及其大客户(如AWS)具有吸引力 [11][12]