Workflow
Passage M1000
icon
搜索文档
光物质通道:AI 用 3D 光子互连板 --- Lightmatter Passage _ A 3D Photonic Interposer for AI
2025-09-22 08:59
**涉及的公司和行业** * **公司**:Lightmatter、Nvidia、Cerebras、Graphcore、Tachyum、AMD、Intel、Cisco、Meta、台积电(TSMC)、GlobalFoundries [1][7][13][30][44][55][69][122][129][138][204] * **行业**:人工智能(AI)加速器、高性能计算(HPC)、光子计算、先进半导体封装、数据中心互连技术 [3][7][11][13][21][28][29][42][81][82][122][138][140][141][142][148][149][155][156] **核心观点和论据** **现代AI训练的规模化挑战** * AI模型规模及其计算需求呈指数级增长,从数百万参数发展到数百亿甚至数万亿参数 [3][4] * 训练大型语言模型如GPT-3和GPT-4需要数千个GPU组成的分布式系统 [3][4] * 扩展面临双重瓶颈:摩尔定律放缓限制单芯片性能提升,多节点分布式训练引入巨大通信开销和同步延迟,使网络带宽成为关键瓶颈 [7][8][10][11] * 英伟达CEO指出,最新AI训练和推理工作负载的计算需求相比一年前的预期激增了高达100倍 [7][8] * 现代大规模AI训练陷入困境:依赖大规模GPU集群导致网络瓶颈和功耗飙升,依赖单节点性能提升则遇到半导体扩展、热管理和功率密度的限制 [10][11] * 克服计算和通信的双重瓶颈已成为后摩尔定律时代整个行业的共同挑战 [11] **Lightmatter Passage光子互连技术** * Lightmatter Passage M1000"超级芯片"平台采用创新的3D光子堆叠架构,旨在解决芯片间连接能力不足的核心瓶颈 [13][14] * 该平台在一个光子互连板上集成多达34个芯片片,总等效晶粒面积达到4,000 mm²,超越传统光刻掩模单芯片的极限 [13][14] * 提供前所未有的互连带宽:总双向带宽为114 Tbps,包含1,024条高速SerDes通道,使每个集成计算芯片片能访问每秒多太比特的I/O带宽,有效突破传统单芯片外围I/O引脚限制的瓶颈 [17] * 通过光子堆栈,众多芯片片可共享高速光通信背板,以接近单片的效率协作,为应对AI规模扩大挑战提供新途径 [21] * 技术细节:采用2×4瓦片结构,8个光互连模块拼接;每个瓦片集成16条水平光总线,每条总线支持2个全双工光链路;每个光链路通过波分复用(WDM)使用8个波长,每个波长56 Gbps,实现每链路448 Gbps,每条光总线总吞吐量接近1 Tbps [97][98][99] * 集成光电路开关,可编程改变波导连接性,实现动态可重构的光通信网络,提高系统容错能力 [103] * 利用微环调制器等紧凑光器件实现极高I/O密度,整个M1000分布有1,024个SerDes通道,通过3D堆叠垂直光耦合绕过传统电I/O的平面限制 [104][105] * 通过256根光纤与外部连接,每根光纤支持双向多波长传输,显著提升连接效率 [106][107] * 目标是将传统扩展环境中数十甚至数百个模块的通信需求浓缩成一个单一的扩展超级包,实现"芯片内的计算,芯片内的通信" [108] **光子计算的技术验证与比较** * 《自然》杂志发表的论文验证了光子学在AI加速方面的可行性,展示了首个能执行ResNet和BERT等高级神经网络的光子处理器,在多个复杂任务中实现接近32位浮点数字加速器的精度 [22][23] * 该光子处理器采用多芯片集成封装,垂直组合六个芯片(四个128×128光子张量核心PTCs和两个12nm数字控制接口DCIs),通过高速接口连接光子计算芯片与电子控制芯片 [23][24] * 在测试中实现每秒65.5万亿次的16位运算,仅消耗约78瓦电能加1.6瓦光能,实现"接近电子精度",标志着光子计算实际应用的重要一步 [26][27] * 与Lightmatter Passage比较:《自然》处理器专注于光子核心层面的张量计算,证明光子计算核心可与电子加速器竞争;Passage则专注于跨芯片互连,提供革命性数据传输架构 [28][29][116] * 两者互补:《自然》处理器增强模块内计算性能,Passage扩展模块间通信带宽,共同预示混合电子-光子架构的未来 [28][29][82][83][116][121] **与其他行业玩家的比较分析** * **Nvidia**:继续依靠GPU集群扩展和先进封装,其Blackwell Ultra GPU采用双芯片设计,拥有2080亿晶体管,性能比H100提高约50% [30][31];计划推出的Vera Rubin超级芯片结合Rubin GPU和Vera CPU,基于3nm工艺和HBM4内存(带宽13 Tbps),提供50 PFLOPS(4位)推理性能,约为Blackwell的2.5倍;Rubin Ultra通过封装两个Rubin GPU预计达100 PFLOPS FP4性能 [34][35];升级互连技术,NVLink 6提供每节点3.6 Tbps带宽,并推出基于光学的数据中心交换机(如Spectrum-X, Quantum-X),端口速度达800 Gbps [36][37];但其电气互连的功率和距离限制突出,单个Vera Rubin机架功耗高达600 kW [39][40];Passage通过光互连在单机内实现十到数百Tbps联网能力,将数据中心级通信压缩成"超级芯片",简化部署并提高效率 [42][127][128] * **Cerebras**:采取极端规模扩展策略,构建晶圆级引擎(WSE),第三代WSE-3单个芯片面积46,250 mm²,集成4万亿晶体管、90万个核心、42 GB片上SRAM,片上内存带宽达21 PB/s [44][45];可将24万亿参数模型全部权重集成在单芯片中,提供极高内部带宽密度(约为Nvidia H100的7,000倍)和超低延迟 [47][48];但面临制造良率、热管理(单个CS-3系统耗电15 kW)和成本挑战,超出一块晶圆的扩展仍依赖外部电互连(以太网/InfiniBand) [49][50];Passage通过光互连在标准芯片片间实现近乎单片的带宽通信,提供更好的成本效益和灵活性 [52][53] * **Graphcore**:专注于先进封装和内存架构创新,其第二代IPU集成900 MB分布式SRAM,通过近内存设计提供260 TB/s片上内存带宽 [55];Bow IPU采用台积电晶圆上晶圆(WoW)3D堆叠技术,将计算晶圆与电源供应晶圆直接粘合,运行频率从1.35 GHz提升至1.85 GHz,性能提升约40%,能效提升16% [58][59];但其IPU间通信仍依赖电接口,在大规模扩展时效率低于光互连 [61][62];Passage专注于打破跨芯片通信瓶颈,而Graphcore强调芯片内带宽和功率传输提升,未来结合两者技术可能解锁更高性能 [66][67] * **Tachyum**:追求"通用处理器"路线,其Prodigy芯片采用多核设计,提供192个64位核心,AI性能媲美GPU,强调核心功耗比传统处理器低一个数量级,支持统一架构处理推理、训练和通用计算 [69][70][74];在互连方面采用UCIe开放芯片片标准,并与光连接器供应商合作引入光纤高速连接增强节点间通信 [74][75][76];但其超大型模型训练仍需多芯片集群,节点间互连是关键,其光连接方法侧重于板级或机架级改进,而Passage将光集成到封装级互连结构,实现更深集成和更高带宽密度 [77][78] * **AMD MI300**:将CPU、GPU和HBM集成在一个封装中,采用芯片片堆叠和3D V-Cache技术,实现CPU和GPU共享缓存一致性和巨大HBM容量,代表另一种规模扩展方法 [129];封装集成多达九个芯片(三个计算芯片和六个HBM3堆叠),通过Infinity架构提供数百GB/s CPU-GPU通信和超过1 TB/s内部内存带宽 [131][132];但跨插槽或多节点通信仍依赖电互连(Infinity Fabric或以太网),封装和功率限制集成芯片数量 [135];Passage的3D光子堆叠提供更激进的扩展路径,使任意数量芯片片通过光子底板互连,形成"巨型APU" [136][137] * **系统互连趋势**:超大规模数据中心探索光背板和光子交换机,Meta提出构建"AI超级网络"光学织物,Intel和思科开发共封装光学(CPO)交换机,将光收发器直接置于交换机ASIC旁 [138][139];这些努力可视为系统级规模扩展,将整个网络视为单台计算机;Passage是此概念在机器级的延伸,提供模块化光子互连平台 [140][141];行业趋势是铜链路逐渐被光纤取代,光子互连成为从处理器内部到数据中心网络的焦点 [141] **铜互连的局限性与光子互连的优势** * **铜互连局限**:传输距离有限,高频下信号衰减严重,仅几厘米后即需中继器,增加功耗和延迟 [157][159][160];功耗随距离线性或更快增加,现代高速SerDes每比特消耗数皮焦耳,例如Nvidia H100的NVLink带宽约900 GB/s,I/O能耗可达数十瓦,扩展到数百Tbps需求时,纯电方案不切实际 [163][164][165];I/O引脚数量和布线密度是基本瓶颈,计算性能增长快于I/O增长,导致"计算快但数据移不出"的瓶颈 [167][168];功率密度(W/mm²)持续上升,对封装材料和热管理提出更高要求,先进GPU已达0.5–0.7 W/mm²,需要大型散热器和液冷,3D集成中多芯片片集中热量加剧冷却挑战 [170][171][172][173] * **Passage光子方案优势**:用光波导和光纤替代铜线,光信号在硅波导中损耗极低,可实现芯片间或机架级传输而无须中继器 [176][177];利用波分复用(WDM)提升带宽密度,每个波导8个波长各56 Gbps,达448 Gbps,16个波导组成~7.17 Tbps光总线,远超铜线密度 [179][180];单根光纤传输16个双向波长,提供~1 Tbps全双工吞吐量,功耗仅~100 mW/光纤,而铜线实现同等带宽需数十至数百高速通道,体积和功耗大得多 [181][182];采用微环谐振器调制器,Tx/Rx对仅占0.006 mm²(比电SerDes小约3倍),驱动功率~1 mW/设备,调制能量~0.018 pJ/比特,总能量/比特预计接近1 pJ,比先进铜SerDes高效数倍 [184][185];内部测试显示光链路在56 Gbps NRZ和112 Gbps PAM4下稳定运行,误码率达标,眼图开放,TDECQ消光比仅0.83 dB [187][188];3D堆叠结合强大电源和热管理,光子互连板集成密集TSV电源通孔,承载>2.5 A/mm²电流,支持多个150–200W级计算芯片同时工作而无供电瓶颈 [189][190][191];热管理上,3D堆叠缩短热路径,计算芯片可从顶部直接冷却,集中式热设计更易优化(如使用单一片冷板) [193][194];证明即使节点聚合数千TB/s带宽和接近千瓦级功率也能在物理限制内可靠运行,为突破铜互连约束提供明确路径 [195][196] * **行业应对比较**:Nvidia和AMD在封装级优化,如HBM通过硅中介层直接连GPU,缩短路径至毫米级,实现>1 TB/s GPU内存带宽 [204];交换机中CPO成为热点,思科和微软测试将光收发器嵌入交换机ASIC旁,实现直接光I/O [206];Passage将CPO概念从板级推进至芯片间光互连,Nvidia计划在未来Kyber机架采用CPO支持600 kW GPU系统,而Passage已在单超级模块内展示数百Tbps连接,减少对机架级交换机的依赖 [206][207];为降低铜互连功耗,行业投资SerDes创新(如PAM4、DSP/FEC均衡),但常以功耗换带宽,新一代技术提高每比特能量 [208][209];Graphcore降低每通道速度但在封装内集成更多芯片片以分散功耗,但仍依赖传统互连进行跨卡扩展,且I/O驱动摆幅电压缩放放缓,未来电I/O可能消耗系统大部分功率 [210][211];光子互连成为必然路径,不受RC约束,可长距离低功率传输,微环调制器能效高;Lightmatter报告其3D光子CPO相比传统2D CPO在功率减半下实现8倍带宽提升,是量级飞跃 [213];光子学引入新维度解决电学权衡:光信号实现"快速且远距离",3D集成实现"分布式散热"和更有效的热负载管理,缩短电源路径稳定高电流传输 [215];《自然》处理器验证了小规模混合光电子系统效率,Passage M1000将其扩展至大规模带宽和高功率集成,证明光子3D集成的可靠性 [216] **其他重要内容** **规模扩展(Scale-Up)与规模扩大(Scale-Out)的辩证关系** * 两者不应被视为对立面,而是光谱的两端 [144][151];规模扩大提供灵活性和增量增长,但系统扩展后边际收益下降(受阿姆达尔定律和通信开销增加限制);规模扩展提供更高的每资源效率,但受硬件限制和成本制约 [144][151] * 未来AI基础设施可能平衡两者,即"适度规模扩展 + 协调规模扩大",例如将数十或数百个计算芯片封装成光互连模块,然后通过高级网络连接 [145][146][152][153] * 《自然》光子处理器和Cerebras WSE代表极端规模扩展,证明单节点内突破传统限制的可行性;Nvidia和AMD正逐步将规模扩展元素注入规模扩大框架(如芯片片、更快节点间连接) [147][154] * 光电子集成正在重新定义规模扩大/规模扩展的边界,Lightmatter Passage展示了如何结合两者优势以满足下一代AI的巨大计算需求 [149][156] * 未来几年,光子互连将发挥关键作用,将大规模计算架构从松散分布集群转变为紧密结合的光学织物,为用户带来更大模型、更快训练和更低能耗 [148][155] **技术细节与性能数据** * Passage M1000总双向带宽114 Tbps,1,024条SerDes通道 [17] * Passage每个光链路通过WDM达448 Gbps,每条光总线近1 Tbps,每个瓦片总带宽巨大 [98][99] * 《自然》光子处理器性能:65.5万亿16位操作/秒,功耗~78 W电能 + 1.6 W光能 [26] * Nvidia H100 NVLink带宽约900 GB/s,假设~10 pJ/比特,I/O能耗可达数十瓦 [164] * Passage微环调制器Tx/Rx对面积0.006 mm²,驱动功率~1 mW,调制能量~0.018 pJ/比特 [184][185] * Passage光纤传输~1 Tbps全双工吞吐量,功耗~100 mW/光纤 [181][182] * Lightmatter 3D光子CPO相比传统2D CPO实现8倍带宽提升,功耗减半 [213]
英伟达详解CPO,光芯片闪耀Hotchips
半导体行业观察· 2025-08-27 09:33
英伟达Spectrum-X以太网光子技术 - 公司提出共封装光子学需求以提升AI工厂规模 AI工厂光功率消耗是传统云数据中心17倍 主要因GPU集群增加需要数十光收发器通信[3] - 网络光子学成本占AI工厂总计算能力10% 公司通过Spectrum-X以太网光子技术降低此成本[3] - Spectrum-X采用200G/通道SerDes技术 相比可插拔收发器具有更好信号完整性和更低DSP要求 因光子引擎紧邻交换机ASIC[16] - 1.6Tb/s链路激光器数量从8个减至2个 实现更低功耗和更高传输可靠性[16] - 技术为AI工作负载提供低抖动通信 避免GPU空闲导致高昂成本[17] - 技术提供更高NCCL性能 确保大型基础设施多作业执行不相互干扰[20] - 硅光子解决方案采用硅光子CPO芯片 传输速率达1.6T 集成MRM提供更高带宽同时降低功耗和占用空间[29] - 光子层和电子层采用3D堆叠技术 降低布线复杂性并提高带宽密度[29] - 数据中心采用该技术后能效提高3.5倍 弹性提高10倍 运行时间提高1.3倍[29] - 公司展示首款集成光子技术全尺寸交换机Spectrum-6 102T[30] - 技术实现2倍吞吐量 63倍信号完整性 激光器数量减少4倍 1.6倍带宽密度 激光可靠性提高13倍 取代64个独立收发器[34] - 下一代技术无需耗电连接可插拔光学引擎 节省大量电力[37] - 跨规模网络起始距离约500米 超过后需调整算法适应距离变化[74] - 共封装硅光学器件支持在ISO功率下将GPU性能提高3倍 激光器总数减少约4倍[74] Celestial AI光子结构技术 - 公司光子结构链路技术利用光连接下一代海量GPU和加速器芯片 取代当前电连接[75] - 技术聚焦下方带中介层HBM PFLink拥有包含无源和有源元件硅光子层[80] - 公司将SerDes与通道匹配以实现极高能效 并构建光学MAC实现RAS功能[80] - 使用EAM调制技术 从热学角度看优于环形调制器[81] - 技术可释放前沿阵地 光I/O可发生在ASIC中心 芯片其余部分用于电气I/O如HBM[92] - 在光子结构模块Gen1中用于带交换机连接内存16端口交换机[97] - 公司已完成四次流片[101] Ayar Labs光学I/O技术 - 公司展示UCIe光纤I/O重定时器 制作UCIe芯片组轻松集成光纤I/O到封装 因基于标准[108] - 芯片组是8Tbps级设备 提供大量封装外带宽[108] - 光学I/O芯片帮助使用光学技术进行横向扩展[117] - UCIe是基于标准方式 企业可根据通用规范构建软件包便于集成[122] - 数据重新定时后进入光端 解耦光信号和电信号传输挑战[130] - Chiplet速度达8Tbps[137] - 测试显示230mV眼图 约5天测试所有16 UCIe模块无错误 累积比特达1.8019e+18 BER为0.0000e+00[142] - 一体封装500W设备 热循环测试重要因芯片加热冷却导致材料膨胀收缩改变光传播方式[150] - 端到端测试10小时链路测试结果 公司从EVT进入DVT阶段即将量产[156][159] Lightmatter Passage技术 - 公司推出Passage M1000 将共封装光学器件和硅光子技术带入Chiplet时代[170] - 新解决方案承诺最高达114Tbps带宽 即每个方向57Tbps[184] - 采用3D堆叠芯片 光发射器/接收器需紧凑 GPU芯片连接SerDes SerDes连接光端[188] - 使用硅微环调节光 实现非常紧凑光学I/O[191][193] - 微环直径约15um 功耗约1mW 传输损耗<10dB 兼容O-band和C-band[196] - 公司有16种波长激光称为Lightmatter指南[196] - 设备具光路交换功能实现冗余[211] - M1000是迈向超过200Tbps XPU和超过400Tbps带宽交换机第一步[224] - 公司表示已做好生产准备 将在SC25大会公开演示[226][231] 行业动态与创新 - 曦智科技联合燧原科技推出国内首款xPU-CPO光电共封芯片[233] - OpenLight Photonics完成3400万美元A轮融资 加速硅光子学过渡[234] - 硅光子学解决AI连接瓶颈 因网络限制大多数AI开发者仅利用约25% GPU容量[234] - 公司设计构建光子专用集成电路(PASIC) 为光互连提供动力[235] - PASIC帮助使现有基于光子学互连速度更快 传统硅光子学性能上限约每波导200Gbps[236] - 公司提供设计服务和工艺设计套件(PDK) 基于磷化铟和硅光子学异构集成[236] - 客户可定制PASIC 首批客户2025年底开始生产 2026年带来首笔专利费收入[237] - 计划扩展PDK库 提供速率达400Gbps调制器和更先进片上激光技术[238] - 光互连快速采用不可避免 因AI模型数据需求增加和降低基础设施成本愿望[239]
初创公司,创新光互连
半导体行业观察· 2025-04-27 09:26
数据中心光互连技术趋势 - 人工智能数据中心面临铜互连在空间和带宽上的限制,行业正转向更大尺寸、更多处理器的芯片,推动更密集、更长距离的光纤连接替代铜线[2][5] - 共封装光学器件(CPO)成为提升能源效率的关键技术,英伟达已量产集成光子调制器的网络交换机,将光子技术引入机架内部[2][5] - 初创公司挑战传统观点,将光学互连直接连接至GPU和内存封装,解决一米链路内铜缆带宽不足的问题[5][6] 初创公司光互连创新 - Ayar Labs推出业界首个GPU间光学互连方案,采用UCIe接口和波分复用技术,实现256通道、8 Tbps总带宽,支持2公里通信距离[4][8] - LightMatter的Passage系列产品通过3D堆叠技术集成光学电路,L200为模块化设计,M1000则实现完全集成的光学中介层,直接连接GPU与内存[8] - Xscape Photonics集成频率梳激光器至芯片,解决"逃逸带宽"问题,其ChromX平台获4400万美元融资加速量产[8] 技术路径与竞争 - 微环谐振器和多波长激光器成为主流方案,但面临成本与灵活性挑战,例如512个GPU集群需超3万个连接,多波长可能降低粒度[10] - Avicena采用MicroLED成像光纤技术,以300个MicroLED实现3 Tbps传输,无激光器设计降低5倍能耗,被看好为未来技术方向[11] - 行业分歧明显:LightCounting预测CPO将先限于交换机,GPU集成或需至2030年,而Sindhu强调解决GPU互连是"时代最重要的封装难题"[11] 商业化进展 - 曦智科技推出全球首款片上光网络处理器Hummingbird,通过光子-电子垂直堆叠封装实现全对全数据广播网络,显著降低延迟与功耗[5] - 英伟达CPO交换机量产引发行业震动,但初创公司正推动光学技术更靠近数据源,从芯片封装层面直接传输带宽[2][5]
AI芯片带宽,终于有救了
半导体芯闻· 2025-04-02 18:50
Lightmatter光子互连产品发布 - 公司推出两款硅光子互连产品Passage M1000光学中介层和L200系列 旨在满足AI部署对芯片间带宽增长的需求[1] - Passage M1000预计2024年夏末出货 支持XPU或多芯片开关 采用光直接传输数据技术 总带宽达14.25TB/s[1][2] - L200和L200X计划2026年推出 分别提供32Tb/s和64Tb/s双向带宽 采用3D封装技术 支持超200Tb/s封装外通信[3] 产品技术特点 - M1000采用中介层设计 位于计算逻辑和基板之间 支持多芯片堆叠 通过256个光纤连接点实现芯片间全表面区域数据传输[2] - 产品采用56Gb/s NRZ调制和波分复用技术 每光纤支持8个波长 实现56GB/s带宽[2] - L200系列采用Alphawave Semi技术 包括UCIe互连标准和光学就绪SerDes 支持多供应商芯片互通[3] 行业竞争格局 - 光子学领域竞争激烈 Nvidia、英特尔、博通和Ayar Labs等公司均在开发相关技术[1] - Lightmatter产品带宽显著高于Ayar Labs的8Tb/s光子芯片[3] - 新兴UCIe互连标准有望成为行业通用语言 类似PCIe或CXL[3]