Workflow
光路交换机
icon
搜索文档
硅光,大爆发
36氪· 2026-02-10 11:15
文章核心观点 硅光子技术是驱动数据中心,特别是人工智能网络发展的关键技术,其应用正从横向扩展(可插拔光模块)向纵向扩展(共封装光学)演进,并将推动市场规模在未来几年内实现数倍增长,同时重塑半导体制造产业链格局,台积电有望成为该领域未来的主导者 [1][3][25][26] 市场增长与规模预测 - 光纤器件市场规模预计将从2023年的约130亿美元增长至2030年的250亿美元,主要得益于人工智能网络发展 [3] - 另一预测(CignalAI)认为,到2029年市场规模将达到310亿美元 [3] - 可插拔光器件市场预计将从2023年的60亿美元增长到2030年的250亿美元,届时市场将以1.6T和3.2T数据速率为主 [12] - 光路交换机(OCS)的潜在市场规模(TAM)预估已从超过20亿美元上调至超过30亿美元 [15] - 硅光子集成电路市场规模预测:到2031年达320亿美元(DataM Intelligence),或到2034年达290亿美元(Precedence Research) [25] - 硅光子晶圆代工收入预计将从2026年到2032年(六年内)增长八倍 [25] 技术应用与演进路径 - **横向扩展(Scale-out)**:当前主要使用可插拔光收发器,通过光纤实现高速、低功耗的数据传输 [12] - **纵向扩展(Scale-up)**:链路数量远多于横向扩展(例如NVL72机架有1296个链路),未来采用光纤将驱动市场大幅增长 [3] - **可插拔光收发器**:主要组件包括激光器、CMOS芯片和硅光子芯片,使用马赫-曾德尔调制器 [12] - **光路交换机(OCS)**:用于数据中心顶层互连的重新配置,谷歌采用MEMS镜技术,Lumentum(MEMS)和Coherent(液晶)也提供该技术 [13][15] - **共封装光学器件(CPO)**:相比可插拔器件,可实现更高密度和更低功耗(仅为可插拔式的三分之一),已开始蚕食可插拔交换机市场份额 [16][18][25] - **技术过渡**:横向扩展已开始向CPO过渡,纵向扩展在不久的将来也需要CPO [25] - **AI加速器互连**:当前GPU/加速器使用铜缆,但性能提升接近瓶颈,未来将转向光纤连接以实现更高带宽和更低延迟 [20] 关键组件与供应链 - **光纤电缆**:市场领导者康宁公司年销售额达68亿美元,与Meta达成一项价值60亿美元的供应协议 [7] - **硅光子制造**:目前主要代工厂商包括GlobalFoundries(GF)、Tower Semiconductor,以及台积电、三星、联电等正在开发技术的厂商 [21][24] - **GlobalFoundries (GF)**:收购AMF后自称全球第一硅光子代工厂,预计2026年硅光子收入接近3亿美元,到本十年末超过10亿美元 [21][22] - **Tower Semiconductor**:被认为是全球第二大硅光子代工厂,提供200毫米和300毫米硅光子工艺 [23][24] - **台积电(TSMC)**:目前为英伟达、AMD、谷歌、AWS等生产几乎所有AI加速芯片,并开发COUPE工艺,未来五年内很可能从零基础跃升为全球第一的硅光子晶圆代工厂 [25][26] 技术原理与设计挑战 - **硅光子学**:将光子器件集成到改进的CMOS工艺中 [6] - **光纤与波长**:数据中心主要使用单模光纤(SMF),通信波长位于红外光谱的O、E、S、C、L波段,其中O波段因在硅波导中损耗低而被用于硅光子学 [7][9][11] - **波分复用**:使用粗波分复用(CWDM)和密集波分复用(DWDM)实现更高带宽 [11] - **设计现状**:硅光子学设计类似上世纪80年代的硅设计,缺乏成熟的设计库和IP,需从底层物理原理进行建模 [27] - **关键器件与挑战**: - **波导**:由硅或氮化硅制成,不能急转弯,需要最小弯曲半径,两个波导可垂直交叉且相互作用极小 [34] - **光耦合**:边缘耦合器效率高但对准难,光栅耦合器(一维用于偏振光,二维用于非偏振光)对准简单但各有损耗和成本权衡 [34] - **调制器**:可插拔器件中使用马赫-曾德尔调制器,CPO中使用尺寸小得多的微环调制器 [35] - **信号损耗**:波导中的信号损耗会随距离累积,精确控制损耗是设计关键 [33] - **制造工艺**:采用200毫米和300毫米SOI晶圆,工艺精度可达65纳米,通常不包含CMOS器件 [29][37]
Google集群拆解
华泰证券· 2025-11-27 16:52
报告行业投资评级 未提及 报告的核心观点 报告围绕Google集群展开研究,深入剖析其Scale up和Scale out架构,涵盖3D结构、光互联等方面,对比不同GPU的技术参数,并分析TPU集群内互联组件占比及十万卡集群不同互联方案[4][117]。 根据相关目录分别进行总结 Google集群的Scale up: 3D结构 - Google集群柜内Scale up采用3D结构,从TPU到TPU Tray再到TPU Rack,一个机架有16个TPU Tray、64个TPU芯片[9][28] - 对比不同GPU,如Nvidia从Hopper到Blackwell,NVLink带宽不断提升,Blackwell NVLink 5达1.8TB/s;AMD从MI350到MI400,MI400单卡有72条200Gb UALink Lane,对应1.8TB/s的Scale up网络[20][25][27] Google集群的Scale up光互联:光路交换机 - 光路交换机的光信号输入输出涉及相机模块、二色分光元件等,通过二维MEMS微镜阵列控制光束反射到目标输出端口,并实现光路监控和对准[46][47] - TPU V4和V7 Superpod由光路交换机连接实现TPU全连接,V4 Superpod为8*8,V7为16*9;每套系统含64个机架,分8组,共4096芯片,共享256TiB HBM内存,总计算超1 ExaFLOP[48][52][60] TPU集群内,光路交换机和光模块占比 - TPU V4光路交换机占比1.1%,光模块数量6144,比例1.5;TPU V7光路交换机占比0.52%,光模块数量13824,比例1.5[70][75][84] - 单个Rack向外光模块6*16,PCB Traces 4*16,Copper cables 80,ICI连接含96光纤、80铜缆和64 pcb traces[94][95] Google集群的Scale out - Scale out采用Tomahawk 5交换机,有128个400G端口,TPU SuperPod外通过数据中心网络通信[103][106] - NV Scale out中的OCS在通用三层FT拓扑中有主要集成点,可增强硬件和软件故障弹性[116] - 十万卡集群不同互联方案对比,InfiniBand、NVIDIA Spectrum - X、Broadcom Tomahawk5的交换机和光模块数量、占比及成本各有不同[125]