开放互连
搜索文档
从芯粒到机柜:聊聊大模型浪潮下的开放互连
半导体行业观察· 2025-12-02 09:37
文章核心观点 - AI大模型发展重心从预训练扩展转向推理时扩展,对基础设施的低延迟和高吞吐提出新要求[8] - 面对NVIDIA私有互连技术的垄断,行业需要拥抱开放互连标准以实现供应链健壮性和技术优化空间[9][10] - 开放互连技术体系UCIe/CXL/UAL/UEC覆盖从芯粒互连到Scale-out网络的全链条,是构建AI基础设施核心竞争力的关键[10] - 阿里云作为中国大陆唯一代表,深度参与UCIe、CXL、UAL等核心标准制定,在开放互连生态中占据有利地位[2][4] 开放互连标准发展背景 - 2019年3月CXL联盟成立,旨在解决异构XPU编程和内存扩展挑战[4] - 2022年3月UCIe联盟成立,致力于建立开放的Die-to-Die互连标准[4] - 2023年7月UEC联盟成立,目标为AI和HPC重建高效开放的以太网[4] - 2024年10月UAL联盟成立,应对模型尺寸和推理上下文增长对Scale-up网络的需求[4] Scaling Law三个阶段 - 预训练扩展:通过增加模型参数、训练数据量和计算资源提升基础模型精度[5] - 后训练扩展:通过微调、RLHF和蒸馏等手段使模型输出更专业和符合人类习惯[5] - 推理时扩展:通过生成更多辅助推理的token提升输出质量,如CoT Prompting和Sampling and Voting[5][6] - 当前扩展重心已转移到推理时扩展,对延时指标和吞吐指标有刚性需求[8] UCIe技术分析 - 基于芯粒的设计通过提升良率、制程节点优化、芯粒复用和市场化四个层面解决成本问题[11][15] - 芯粒设计突破光罩尺寸限制,NVIDIA Blackwell采用2 Die合封,Rubin Ultra采用4 Die合封[14][17] - UCIe物理层目标延时<2ns,先进封装单模组带宽达256GB/s[18][19][23] - UCIe-3D采用混合键合技术,bump pitch仅9μm,远低于2D/2.5D封装的25-55μm[25] - UCIe支持光电共封,为AI集群互连提供低成本、高灵活度解决方案[26][27] CXL技术特性与应用 - CXL 3.2支持64GT/s链路速率,256字节Flit格式,多级交换和全局集成内存等特性[33] - 内存扩展和池化为LLM推理系统提供分层缓存体系,缓解KV Cache存储压力[34][40] - 全局集成内存实现Host间一致性内存访问,为AI基础设施提供内存共享能力[34][39] - CXL在RAG向量数据库中可通过内存池化创建常驻内存数据库,或利用存内计算提升查询效率[40] UAL协议架构 - UAL采用四层协议栈,物理层复用IEEE802.3dj以太网PHY,实现200Gb/s传输速率[43][45] - 支持内存语义操作,避免RDMA编程模式的Doorbell/Interrupt延时开销[44] - 通过Credit-based流控和链路层重传实现无损传输,减少长尾延时[54] - 支持最多1024个节点的超节点Scale-up网络,采用PGAS编程模型实现全局内存空间[50] UEC协议创新 - 短时连接动态创建Packet Delivery Context,解决RDMA网络规模扩展性问题[59] - 多路径和包喷洒技术使同一流中的数据包可走不同路径,提升带宽利用率[62] - 支持乱序包交付与顺序消息交付,提供四种传输模式应对不同场景需求[63] - 拥塞控制综合ECN标识和RTT测量,结合接收端信用控制实现高效管理[64] - 安全子层通过安全域共享密钥和重放攻击防护机制保障数据传输安全[67] Scale-up域边界分析 - 模型参数增长放缓,但KV Cache内存需求持续增加,对内存容量提出更高要求[70][74] - NVIDIA Rubin Ultra显存容量预计达约1TB,算力达100 PFLOPS@FP4[75] - 华为昇腾960算力为4 PFLOPS@FP4,显存288GB,与NVIDIA存在显著差距[75] - 中美AI集群形态差异:美式集群Scale-up域锚定单机柜,中式集群需多机柜扩展[76] - Scale-up集群规模将经历扩大再收缩过程,最终回归单机柜超节点形态[76] CXL未来发展前景 - CXL 3.1引入GIM概念,实现Host间一致性内存访问,功能上接近UAL[77] - PCIe Gen8速率将达256GT/s,但需等到2028年才可能集成到GPU[78] - CXL提供另一种集群组织形态:GPU通过CXL Switch连接CPU,实现统一内存空间[78] - 非NVIDIA GPU集成CXL可实现与Host的UMA,提升带宽利用率[78] - CXL生态系统成熟后,可能成为AI基础设施的重要技术路径[78]