UEC
搜索文档
从芯粒到机柜:聊聊大模型浪潮下的开放互连
半导体行业观察· 2025-12-02 09:37
文章核心观点 - AI大模型发展重心从预训练扩展转向推理时扩展,对基础设施的低延迟和高吞吐提出新要求[8] - 面对NVIDIA私有互连技术的垄断,行业需要拥抱开放互连标准以实现供应链健壮性和技术优化空间[9][10] - 开放互连技术体系UCIe/CXL/UAL/UEC覆盖从芯粒互连到Scale-out网络的全链条,是构建AI基础设施核心竞争力的关键[10] - 阿里云作为中国大陆唯一代表,深度参与UCIe、CXL、UAL等核心标准制定,在开放互连生态中占据有利地位[2][4] 开放互连标准发展背景 - 2019年3月CXL联盟成立,旨在解决异构XPU编程和内存扩展挑战[4] - 2022年3月UCIe联盟成立,致力于建立开放的Die-to-Die互连标准[4] - 2023年7月UEC联盟成立,目标为AI和HPC重建高效开放的以太网[4] - 2024年10月UAL联盟成立,应对模型尺寸和推理上下文增长对Scale-up网络的需求[4] Scaling Law三个阶段 - 预训练扩展:通过增加模型参数、训练数据量和计算资源提升基础模型精度[5] - 后训练扩展:通过微调、RLHF和蒸馏等手段使模型输出更专业和符合人类习惯[5] - 推理时扩展:通过生成更多辅助推理的token提升输出质量,如CoT Prompting和Sampling and Voting[5][6] - 当前扩展重心已转移到推理时扩展,对延时指标和吞吐指标有刚性需求[8] UCIe技术分析 - 基于芯粒的设计通过提升良率、制程节点优化、芯粒复用和市场化四个层面解决成本问题[11][15] - 芯粒设计突破光罩尺寸限制,NVIDIA Blackwell采用2 Die合封,Rubin Ultra采用4 Die合封[14][17] - UCIe物理层目标延时<2ns,先进封装单模组带宽达256GB/s[18][19][23] - UCIe-3D采用混合键合技术,bump pitch仅9μm,远低于2D/2.5D封装的25-55μm[25] - UCIe支持光电共封,为AI集群互连提供低成本、高灵活度解决方案[26][27] CXL技术特性与应用 - CXL 3.2支持64GT/s链路速率,256字节Flit格式,多级交换和全局集成内存等特性[33] - 内存扩展和池化为LLM推理系统提供分层缓存体系,缓解KV Cache存储压力[34][40] - 全局集成内存实现Host间一致性内存访问,为AI基础设施提供内存共享能力[34][39] - CXL在RAG向量数据库中可通过内存池化创建常驻内存数据库,或利用存内计算提升查询效率[40] UAL协议架构 - UAL采用四层协议栈,物理层复用IEEE802.3dj以太网PHY,实现200Gb/s传输速率[43][45] - 支持内存语义操作,避免RDMA编程模式的Doorbell/Interrupt延时开销[44] - 通过Credit-based流控和链路层重传实现无损传输,减少长尾延时[54] - 支持最多1024个节点的超节点Scale-up网络,采用PGAS编程模型实现全局内存空间[50] UEC协议创新 - 短时连接动态创建Packet Delivery Context,解决RDMA网络规模扩展性问题[59] - 多路径和包喷洒技术使同一流中的数据包可走不同路径,提升带宽利用率[62] - 支持乱序包交付与顺序消息交付,提供四种传输模式应对不同场景需求[63] - 拥塞控制综合ECN标识和RTT测量,结合接收端信用控制实现高效管理[64] - 安全子层通过安全域共享密钥和重放攻击防护机制保障数据传输安全[67] Scale-up域边界分析 - 模型参数增长放缓,但KV Cache内存需求持续增加,对内存容量提出更高要求[70][74] - NVIDIA Rubin Ultra显存容量预计达约1TB,算力达100 PFLOPS@FP4[75] - 华为昇腾960算力为4 PFLOPS@FP4,显存288GB,与NVIDIA存在显著差距[75] - 中美AI集群形态差异:美式集群Scale-up域锚定单机柜,中式集群需多机柜扩展[76] - Scale-up集群规模将经历扩大再收缩过程,最终回归单机柜超节点形态[76] CXL未来发展前景 - CXL 3.1引入GIM概念,实现Host间一致性内存访问,功能上接近UAL[77] - PCIe Gen8速率将达256GT/s,但需等到2028年才可能集成到GPU[78] - CXL提供另一种集群组织形态:GPU通过CXL Switch连接CPU,实现统一内存空间[78] - 非NVIDIA GPU集成CXL可实现与Host的UMA,提升带宽利用率[78] - CXL生态系统成熟后,可能成为AI基础设施的重要技术路径[78]
英伟达入局、博通守擂,AI定制芯片酣战
21世纪经济报道· 2025-06-12 21:18
行业动态 - AI芯片市场竞争格局因英伟达推出NVLink Fusion而出现新变数,直接挑战博通在ASIC芯片市场的主导地位 [1][4] - AI行业需求重心从训练转向推理,推动ASIC芯片市场快速增长,预计2028年前AI ASIC出货量将超过GPU [3][6] - 2023-2028年高端云端AI加速器出货量CAGR预计GPU为50%、AI ASIC为52% [3] 公司表现 - 博通2025财年第二财季营收达150.04亿美元创历史新高,AI业务营收同比增长46%至44亿美元,预计第三季度AI营收将加速至51亿美元 [1][13] - 博通股价于6月2日冲高至265.43美元/股创历史新高,截至6月11日总市值达1.19万亿美元 [3] - 博通AI网络业务收入同比增长超170%,占第二财季AI收入的40%,并推出容量达102.4Tbps的Tomahawk 6数据中心交换机芯片 [13] 技术发展 - 英伟达NVLink Fusion支持800Gb/s吞吐量,为云服务商提供自定义ASIC与GPU集群扩展方案 [4][10] - UALink和UEC联盟由AMD、博通等厂商推动,分别对标NVLink技术和解决以太网应用不足 [9][12] - NVLink Fusion短期内或主导AI训练市场,UALink需通过协议升级和生态扩张缩短差距 [10][11] 生态博弈 - 英伟达采用半开放策略,已拉拢Marvell、联发科等合作伙伴,可能削弱博通市场份额但为合作方提供进入AI基础设施机会 [5][7] - 云厂商短期可能通过NVLink接入自研芯片优化AI性能,但长期自研趋势难逆转 [6][12] - NVLink Fusion对UALink构成竞争压力,但UEC联盟若快速发展可能威胁英伟达InfiniBand协议 [12][14] 市场前景 - 博通预计到2027年三大云厂商将各自部署100万个加速器集群,另有四家超大规模客户合作开发定制芯片 [13] - AI服务器市场2025年爆发性成长后,2026年海外云厂商资本开支增速放缓可能影响GPU和ASIC芯片成长性 [14] - ASIC芯片与GPU芯片定位差异明显,前者针对特定需求而后者通用性强,两者将长期共存 [14]