Workflow
重视AI Scale up大趋势下交换芯片新机遇
2025-08-19 22:44

行业与公司 * 纪要涉及的行业为AI芯片互联与数据中心交换芯片行业 主要公司包括英伟达(NVIDIA)、博通(Broadcom)、华为、AMD、英特尔(Intel)、Alab(Ayar Labs?)、寒武纪、昆仑芯、中兴、新华三、盛科、海光等[1][4][23][27][31] * 核心讨论围绕AI服务器内部(scale-up)及外部(scale-out)的互联技术方案与市场格局[3][4][21] 核心观点与论据 技术路线与方案 * 当前AI芯片互联存在四大技术路线:英伟达私有NVSwitch技术(通过NVLink接口实现点对点互联)、华为等采用的Solidus直接互联(自定义HCCL协议)、自定义UB switch(如华为Matrix 384)、以及基于开放标准的以太网交换芯片(如博通Tomahawk Ultra)[1][4] * 博通推出SUE(Scale-Up Ethernet)新标准 旨在通过以太网实现GPU间高效通讯 其产品TH6,102T和Tomahawk Ultra对标NVSwitch的超低延迟(200-250纳秒)[3][8][22] * 华为Matrix 384系统采用自定义UB switch芯片连接910C GPU和鲲鹏CPU 实现了CPU到GPU的直接通讯 扩展了scale-up的定义[9] * SUE技术需识别并处理AXI接口的数据格式 结合内存语义(直接读取内存)和消息语义(以太网互联)两种技术路线以实现高效数据传输[1][8][9] * 以太网凭借其开放性和庞大生态圈在AI芯片互联中扮演重要角色 其端口标准化程度高 市场完全开放 UEC(统一以太网联盟)标准旨在实现端到端标准化 提升互操作性[3][5][17] 性能与延迟 * 主流以太网交换芯片延迟约800纳秒 博通Tomahawk Ultra延迟为200-250纳秒 对标并略优于NVSwitch的约300纳秒延迟[3][22] * 博通通过UEC功能实现超低延迟 具体措施包括压缩报文、优化前向纠错编码(FEC)、引入链路层重传(L2R)及基于信用的流控(CBFC)机制[3][12] 市场空间与竞争格局 * 2025年Scale Up交换机市场预计在北美部署约1,900个灭裂(cluster) 中国部署约1,070个灭裂[23] * 北美市场由英伟达(NVSwitch)、AMD(Infinity Fabric/urlink)、英特尔主导 谷歌(TPU光连接)、Meta和微软主要依赖英伟达[23][24] * 中国市场呈现多样化 寒武纪(590系列)、昆仑芯(8000系列)等公司快速推进[23][24] * 国内具备高性能交换机能力的公司包括华为(出货以12.8T为主)、中兴、新华三和盛科 但目前尚无国产超低延迟scale-up专用交换芯片(类似Tomahawk Ultra) 产品主要用于scale-out环节[27] 其他重要内容 产品与价格 * Alab(Ayar Labs?)产品包括PCIe retimer和switch 用于CPU/GPU及外设通讯 新PCIe 6.0 switch进入原由英特尔和博通主导的领域 但其速度限制无法实现GPU间数据传输[7] * 博通第一代scale-out交换芯片(Th1型号)价格从2024年的约8,000美元降至约6,000美元 其新一代scale-up型号价格超过10,000美元 PCIe 6.0 switch约400美元 主流仍是5.0版本[32] 国内发展现状 * 国内超节点方案多采用64卡配置(8卡/台*8端口/卡=64个400G端口 25.6T带宽) 一台机器需4片进口51.2T芯片或8片国产25.6T芯片[26] * 国产scale-up芯片发展需先完成高延迟的scale-out芯片(如51.2T)的大批量生产与验证 再进行优化降低延迟[29] * 华为UB switch(带宽约10.75T)与标准51.2T scale-out交换芯片完全不兼容[30] * 海光主要依赖AMD技术(如UA link) 也在开发自有互联方案 但未专注开发自有switch[31] 潜在风险与机会 * 采用私有协议(如NVSwitch、华为UB)的系统在集群外部通信时需进行协议转换 增加了复杂度和潜在效率损失 而全面采用以太网的SUE方案简化了系统设计[19][20][21] * 以太网的开放性使其成为一个没有厂商限制的完全开放市场 最终可能因其更大的生态圈成为生命力最强的选择[5][6] * scale-out交换芯片虽可用于scale-up场景 但因延迟较高 在大规模部署时可能存在性能问题[28]