Workflow
SuperNode
icon
搜索文档
华为新技术,挑战英伟达
半导体芯闻· 2025-08-28 17:55
核心观点 - 华为推出UB-Mesh技术 旨在通过单一协议统一AI数据中心内外部节点的所有互连 取代PCIe/CXL/NVLink/TCP/IP等协议 以降低延迟 控制成本并提高可靠性 并计划开源该协议[2][5][25] 技术细节 - UB-Mesh使任何端口无需协议转换即可直接通信 减少转换延迟并简化设计 同时保留以太网向后兼容性[5][7] - 技术将数据中心转变为SuperNode架构 支持最多1,000,000个处理器统一协同 每芯片带宽从100Gbps提升至10Tbps(1.25TB/s) 跳跃延迟降低至约150纳秒[7] - 网络拓扑采用混合模型:顶层CLOS结构连接机架 下层多维网格连接机架内节点 避免传统设计在数万节点规模下的高成本问题[17][22] 性能与成本优势 - 传统互连成本随节点数量线性增长 而UB-Mesh成本扩展呈亚线性 容量增加时成本不会相应增加[22] - 华为提出8192节点实用系统作为可行性证明 其可靠性设计通过热备用机架自动接管故障 将平均故障间隔时间延长数个数量级[22] 技术挑战与解决方案 - 长距离光纤传输错误率高于电气连接 华为提出链路级重试机制 光模块备份通道及多模块交叉连接设计以确保持续运行[13] 行业竞争与标准化 - 华为通过UB-Mesh减少对西方标准(如PCIe/NVLink/TCP/IP)的依赖 专注于数据中心级解决方案而非单一硬件竞争[25][26] - 技术将开源供全球评估 若部署成功且第三方兴趣充足 可能推动其成为行业标准[2][26]
挑战Nvlink,华为推出互联技术,即将开源
半导体行业观察· 2025-08-28 09:14
技术发布与核心特性 - 华为在Hot Chips 2025大会上推出UB-Mesh技术 旨在通过单一协议统一AI数据中心内外部节点的所有互连 取代PCIe CXL NVLink和TCP/IP等协议 [1] - 该技术计划下月向所有用户免费开放并开源规范 以降低延迟 控制成本并提高千兆级数据中心可靠性 [1] - UB-Mesh将数据中心转变为连贯的超级节点 支持任何端口间无需协议转换的直接通信 每芯片带宽从100 Gbps提升至10 Tbps(1.25 TB/s) 跳跃延迟从微秒级降至约150 ns [5][7] 技术架构与性能优势 - SuperNode架构可整合多达1,000,000个处理器(CPU/GPU/NPU) 池化内存 SSD NIC和交换机 采用同步加载/存储语义替代异步DMA [7] - 网络拓扑采用混合模型:顶层CLOS结构连接大厅机架 下层多维网格连接机架内数十节点 避免传统设计在数万节点扩展时的高成本 [18] - 支持高速SERDES连接灵活重用 保留以太网向后兼容性 并通过链路级重试机制 光模块备份通道及交叉设计解决光纤传输高错误率问题 [10][14] 成本与可靠性改进 - UB-Mesh成本扩展呈亚线性 传统互连成本随节点数量线性增长 可能超过AI加速器(如Nvidia H100/B200)本身价格 [23] - 系统模型配备热备用机架自动接管故障 平均故障间隔时间提升数个数量级 适用于百万芯片系统 [23] - 8192节点实用系统证明结合CLOS和二维网格单元的可行性 [23] 行业竞争与标准化前景 - 该技术旨在减少华为下一代数据中心对西方标准(PCIe/NVLink/UALink/TCP/IP)的依赖 提供数据中心级解决方案而非仅硬件竞争 [27] - 行业现有方案包括Nvidia(机架内NVLink+数据中心以太网/InfiniBand)和AMD/博通/英特尔(标准化UALink+超级以太网) [27] - 开放协议旨在推动第三方评估与潜在标准化 但实际采用取决于客户对单一供应商方案的接受度及华为自身部署成功案例 [1][27]