超级以太网
搜索文档
InfiniBand,如临大敌
半导体行业观察· 2025-09-11 09:47
超级以太网联盟与规范发展 - 超级以太网联盟于2023年7月由AMD、Arista、博通、思科、Eviden、HPE、英特尔、Meta和微软正式成立,并迅速发展至2024年底拥有超过100家成员公司和超过1500名参与者 [2] - 联盟于2025年6月发布了1.0规范,相关产品开始陆续涌现,预计硬件将于2025年秋季上市 [2][24] - 规范的主要设计人员发布了一份24页的论文,旨在提炼完整的562页规范内容 [2] 超级以太网的设计原则 - 首要原则是与现有以太网数据中心部署保持兼容,无需拆除旧基础设施,通过支持ECMP和基本ECN等最低要求实现轻松部署和扩展 [3] - 设计支持大规模可扩展性,旨在通过无连接API灵活支持数百万个网络端点,专注于传统胖树部署 [3] - 高性能通过专为大规模部署设计的高效协议实现,例如可在纳秒级速度建立点对点可靠性上下文的无连接API [4] - 在保证互操作性的前提下,允许供应商差异化,规范提出一组实现兼容协议的选项但未强制要求,促进创新 [4] 超级以太网的网络类型与适用范围 - 超级以太网区分三种网络类型:连接GPU、CPU和加速器的本地网络(覆盖10米,亚微秒延迟)、传统数据中心前端网络以及连接计算节点的后端网络 [6][7] - 超级以太网1.0规范主要专注于后端网络,设计用于在中等长度(10-150米)链路上以高带宽(400 Gbps以上)运行 [8] - 未来版本可能会更明确地针对前端或本地网络类型 [8] 超级以太网的关键新特性 - 主要特性包括使用临时数据包传送上下文的高度可扩展无连接传输协议,以及本机支持每个数据包的多路径(数据包喷射) [12] - 支持按序和无序传送可靠和不可靠数据包,并结合可选的数据包修剪等快速丢失检测方案以实现快速恢复 [12] - 提供三种配置文件以支持不同功能集:HPC配置文件提供最丰富功能集,AI Full是AI Base的超集,AI Base旨在实现最低实现复杂度 [15] - 通过重新定义字段包含随机熵值,支持数据包喷射,将数据包均匀分布在所有交换机上以充分利用网络 [16] 超级以太网的丢包响应与链路层优化 - 定义了三种可选的快速丢失检测机制:数据包修剪、乱序计数和基于熵值的方案,以改善数据包丢失响应 [19][20] - 引入新的链路层功能,如链路级重试在链路层本地处理错误,以及基于信用的流量控制提供链路级流量控制,旨在提供几乎无损的数据包服务 [22][23] - 使用临时交付上下文设计,只需轻量级消息即可建立,确保可扩展性以支持超过一百万个端点,且开始传输不产生高延迟往返 [24] 行业竞争格局与产品进展 - 博通推出了延迟仅为250纳秒的Tomahawk超级以太网交换机,适用于AI和HPC;AMD推出了Pensando Pollara 400 Ultra以太网网卡 [25] - 庞大的xAI Colossus系统使用Nvidia Spectrum-X以太网,成功在100,000节点规模上运行单任务工作负载,而非InfiniBand [1][27] - 超级以太网可能成为InfiniBand网络的竞争对手,但目前InfiniBand仍是高度优化的系统范围网络平台,未来技术可能会融合 [27]
什么是Scale Up和Scale Out?
半导体行业观察· 2025-05-23 09:21
AI Pod概念与架构 - AI Pod是预配置的模块化基础设施解决方案,集成计算、存储、网络和软件组件以优化AI工作负载部署效率[2] - 每个机架可视为一个AI Pod,纵向扩展(Scale-Up)指单个Pod内增加处理器/内存等资源,横向扩展(Scale-Out)指增加更多Pod节点[4] - XPU为通用处理器术语,涵盖CPU/GPU/NPU/TPU/DPU/FPGA/ASIC等类型,单个XPU刀片通常含2-8个XPU设备[4][6] 扩展模式技术对比 纵向扩展 - 优势:直接添加资源即可扩展,适合传统架构应用;可充分利用高性能服务器硬件(如高效CPU、AI加速器、NVMe存储)[8] - 限制:存在物理硬件瓶颈(如内存或CPU利用率无法线性平衡),托管成本随服务器规模显著上升[8] - 适用场景:内存/处理密集型的数据库服务或容器化应用,示例配置从1CPU/2GB内存扩展至4CPU/8GB内存[8][9] 横向扩展 - 优势:支持长期增量扩展,易缩减规模释放资源,可使用商用服务器降低成本[12] - 挑战:需重构单体架构应用,网络复杂性和跨节点数据一致性管理难度增加[13] - 通信需求:Pod内需极低延迟(如NVLink),Pod间依赖高带宽方案(如InfiniBand/超级以太网)[11][13] 关键硬件与互连技术 - NVIDIA B200 GPU晶体管数量超2000亿,体现XPU设备的高计算密度[5] - InfiniBand与超级以太网竞争数据中心互连标准,后者由AMD/英特尔/微软等推动,强调开放性与互操作性[9][13] - UALink可能成为跨XPU供应商的通用高速互连方案,但NVIDIA对其前景持保留态度[13]
数据中心互联革命:UALink & 超级以太网正加速崛起
半导体芯闻· 2025-03-18 18:32
文章核心观点 AI和HPC数据中心计算节点需超越芯片或封装获取更多资源,但目前无开放扩展协议,新协议UALink和超级以太网旨在解决纵向和横向扩展通信缺陷,预计2026年底开始出现在数据中心 [1][26] 多种通信任务 - 计算节点容量有限,需依赖其他节点分配问题,通信协议分三类,最低级是芯片到芯片互连,中间通信级别可扩展,UALink在此发挥作用 [3] - UALink可连接主GPU单元,增加带宽、减少延迟,能与任何加速器配合,抽象加速器区别,优化xPU到xPU内存通信 [4] 超越机架 - 机架外资源需通过以太网横向扩展通信,与纵向扩展覆盖范围不同 [5] - 超级以太网建立在传统以太网之上,解决横向扩展问题,加速数据中心以太网 [6] 扩展:一片绿地 - 现有扩展技术由专有解决方案组成,效率低,UALink联盟成立,目标是促进AI加速器操作,由事务层、数据链路层和物理层组成 [8] - UALink针对AI和HPC工作负载优化,不具备PCIe所有功能,但满足特定需求,初始版本为224Gbps和半速版,后续推-128版本,预计不挑战PCIe或CXL [9] - UALink 1.0规范预计下个季度内推出并免费下载 [10] 横向扩展:基于以太网构建 - 以太网广泛应用,但尾部延迟损害性能,通信延迟不固定、不可预测,对AI和HPC工作负载问题严重 [12][13] - 超级以太网联盟针对通信提供强制和可选功能,可通过网络接口卡或结构端点连接,CPU和GPU均可参与 [14][15] 为以太网添加层 - 超级以太网在标准以太网基础上添加第3层和第4层,传输层管理事务语义,减少整体系统延迟,第3层仅用IP未更改 [17] - 传输层在端点实现,源端点决策,接收端点反馈,出现问题数据包发送NACK及诊断信息,源重新选择路径 [17][18] 新功能有助于减少尾部延迟 - 超级以太网通过无序交付、链路级重试、流量控制和数据包喷射减少延迟,部分功能可选,早期网络需交换机升级才有链路级重试功能 [20][21] - 这些功能提供更快传输选项,减少重试次数,虽可能增加名义延迟,但减少尾部延迟,使系统更快开始 [22] - 超级以太网1.0规范预计4月或5月发布,端点创建快,交换机升级慢,UEC保持对协议控制,与多组织合作避免分叉 [23][24] 结论 - AI是杀手级应用,HPC可搭便车,超级以太网允许选择交易语义,两项协议规范2025年上半年推出,经评估后应用到硅片,2026年底可能出现在数据中心 [26]