Workflow
AI算力网络互联
icon
搜索文档
高通量以太网联盟主席蔡德忠:破局AI算力瓶颈,以“慢功夫”换“真落地”
环球网· 2025-08-25 10:14
行业背景与挑战 - AI大模型参数量指数级增长,单一GPU无法满足训练需求,需通过横向扩展和纵向扩展将成百上千个GPU连接成超级计算集群[2] - AI训练任务对网络带宽的要求相比传统通用计算通常高出两个数量级,并行计算模式带来海量且密集的GPU间数据交换需求[2] - 大模型训练中的数据同步具有明显周期性,网络链路拥塞或设备故障等性能短板可能成为整个集群的“阿喀琉斯之踵”,导致算力无法线性扩展,严重影响训练进度与稳定性[2] - 构建能长期维持高带宽、低延迟和稳定性能的互联体系,是确保集群算力随规模近似线性增长的世界性难题[2] - 传统网络架构未针对高强度GPU间通信优化,业界共识是需要从拓扑设计、协议选择、链路管理到拥塞控制等全栈层面进行体系化技术架构创新,构建以GPU为核心的全新网络[2] 联盟成立与目标 - 由阿里云与中国科学院计算技术研究所联合发起的“高通量以太网联盟”在AI算力网络互联领域取得重大突破,发布涵盖协议标准、核心芯片、系统架构在内的一系列国产化成果[1] - 该联盟致力于针对智算场景的高通量网络协议的制定、标准化、芯片化及系统化落地,旨在打造智算场景下国内开源开放的智算网络生态[3] - 联盟以最终落地为唯一判断标准,凭借阿里云大规模部署的实践经验,将设计方案拆解为具体的芯片功能,由50多家会员单位协同开发[3] - 联盟要求IP、接口、驱动全部开源,驱动力来自终端用户需求而非单一芯片厂商利益,目前协议聚焦于实现国产芯片间的高效互通以进行更大胆的定制化创新[5] 技术成果与进展 - 联盟发布了《高通量以太网协议(1.1)》,这是在横向扩展场景实现协议收敛与标准发布后,在纵向扩展场景取得的关键进展,为AI智算集群提供了基于以太网生态的全新解决方案[5] - 高通量以太网设计已为未来预留了光互连可扩展接口,为应对可能出现的革命性架构做好了准备[6] - 联盟的工作重心将长期聚焦于数据中心智算互联,以弥补国产芯片算力不足的劣势[6] - 从协议标准制定、核心芯片流片到开放系统落地,联盟正以“慢功夫”换取“真落地”,构建了一条自主可控的国产化技术路径[6] 核心观点与战略 - 联盟主席蔡德忠强调,真正的竞争力在硅片而非幻灯片,战略定力和耐心是做芯片的前提[3] - 针对“用电力拼算力不可持续”的质疑,联盟认为当前国产芯片的首要矛盾是算力不足而非能耗过高,并预测未来三到五年AI仍将沿着Transformer架构加速迭代,自动驾驶、编程助手等杀手级应用将持续推高算力需求[6] - 联盟的信念是芯片才是竞争力,当国产网卡、交换芯片和硅光模块如期流片归来,中国智算网络将在全球赛场与巨头同场竞技[6] - 联盟选择了一条以开放、标准、国产化为核心的道路,旨在解决AI智算时代算力跃迁的网络互联瓶颈,并构建自主可控、高性能、可扩展的智算网络基础设施[1][5][6]