万卡训练
搜索文档
摩尔线程王华:万卡训练中,最危险的往往是「不报错」丨GAIR 2025
雷峰网· 2025-12-18 08:45
" 相比会引起训练报错甚至中断的数据,静默数据错误会对训练产 生更严重的影响。 " 作者丨包永刚 编辑丨 林觉民 2025年12月12-13日,第八届GAIR全球人工智能与机器人大会在深圳·博林天瑞喜来登酒店正式启幕。 作为AI 产学研投界的标杆盛会,GAIR自2016年创办以来,始终坚守"传承+创新"内核,始终致力于连接 技术前沿与产业实践。 在人工智能逐步成为国家竞争核心变量的当下,算力正以前所未有的速度重塑技术路径与产业结构。13日 举办的「AI 算力新十年」专场聚焦智能体系的底层核心——算力,从架构演进、生态构建到产业化落地展 开系统讨论,试图为未来十年的中国AI产业,厘清关键变量与发展方向。 王华在「AI算力新十年」论坛发表了主题为《基于国产GPU集群的大规模训练实践》的演讲。 当海外头部公司已经建设十万卡、甚至二十万卡规模的 GPU 集群,万卡训练正在从"前沿探索"转变为大 模型研发的基础设施能力。模型参数规模进入万亿级之后,真正拉开差距的,已不再只是单卡性能,而是 训练周期能否被压缩、系统是否长期稳定、工程效率能否支撑高频迭代。 在这样的背景下,万卡训练所面临的挑战也发生了根本变化。 节点故障、 ...