CVPR Oral | 南京大学李武军教授课题组推出分布式训练算法UniAP,大模型训练最高加速3.8倍
机器之心·2025-04-30 12:23
李武军教授为通讯作者,硕士生林昊(已毕业 ,现工作于阿里巴巴)、吴轲、李杰为共同第一作者,博士生李俊为参与作者。 训练成本高昂已经成为大模型和人工智能可持续发展的主要障碍之一。 大模型的训练往往采用多机多卡的分布式训练,大模型的分布式训练挑战巨大,即使硬件足够,不熟悉分布式训练的人大概率(实验中验证有 64%-87% 的概率)会因为超参数设置(模型怎么切分和排布、数据怎么切分和排布等)不合理而无法成功运行训练过程。 此外,不熟悉分布式训练的人在碰到大模型训练慢时容易只想到增加 GPU 硬件等 横向拓展(scale-out)方法,而忽略了分布式训练算法的 纵向拓展(scale- up)作用。 论文被 CVPR 2025 录用为 Oral(所有投稿论文的 0.7%,所有录用论文的 3.3%)。 方法简介 实际上,分布式训练算法会极大地影响硬件的算力利用率。高效能分布式训练算法具有高算力利用率。用同样的硬件算力训练同一个模型,高效能分布式训 练算法会比低效能分布式训练算法速度快,最高可能会快数倍甚至数十倍以上。 也就是说,训练同一个模型,高效能分布式训练算法会比低效能分布式训练算法成本低,最高可能会节省数倍甚至数十 ...