CVPR Oral | 南京大学李武军教授课题组推出分布式训练算法UniAP，大模型训练最高加速3.8倍

核心观点 - 大模型训练成本高昂，分布式训练算法效能低下是主要障碍之一，64%-87%概率因超参数设置不合理导致训练失败 [3] - 南京大学研发的UniAP算法首次实现层内与层间并行策略联合优化，最高比现有方法快3.8倍，比非优化算法快9倍 [7] - UniAP已适配国产AI计算卡海光DCU，为大模型训练提供降本增效解决方案 [8] 技术突破 - 采用混合整数二次规划建模，统一优化流水线并行、张量并行等策略，探索空间更大 [12] - 架构包含性能评估、代价模型、优化求解三阶段，自动生成最优并行计划 [15] - 时间代价模型和显存代价模型精准预估不同策略的开销，避免显存溢出 [16] 性能表现 - 在V100/TITAN XP/A100上测试BERT/T5/ViT等模型，吞吐量最高提升3.8倍 [26] - 策略优化时间从40分钟缩短至0.37分钟，效率提升107倍 [26] - 国产DCU测试显示可自动规避64%-87%无效策略，比手动搜索快9倍 [30] 行业影响 - 解决分布式训练易用性问题，用户无需理解流水线划分等复杂概念 [32] - 显著降低算力成本，相同硬件条件下训练速度提升带来3.8倍成本节约 [32] - 推动国产AI计算卡生态发展，提升硬件利用率和普及速度 [8][32]