PARSCALE

搜索文档
阿里通义发布并行计算新策略:1.6B等效4.4B,内存消耗骤降95%
量子位· 2025-05-28 12:22
核心观点 - 阿里通义团队提出PARSCALE方法,通过并行计算扩展提升模型性能,不显著增加内存和时间成本 [1][4] - 对于1.6B模型,性能接近4.4B模型,内存占用仅为后者的1/22,延迟增加量为1/6 [2] - 可直接应用于现有模型(如Qwen-2.5),无需从头训练 [3] 技术细节 并行计算框架 - 将CFG的固定双路径扩展为P条可学习的并行路径,每条路径通过可训练的前缀嵌入生成差异化输入 [15] - 并行前向传播后通过动态加权聚合输出,MLP动态计算各路径输出的聚合权重 [16] - 利用GPU并行计算能力,一次性完成P路前向传播,计算效率随P线性增长 [21] 性能提升 - 当P=8时,1.6B参数模型在HumanEval的性能(Pass@1=39.1%)接近4.4B参数模型(Pass@1=45.4%) [18] - 在GSM8K数学推理任务中,P=8使1.8B模型性能提升34% [20] 训练策略 - 阶段1:用传统方法预训练模型至收敛(1T tokens) [23] - 阶段2:冻结主体参数,仅训练前缀嵌入和聚合权重(20B tokens,占总数据的2%),训练成本降低约98% [24][25] 适配现有模型 - 在Qwen-2.5-3B模型上进行持续预训练和参数高效微调(PEFT),仅调整前缀和聚合权重 [27] - PEFT方法使代码生成任务(HumanEval+)中Pass@1提升15% [28] 行业应用 - PARSCALE将CFG的"双路径启发"升级为通用的计算缩放范式,适用于训练和推理全流程 [29] - 研究团队已公开论文和代码,可供进一步研究 [31]