核心观点 - 阿里巴巴与浙江大学合作提出并行计算缩放定律(ParScale),通过增加模型并行计算而非参数数量提升大模型能力,内存增加量仅为参数缩放法的4.5%(1/22),延迟增加量16.7%(1/6)[1] - ParScale可通过后训练少量token将预训练模型转为并行缩放模型,降低训练成本,适用于任何模型结构、优化过程或任务[1][7] - 该方法在数学、编程等强推理任务中表现突出,P=8时编码任务提升4.3%,数学任务提升7.3%,GSM8K准确率提高10%[15][16] 技术实现 - 并行流机制:输入通过多样化前缀生成多视角版本,并行处理后动态加权融合输出[13] - 两阶段训练:第一阶段1T token传统训练,第二阶段仅20B token微调实现ParScale适配[14] - 计算效率:复用现有参数扩展并行路径,内存占用仅为参数扩展法的1/22,延迟为1/6[1][19] 性能验证 - 基准测试:在常识(MMLU)、数学(GSM8K)、编码(HumanEval)等任务中,P值越大性能提升越显著[15] - 成熟模型适配:在已训练18T token的Qwen-2.5模型上应用,持续预训练和参数高效微调均获显著提升[16] - 边缘设备优势:适合手机、汽车等小batch场景,内存和延迟效率优于传统方法[18][19] 行业应用前景 - 低成本部署:通过后训练适配现有模型,降低资源需求,促进低资源场景应用[1][12] - 动态调整能力:同一模型权重可灵活调整并行流数量,实时平衡性能与推理开销[16] - 技术互补性:未来可能与MoE架构结合,形成内存友好与延迟友好的混合方案[19] 开源与社区反馈 - 代码已在GitHub开源,HuggingFace提供体验链接[2] - 社区评价为"突破性思路",尤其看好边缘计算场景的适用性[18] - 研究团队计划扩展至MoE架构及更大规模数据验证[19]
博士宿舍激情脑暴,革新了Scaling Law?Qwen和浙大联手推出新定律,直接干掉95.5%推理内存!
AI前线·2025-05-21 18:04