Workflow
华为诺亚发布ScaleNet:模型放大通用新范式
机器之心·2025-11-18 11:30

文章核心观点 - 研究团队提出名为ScaleNet的新方法,旨在以少量额外参数实现模型深度扩展一倍,解决模型规模扩大带来的成本高昂问题[2] - ScaleNet结合层级权重共享和轻量级适配器两项核心技术,在视觉Transformer和大语言模型上均验证有效,展现出成为通用、经济高效模型扩展框架的潜力[2][20] 研究动机 - 当前从头训练大规模模型计算代价巨大,现有渐进式训练方法会引入大量新参数,拖慢优化并带来巨大存储开销[3][4] - ScaleNet针对核心问题提出在保持参数效率的同时实现模型有效扩展的解决方案[5] 核心方法 - 技术一采用层级权重共享,让新增加层与预训练模型已有层共享同一套参数,极大提升参数效率并加速学习过程[7][8] - 技术二引入轻量级适配器模块,仅包含极少量调整参数,为每个共享层提供独特调整,保证扩展后模型容量和性能[11] 视觉模型实验结果 - 在ImageNet-1K任务上,ScaleNet在DeiT和Swin等多种架构上参数量相近情况下稳定取得更高准确率[14] - 具体数据表明,Deit-Small模型使用ScaleNet后参数量23.53M,Top-1准确率达81.13%,优于其他扩展方法[15] - 训练效率显著提升,24层DeiT-Small模型使用ScaleNet仅需100周期和15.8小时,准确率81.13%,优于300周期直接训练的79.31%[16] 大语言模型验证 - 将ScaleNet应用于Llama-3.2-1B模型进行扩展,在BoolQ、PIQA等多个常识推理任务上超越原始模型,平均性能提升0.92%[17][18] - 扩展后模型参数量1265M,在多项基准测试中表现优于原模型1236M参数版本,证实方法跨模态通用性[18] 总结 - ScaleNet框架为预训练模型扩展提供高效低成本技术路径,大幅提升训练效率和模型性能[20] - 该方法在视觉与语言多种任务上验证有效,对开发更大更强且更经济AI模型具有积极意义[20]