文章核心观点 - 苹果公司提出了一种名为内存高效型反向传播(MeBP)的新方法,旨在实现在资源受限的移动设备(如iPhone)上对大型语言模型进行微调 [1] - 该方法在内存使用和计算时间之间提供了比零阶优化(ZO)方法更好的权衡,并且收敛更快、性能更优 [1] - 研究团队已在配备8GB RAM的iPhone 15 Pro Max上验证了MeBP的有效性,所有测试的LLM均可在低于1GB内存内实现高效微调 [4][24][28] 技术方法与实现 - MeBP技术专注于使用LoRA方法微调LLM,主要解决模型参数和中间激活值带来的内存瓶颈问题 [4] - 在设备上部署LLM时,对非LoRA参数采用了4-bit对称模式INT4量化来压缩基础模型权重,以减少磁盘空间占用 [6][7] - 系统实现包含三个核心步骤:压缩模型基础权重、编译包含反向传播和梯度检查点的训练图、实现内存高效的运行时来执行编译后的图 [5][10] - 在运行时采用内存映射和按需延迟解压权重的方式,显著降低了峰值内存使用量 [13][15] - 内存中仅保留一份LoRA权重及其梯度的副本,对于0.5B到4B参数的模型,LoRA权重大小通常在几十MB范围内 [16] 性能评估与比较 - 在效用比较中,一阶优化(FO)方法在最初的100步内就显著改善了损失和下一token准确度指标,而零阶优化(ZO)方法在1000步后仅显示轻微改善 [20] - 即使经过100,000步训练(比FO多100倍),ZO方法的测试损失仍高于FO,测试准确度也低于FO [20] - 在iPhone 15 Pro Max上的性能测试显示,与MeZO相比,MeBP每个梯度步骤的计算时间多出43%到94% [27][28] - 尽管单步计算时间更长,但由于MeZO所需步数是FO的10倍到100倍以上,MeBP在总训练时间上收敛更快 [28] - MeBP在最坏情况下的内存使用量比MeZO多出20%,但其总训练内存使用量比以往的移动设备实现大约小10倍 [28] 实验配置与模型 - 实验使用了Gemma-3和Qwen-2.5模型,在WikiText-2数据集上进行语言建模任务,专注于参数量不超过4B的模型 [18][20] - 测试涵盖了从0.5B到4B参数的不同规模模型,包括Qwen2.5-0.5B、Qwen2.5-1.5B、Qwen2.5-3B、Gemma3-1B和Gemma3-4B [27] - 对于Qwen2.5-0.5B模型,MeBP训练时间为3.85秒,内存使用为320.17MB;而Gemma3-4B模型训练时间为28.58秒,内存使用为1029.49MB [27]
苹果提出新型反向传播:一台iPhone 15 Pro Max就能微调LLM