苹果提出新型反向传播：一台iPhone 15 Pro Max就能微调LLM

文章核心观点 - 苹果公司提出了一种名为内存高效型反向传播（MeBP）的新方法，旨在实现在资源受限的移动设备（如iPhone）上对大型语言模型进行微调 [1] - 该方法在内存使用和计算时间之间提供了比零阶优化（ZO）方法更好的权衡，并且收敛更快、性能更优 [1] - 研究团队已在配备8GB RAM的iPhone 15 Pro Max上验证了MeBP的有效性，所有测试的LLM均可在低于1GB内存内实现高效微调 [4][24][28] 技术方法与实现 - MeBP技术专注于使用LoRA方法微调LLM，主要解决模型参数和中间激活值带来的内存瓶颈问题 [4] - 在设备上部署LLM时，对非LoRA参数采用了4-bit对称模式INT4量化来压缩基础模型权重，以减少磁盘空间占用 [6][7] - 系统实现包含三个核心步骤：压缩模型基础权重、编译包含反向传播和梯度检查点的训练图、实现内存高效的运行时来执行编译后的图 [5][10] - 在运行时采用内存映射和按需延迟解压权重的方式，显著降低了峰值内存使用量 [13][15] - 内存中仅保留一份LoRA权重及其梯度的副本，对于0.5B到4B参数的模型，LoRA权重大小通常在几十MB范围内 [16] 性能评估与比较 - 在效用比较中，一阶优化（FO）方法在最初的100步内就显著改善了损失和下一token准确度指标，而零阶优化（ZO）方法在1000步后仅显示轻微改善 [20] - 即使经过100,000步训练（比FO多100倍），ZO方法的测试损失仍高于FO，测试准确度也低于FO [20] - 在iPhone 15 Pro Max上的性能测试显示，与MeZO相比，MeBP每个梯度步骤的计算时间多出43%到94% [27][28] - 尽管单步计算时间更长，但由于MeZO所需步数是FO的10倍到100倍以上，MeBP在总训练时间上收敛更快 [28] - MeBP在最坏情况下的内存使用量比MeZO多出20%，但其总训练内存使用量比以往的移动设备实现大约小10倍 [28] 实验配置与模型 - 实验使用了Gemma-3和Qwen-2.5模型，在WikiText-2数据集上进行语言建模任务，专注于参数量不超过4B的模型 [18][20] - 测试涵盖了从0.5B到4B参数的不同规模模型，包括Qwen2.5-0.5B、Qwen2.5-1.5B、Qwen2.5-3B、Gemma3-1B和Gemma3-4B [27] - 对于Qwen2.5-0.5B模型，MeBP训练时间为3.85秒，内存使用为320.17MB；而Gemma3-4B模型训练时间为28.58秒，内存使用为1029.49MB [27]