激活值内存

搜索文档
无损减少80%激活值内存,提升5倍训练序列长度,仅需两行代码
机器之心· 2025-06-23 15:44
本文的第一作者罗琪竣、第二作者李梦琦为香港中文大学(深圳)计算机科学博士生,本文在上海交通大学赵磊老师、香港中文大学(深圳)李肖老师的指 导下完成。 长序列训练对于模型的长序列推理等能力至关重要。随着序列长度增加,训练所需储存的激活值快速增加,占据训练的大部分内存。即便使用梯度检查点 (gradient checkpointing)方法,激活值依然占据大量内存,限制训练所能使用的序列长度。 来自港中文(深圳)和上海交通大学的团队提出 StreamBP 算法。通过对链式法则进行线性分解和分步计算,StreamBP 将大语言模型训练所需的激活值 内存(logits 和 layer activation)降低至梯度检查点(gradient checkpointing)的 20% 左右。 论文标题:StreamBP: Memory-Efficient Exact Backpropagation for Long Sequence Training of LLMs 在相同内存限制下,StreamBP 最大序列长度为梯度检查点的 2.8-5.5 倍。在相同序列长度下,StreamBP 的速度和梯度检查点接近甚至更快。 S ...