BitDistill
搜索文档
微软BitDistill将LLM压缩到1.58比特:10倍内存节省、2.65倍CPU推理加速
机器之心· 2025-10-20 15:48
核心技术:BitDistill框架 - 提出一种名为BitDistill的量化感知训练框架,旨在将现有全精度大语言模型高效微调为1.58比特的BitNet模型,以适配特定下游任务[4][7] - 该框架包含三个关键阶段:模型精炼阶段、持续预训练阶段和基于蒸馏的微调阶段[8][11][12] - 在模型精炼阶段引入额外的归一化层以稳定优化过程,缓解低比特量化模型激活方差过大的问题[8][9] 性能表现与效率提升 - 在文本分类和文本摘要任务上的实验表明,BitDistill模型性能与全精度基线相当,例如在MNLI任务上达到88.17准确率,与FP16基线的88.01相近[19][20] - 该技术实现了显著的内存节省和推理加速,在CPU上内存占用从1.20GB降至0.11GB,节省近10倍,推理速度从427 tokens/s提升至1,135 tokens/s,加速约2.65倍[4][19][20] - 在CNN/DailyMail摘要任务上,BitDistill模型的BLEU得分达到14.41,优于FP16基线的13.98,同时ROUGE-1得分达到40.21,与基线的40.62相当[21] 方法通用性与技术细节 - BitDistill框架展现出良好的可扩展性,在不同模型规模上性能稳定,当模型从0.6B扩大到4B时,性能差距未出现显著扩大[4][17][19] - 该方法具备跨架构通用性,在将基础模型替换为Qwen2.5和Gemma后仍能保持稳定性能[22][23] - 消融实验证明框架的三个阶段相互补充,移除任一阶段均会导致性能显著下降,例如在MNLI任务上,完整框架准确率为88.17,而移除第三阶段后降至86.73[25][26] 优化策略与关键发现 - 知识蒸馏阶段联合使用logits蒸馏和多头注意力蒸馏效果最佳,单独使用任一种技术也能提升性能,但联合使用效果最优[27][28] - 使用更大规模的FP16教师模型进行蒸馏能进一步提升学生模型性能,甚至可超越同规模FP16模型[37][38] - 持续预训练阶段使用100亿个token的语料,与从头训练所需的约4万亿个token相比,成本几乎可忽略[17]