BitDistill - 财报，业绩电话会，研报，新闻

BitDistill

搜索文档

微软BitDistill将LLM压缩到1.58比特：10倍内存节省、2.65倍CPU推理加速

机器之心· 2025-10-20 15:48

核心技术：BitDistill框架 - 提出一种名为BitDistill的量化感知训练框架，旨在将现有全精度大语言模型高效微调为1.58比特的BitNet模型，以适配特定下游任务[4][7] - 该框架包含三个关键阶段：模型精炼阶段、持续预训练阶段和基于蒸馏的微调阶段[8][11][12] - 在模型精炼阶段引入额外的归一化层以稳定优化过程，缓解低比特量化模型激活方差过大的问题[8][9] 性能表现与效率提升 - 在文本分类和文本摘要任务上的实验表明，BitDistill模型性能与全精度基线相当，例如在MNLI任务上达到88.17准确率，与FP16基线的88.01相近[19][20] - 该技术实现了显著的内存节省和推理加速，在CPU上内存占用从1.20GB降至0.11GB，节省近10倍，推理速度从427 tokens/s提升至1,135 tokens/s，加速约2.65倍[4][19][20] - 在CNN/DailyMail摘要任务上，BitDistill模型的BLEU得分达到14.41，优于FP16基线的13.98，同时ROUGE-1得分达到40.21，与基线的40.62相当[21] 方法通用性与技术细节 - BitDistill框架展现出良好的可扩展性，在不同模型规模上性能稳定，当模型从0.6B扩大到4B时，性能差距未出现显著扩大[4][17][19] - 该方法具备跨架构通用性，在将基础模型替换为Qwen2.5和Gemma后仍能保持稳定性能[22][23] - 消融实验证明框架的三个阶段相互补充，移除任一阶段均会导致性能显著下降，例如在MNLI任务上，完整框架准确率为88.17，而移除第三阶段后降至86.73[25][26] 优化策略与关键发现 - 知识蒸馏阶段联合使用logits蒸馏和多头注意力蒸馏效果最佳，单独使用任一种技术也能提升性能，但联合使用效果最优[27][28] - 使用更大规模的FP16教师模型进行蒸馏能进一步提升学生模型性能，甚至可超越同规模FP16模型[37][38] - 持续预训练阶段使用100亿个token的语料，与从头训练所需的约4万亿个token相比，成本几乎可忽略[17]