核心技术框架 - 微软推出名为BitNet Distillation(BitDistill)的蒸馏框架,实现几乎无性能损失的模型量化,将模型量化至1.58-bit [1] - 该框架包含三个依次衔接的阶段:模型结构优化、继续预训练和蒸馏式微调 [8] - 在模型结构优化阶段,引入SubLN归一化模块,将其插入多头自注意力模块和前馈网络的输出投影之前,以稳定量化训练过程并提升收敛性,而不改变主干计算路径 [10][11][12] 性能与效率表现 - 量化后的模型在同等硬件下,推理速度提升2.65倍,内存消耗仅为全精度FP16模型的1/10 [6] - 在文本分类任务(如MNLI、QNLI、SST-2)中,1.58-bit模型的准确率与全精度微调模型(FP16-SFT)几乎一致,显著优于直接微调的量化模型(BitNet-SFT)[23][24] - 在文本摘要任务(CNN/DailyMail数据集)上,量化模型的BLEU指标为14.41,ROUGE-L为27.49,与FP16模型的13.98和27.72几乎等同,甚至在BLEU上略有超出 [25][27] 技术通用性与兼容性 - 该框架在4B及以下的Qwen、Gemma模型上证实有效,理论上可应用于其他Transformer架构 [2] - 框架展现出良好的通用性,在Gemma和Qwen2.5等其他预训练模型上也能高度还原全精度性能 [28] - 该方法与Block-Quant、GPTQ、AWQ等常见量化策略兼容,可作为独立的上层蒸馏方案,适用于多种后量化优化场景 [28] 行业影响与团队背景 - 技术突破可能降低对昂贵GPU硬件的依赖,因为量化后模型内存需求大幅减少且推理速度提升 [7] - 该研究的作者团队全部来自微软研究院,且均为华人,通讯作者为微软亚洲研究院副总裁韦福如博士 [29][30]
1.58bit不输FP16!微软推出全新模型蒸馏框架,作者全是华人