Lossless Compression

搜索文档
模型压缩到70%,还能保持100%准确率,无损压缩框架DFloat11来了
机器之心· 2025-04-28 12:32
大型语言模型压缩技术 - 核心观点:提出DFloat11无损压缩框架,可将LLM模型体积缩减30%同时保持100%准确性,显著提升GPU推理效率[2][5][7] 技术背景 - LLM规模增长导致部署障碍:Llama-3.1-405B模型需810GB内存,超出单台DGX A100/H100服务器(8×80GB GPU)容量[1] - 现有量化技术缺陷:有损压缩会改变模型输出分布,影响准确性[4] 方法创新 - DFloat11核心技术:基于BFloat16权重低熵特性,采用动态长度霍夫曼编码压缩指数部分,保留符号位和尾数位[11] - GPU解压缩设计: - 分解大型LUT为适应GPU SRAM的紧凑查找表[9] - 双阶段内核设计协调线程读写[9] - Transformer块级解压缩降低延迟[9][13] 实验结果 - 压缩效率: - Llama-3.1-405B从811.71GB压缩至551.22GB(67.91%)[20] - 平均压缩比70%,等效位宽11位[19][20] - 性能提升: - token生成吞吐量提高1.9-38.8倍[6] - 同显存下支持上下文长度达未压缩模型的5.3-13.17倍[6][25] - 准确性验证:在MMLU/TruthfulQA等基准测试中与原始模型保持比特级一致[21][22] 硬件适配 - 单节点实现Llama-3.1-405B推理:8×80GB GPU即可运行原需多节点的810GB模型[7] - 解压缩性能:DF11吞吐量达CPU-GPU传输的24.87倍,ANS解码的15.12倍[30][31] 行业应用价值 - 突破性意义:首次实现LLM无损压缩与高效GPU推理的协同优化[5][6] - 商业化潜力:显著降低大模型部署成本,提升资源受限环境下的可用性[1][7]