Workflow
Lossless Compression
icon
搜索文档
模型压缩到70%,还能保持100%准确率,无损压缩框架DFloat11来了
机器之心· 2025-04-28 12:32
机器之心报道 编辑:陈萍、+0 大型语言模型(LLMs)在广泛的自然语言处理(NLP)任务中展现出了卓越的能力。然而,它们迅速增长的规模给高效部署和推理带来了巨大障碍,特别是在计 算或内存资源有限的环境中。 例如,Llama-3.1-405B 在 BFloat16(16-bit Brain Float)格式下拥有 4050 亿个参数,需要大约 810GB 的内存进行完整推理,超过了典型高端 GPU 服务器(例如, DGX A100/H100,配备 8 个 80GB GPU)的能力。因此,部署该模型需要多个节点,这使得它昂贵且难以获取。 本文,来自莱斯大学等机构的研究者提出了一种解决方案, 可以 将任何 BFloat16 模型压缩到原始大小的 70%,同时还能在任务上保持 100% 的准 确性。 论文标题: 70% Size, 100% Accuracy: Lossless LLM Compression for Efficient GPU Inference via Dynamic-Length Float 为了应对 LLM 不断增长的模型尺寸,通常会采用量化技术,将高精度权重转换为低位表示。这显著减少了内存 ...