CalibQuant - 财报，业绩电话会，研报，新闻 - Reportify

CalibQuant

搜索文档

10倍吞吐提升无损性能：多模态适用的KV cache量化策略来了，即插即用无需改原模型

量子位· 2025-04-03 10:12

CalibQuant团队投稿量子位 | 公众号 QbitAI 在InternVL-2.5上实现 10倍吞吐量提升，模型性能几乎无损失。最新1-bit多模态大模型KV cache量化方案 CalibQuant 来了。通过结合后缩放和校准方法，可显著降低显存与计算成本，无需改动原模型即可直接使用。即插即用、无缝集成多模态大语言模型在各种应用中展现出了卓越的性能。然而，它们在部署过程中的计算开销仍然是一个关键瓶颈。虽然KV cache通过用显存换计算在一定程度上提高了推理效率，但随着KV cache的增大，显存占用不断增加，吞吐量受到了极大限制。为了解决这一挑战，作者提出了CalibQuant，一种简单却高效的视觉KV cache量化策略，能够大幅降低显存和计算开销。具体来说， CalibQuant引入了一种极端的1比特量化方案，采用了针对视觉KV cache内在模式设计的后缩放和校准技术，在保证高效性的同时，不牺牲模型性能。作者通过利用Triton进行runtime优化，在InternVL-2.5模型上实现了10倍的吞吐量提升。这一方法具有即插即用的特性，能够无缝集成到各种现有的多 ...

多模态大语言模型

多模态大语言模型