多模态大模型推理加速框架Dynamic-LLaVA - 提出Dynamic-LLaVA框架,针对多模态大模型在不同推理模式下实现高效推理,包括预填充阶段以及有无KV Cache的解码阶段 [9][12] - 在预填充阶段计算开销减少约75%,无KV Cache解码阶段计算开销减少约50%,有KV Cache解码阶段GPU显存占用减少约50% [9] - 基于LLaVA-1.5进行1个epoch的监督微调,确保模型能高效运行在稀疏化推理路径上 [14][27] 技术实现方案 - 预填充阶段引入可训练的轻量化图像预测器,通过决策分数保留前k大视觉token实现稀疏化 [15][17] - 解码阶段对视觉token采用相同稀疏化处理,对输出文本token分两类处理:最后一个token完整输入LLM decoder,其他历史token进行稀疏化 [19][23] - 使用KV Cache的解码阶段采用"Online KV Cache压缩"方法,仅判断当前新token的KV激活是否需要加入KV Cache [21] 性能表现 - 在视觉理解任务上性能几乎不下降,部分任务如SciQA上7B和13B版本性能提升2.3%和0.8% [31] - 生成能力基准测试显示PPL仅变高0.3,METEOR略有提升,同时实现大幅推理效率提升 [33][35] - 实际推理测试中13B版本预填充时间从0.83s降至0.37s,4K解码时间从13368s降至6184s,显存占用显著降低 [36][37] 应用前景 - 随着多模态大模型在复杂推理、长思维链领域的发展,Dynamic-LLaVA在更长输出、更复杂推理场景下将体现更明显优势 [42] - 框架可与其他高效视觉projector方法集成,如表2中与TokenPacker结合进一步减少视觉token同时保持性能 [32]
ICLR 2025|首个动态视觉-文本稀疏化框架来了,计算开销直降50%-75%
机器之心·2025-04-29 11:22