视觉头

搜索文档
ICCV 2025 | 清华&腾讯混元X发现「视觉头」机制:仅5%注意力头负责多模态视觉理解
机器之心· 2025-07-14 19:33
多模态大模型视觉头研究 - 研究发现多模态大模型中仅有不到5%的注意力头专门负责视觉理解任务,这些"视觉头"能有效聚焦并提取图片关键信息,而大多数注意力头主要关注文本信息或其他辅助特征[2] - 视觉头稀疏性现象表明模型的视觉理解能力高度依赖于极少数专门化的注意力头,这一发现为模型结构优化和资源分配提供了理论依据[2][8] - 提出基于OCR任务的无训练方法量化每个注意力头对视觉内容的关注程度,通过字符与视觉区域映射关系计算视觉得分[14][16] SparseMM方法设计 - 提出三部分KV-Cache分配机制:固定窗口大小的局部缓存、均匀分配的保底缓存、按视觉得分优先分配的关键视觉头缓存[18][20] - 差异化缓存策略在DocVQA等OCR-rich数据集上表现优异,在10%缓存预算下仍保持全缓存配置性能,显著优于AdaKV等方法[22][23] - 方法在通用视觉任务中展现强泛化能力,GQA和VQAv2等复杂视觉推理任务性能下降幅度控制在1%以内[25] 性能与效率提升 - 在32K输入长度下实现最高1.87倍解码加速,峰值显存占用减少约15GB,Qwen2-VL-7B模型显存减少2GB[27] - 可视化分析显示视觉头能准确定位图中物体或文字,而非视觉头往往关注错误区域,验证了差异化分配的科学性[28] - 方法为高分辨率图像和长上下文任务提供高效解决方案,显著提升多模态大模型部署效率[27][31] 技术实现路径 - 通过OCR任务标注建立字符与视觉区域映射关系,精确计算每个注意力头的视觉得分[14][16] - 采用注意力头级别缓存分配机制,对视觉头分配更多缓存预算以保留视觉信息,非视觉头仅分配必要缓存[9][17] - 方法开源提供完整论文、代码和项目地址,便于行业应用和研究参考[4]