Workflow
双路径注意力干预
icon
搜索文档
AAAI 2026 | 电子科技大学提出OWL,基于双路径注意力干预的多模态大模型物体幻觉缓解
机器之心· 2025-11-28 16:05
文章核心观点 - 论文提出一种名为Owl的新框架,旨在缓解视觉语言大模型中的物体幻觉问题 [2] - 该框架基于因果关系,采用双路径注意力干预方法,通过量化跨模态依赖关系并动态纠正注意力偏差来抑制幻觉 [2][4][7][8] - 在多个基准测试中,Owl方法显著降低了幻觉指标,同时保持甚至提升了模型的基本理解能力和生成内容的丰富度 [13][14][16] 现有问题与Owl的解决方案 - 现有方法普遍存在两大问题:忽视双模态注意力交互失衡的核心诱因,以及缺乏对解码过程中跨模态依赖关系的量化衡量 [5] - Owl通过构建结构因果模型,将视觉与文本注意力形式化为关键中介变量,揭示了混杂因子通过扭曲注意力导致幻觉的路径 [4] - 提出VTACR指标,通过计算视觉token平均注意力与文本token平均注意力之比,量化模型在每一解码层对两种模态的依赖程度,为干预提供信号指导 [7] - 采用双路径对比注意力干预方法,构建视觉增强路径和文本增强路径,利用对比解码策略放大差异,动态纠正注意力偏差 [8][10] 实验结果 - 在CHAIR基准上,Owl在LLaVA-1.5模型上将句子级幻觉降低17.6%,实例级幻觉降低21.4%,同时生成了更长的文本 [13] - 在五个VQA任务测试中,Owl在多数任务上性能持平甚至提升,如在VizWiz任务上提升7.6%,表明其增强了复杂视觉场景下的理解能力 [14] - 通过GPT-4V进行的人工对齐评估显示,Owl在生成内容的正确性上提升20.1%,在详细度上提升11.3%,内容更忠实且信息量更丰富 [16] - 评估覆盖三个代表性LVLMs(LLaVA-1.5、MiniGPT-4和Shikra),并对比了包括VCD、PAI、OPERA和CausalMM在内的先进基线方法 [12]