Attention机制
搜索文档
多模态大模型中Attention机制暗藏「骗局」,需用一个公式修正
36氪· 2026-01-27 16:15
行业研究:多模态模型效率优化 - 当前,视觉语言模型在多模态理解任务中取得了显著进展,模型通常通过语言到视觉的注意力机制来衡量视觉标记与文本之间的相关性,并据此进行视觉标记剪枝,以降低推理成本、提升运行效率 [1] - 然而,一个长期被忽视的关键问题是:注意力本身可能并非“语义重要性”的可靠指标,如果直接使用这些带有偏置的注意力进行视觉标记剪枝,往往会无意中保留不重要的视觉区域,同时丢失真正有助于任务理解的关键信息 [1] 核心问题:注意力机制的结构性偏置 - 研究发现,主流视觉语言模型中的注意力行为受到显著的结构性偏置影响,而非仅由语义决定 [1] - **位置偏置**:注意力更偏爱“后面的标记”,呈现出明显的单调上升趋势,这意味着模型更倾向于关注序列靠后的视觉标记,在图像中往往表现为对图像下方区域给予更高的注意力,这种偏好与图像语义本身没有直接关系 [2] - **填充区域注意力汇**:由于输入图像尺寸不一致,填充是常见操作,但研究发现这些语义上无用的填充区域对应的视觉标记在注意力计算中经常获得异常大的权重,其根源在于隐藏状态中出现了极端激活值,从而诱发“注意力汇”现象,这会直接误导基于注意力的剪枝策略 [4] 解决方案:注意力去偏修正方法 - 针对上述问题,研究团队的核心思路是对注意力本身进行去偏,而非提出新的剪枝方法或引入额外训练 [5] - 核心观察是,注意力中的偏置呈现出稳定、可建模的整体趋势,因此,研究人员通过对注意力随标记位置变化的整体趋势进行拟合,显式建模其中的位置偏置,并在此基础上对原始注意力进行去偏修正,从而有效削弱与内容无关的位置因素 [5] - 对于填充区域,该团队在剪枝阶段显式抑制其注意力贡献,避免注意力汇对标记排序产生干扰,整个过程不涉及模型结构修改,也不需要重新训练,可在推理阶段直接使用 [5] 实验验证与性能提升 - 该团队将注意力去偏策略作为即插即用模块,集成到多种主流基于注意力的视觉标记剪枝方法中进行评估,实验覆盖**6种剪枝基线方法**,在多个主流视觉语言模型(**7B/13B**参数规模)上进行测试,并验证于**10个图像理解任务**与**3个视频理解任务** [8] - 实验结果表明,在几乎所有设置下,经过注意力去偏修正后,剪枝模型均取得了稳定的性能提升,且在更激进的标记压缩条件下效果尤为明显 [8] - 具体数据表明,在LLaVA-v1.5-7B模型上,应用去偏方法后,FastV方法在VQAv2任务上的准确率从73.2提升至76.6,在GQA任务上从55.8提升至59.3,在MME任务上从1442.3提升至1499.5 [10] - 在LLaVA-v1.5-13B模型上,应用去偏方法后,FastV方法在VQAv2任务上的准确率从76.5提升至78.2,在GQA任务上从59.1提升至60.9 [10] 研究结论与行业意义 - 研究结果表明,注意力并非天然等价于语义重要性,在视觉语言模型中,如果忽视注意力中固有的结构性偏置,基于注意力的剪枝策略很容易被误导,从而影响模型整体性能 [12] - 通过对注意力进行简单而有效的去偏修正,可以在不引入额外训练成本的前提下,显著提升视觉标记剪枝的可靠性与泛化能力,该工作为多模态模型的高效部署提供了新的视角,也为后续更稳健的注意力机制设计奠定了基础 [12]
多模态大模型中Attention机制暗藏「骗局」,需用一个公式修正丨上大×南开
量子位· 2026-01-27 10:33
文章核心观点 - 当前主流视觉语言模型中的注意力机制存在结构性偏置,不能可靠地指示语义重要性,若直接用于视觉令牌剪枝会损害模型性能 [2] - 通过一种即插即用的注意力去偏方法,无需修改模型或重新训练,即可有效修正偏置,提升多种剪枝方法的性能与可靠性 [6][7] 注意力机制存在的结构性偏置 - **位置偏置**:语言到视觉的注意力权重呈现单调上升趋势,模型更倾向于关注序列靠后的视觉令牌,导致对图像下方区域给予更高但可能无关语义的关注 [3] - **填充区域偏置**:由于输入图像尺寸不一,填充区域在注意力计算中经常获得异常高的权重,即“注意力沉没”现象,这会误导剪枝策略保留空白区域 [5] 提出的解决方案:注意力去偏 - 核心思路是对注意力本身进行去偏修正,而非提出新的剪枝方法或引入额外训练 [6] - 方法是通过拟合注意力随令牌位置变化的整体趋势来显式建模位置偏置,并对原始注意力进行修正,同时显式抑制填充区域的注意力贡献 [6] - 该方法是一个即插即用模块,不涉及模型结构修改或重新训练,可在推理阶段直接使用 [6][7] 实验设计与结果 - 实验覆盖了**6种主流的基于注意力的视觉令牌剪枝方法**,在多个主流视觉语言模型上进行测试,包括7B和13B参数规模的模型 [7] - 评估任务包括**10个图像理解任务和3个视频理解任务** [7] - 实验结果表明,在几乎所有设置下,经过注意力去偏修正后,剪枝模型均取得了稳定的性能提升,在更激进的令牌压缩条件下效果尤为明显 [10] - 具体数据示例如下:在7B模型上,FastV方法在VQAv2任务上的得分从73.2提升至76.6;在13B模型上,FastV方法在VQAv2任务上的得分从76.5提升至78.2 [11] 研究结论与意义 - 注意力并非天然等价于语义重要性,忽视其固有结构性偏置会误导基于注意力的剪枝策略,影响模型性能 [12] - 该工作通过简单有效的注意力去偏修正,在不增加训练成本的前提下,显著提升了视觉令牌剪枝的可靠性与泛化能力 [12] - 该研究为多模态模型的高效部署提供了新视角,并为后续设计更稳健的注意力机制奠定了基础 [12]
微软研究院杨玉庆:Agent 的注意力系统|Attention
36氪· 2025-09-05 11:42
技术优化方法 - TriangleMix是一种免训练、适用于超长输入的Attention模式组合,通过浅层致密、深层三角稀疏的结构设计显著降低预填阶段延迟[2] - 该方法在32K–128K长度下将首Token延迟降低12%–32%,Attention核延迟提升3.7×–15.3×[2] - 通过梯度敏感性分析裁剪无用Middle Q-K区块,仅保留Streaming与末尾聚合区域,复杂度从O(N²)降至O(N)[2][5] 性能表现 - 在Llama‑3.1‑8B‑Instruct模型中将每层内核延迟从750ms压缩至49ms,加速比例达15.3×[10] - 在Llama‑3.1‑8B‑Instruct和Llama‑3‑8B‑262K上应用后62.5%层时保留99.7%原始性能[8] - 在RULER和LongBench等基准测试任务上与Dense attention保持几乎相同的准确率表现[10] 系统架构创新 - 团队主攻智能体原生系统,包括Agent优化中间件、多模态结构融合和人群敏感系统设计[22][24][25] - 提出Parrot系统针对智能体系统计算图优化,传统推理系统面向单次请求优化,而智能体需考虑整个任务链条[15][16] - 开发POML框架实现对象类型自动Token转换,类似前端开发的HTML语言和前端框架[20] 信息检索机制 - Attention被视为Token级别的内积检索,构成可微分搜索引擎,每个Token进行查询增强[32] - 相比Embedding检索具有三大优势:Token级别细粒度、千维级别多视角表达、构建连续推理路径[33][34] - Attention机制成为AI系统最具策略性的控制中心,决定信息调取、保留和匹配方式[27][35] 多模态应用 - 稀疏注意力机制适用于多模态模型,Attention+Memory架构成为多模态系统通用骨架[45] - Video-RAG系统通过事件图处理原始视频信息,在图上进行检索和游走回答用户问题[45] - 主流模态间Token化和对齐基本实现,包括视觉、声音及WiFi感知信号等前沿模态[45] 存储优化策略 - 性能瓶颈来自庞大且不断增长的KV Cache系统,100K-1M上下文长度下TTFT呈平方级别上升[41][47] - 优化策略聚焦写入与读取结构化、语义感知,构建GPU+CPU+RAM混合KV Cache体系[48] - "挑着读"上限高于"挑着写",阅读时选择性加载可更智能、更任务相关[48] 人群服务应用 - 针对视觉障碍开发者优化Agent反馈策略和交互结构,提升编程体验[68] - 开发个性化认知训练框架"忆我"Reme,为认知障碍提供早期预防和非药物干预新方法[68] - Agent系统目标成为人的"第二操作系统",特别关注技术依赖高但传统系统难以覆盖的用户[67][69]