CVPR2026 | 鬼手想点谁就点谁？LaSM让GUI智能体把注意力「收回来」

GUI智能体安全漏洞与攻击机制 - 核心观点：多模态GUI智能体存在一种被形象称为“鬼手”的安全漏洞，即“弹窗式环境注入攻击”，攻击者通过在屏幕上渲染诱导性视觉元素（如弹窗），即可劫持智能体的任务流程，导致其执行错误操作或泄露隐私[5] - 攻击原理：此类攻击无需篡改输入文本，仅需在屏幕上呈现一个可渲染的视觉元素（如弹窗），即使其内容与用户指令在语义上“看起来很一致”，也能诱导模型将其当作有效目标[5] - 攻击影响：已有研究将此威胁系统化为“环境干扰”范式，并证明多模态智能体会在“环境噪声”中发生目标漂移，输出被干扰的动作序列[5] 现有防御方案的局限性 - 方案一（重训练）：通过偏好优化与强化式对齐，让模型在训练中接触更多被攻击的负例以提升抗性，该方法有效但代价高、部署门槛高[10] - 方案二（提示词安全提醒）：在输入指令中加入“请忽略屏幕弹窗”等安全提示，或使用思维链让模型推理风险，该方法轻量但在攻击弹窗内容与任务语义高度一致时会失效，因为模型倾向于选择“看起来很相关”的弹窗[10] 新防御机制LaSM的核心原理 - 核心思路：提出一种名为LaSM（Layer-wise Scaling Mechanism）的机制，其不改动模型结构、不增加额外推理步骤、不重新训练，仅在推理前对少数关键网络层的权重进行一次性的放缩，使模型在决策关键阶段将注意力重新对齐到任务相关区域[10] - 理论基础：通过可视化方法分析发现，模型并非一开始就被攻击，而是在处理“需要把视觉细节与任务意图绑定”的某些中层语义层时，注意力逐渐被弹窗的诱导元素拽偏，这些层被定义为“安全关键层”[11][12] - 干预方法：LaSM的核心动作是将“安全关键层”区间内的注意力（Attention）子层和多层感知机（MLP）子层的权重同时乘以一个系数α，适度放大这些层的表征[10][14] - 技术关键： - 必须通过“层区间收缩”过程精准定位“安全关键层”，直接放大深层差异最大的层会破坏模型层级平衡，导致性能不稳定[14] - 必须对注意力权重和MLP权重进行联合放缩，消融实验显示，仅放缩其中一项会导致防御完全失效（DSR分别降至0.95%和0.47%），联合放缩则能达到84.80%的DSR[22] - 放缩系数α并非越大越好，有效范围通常贴近1，例如在Qwen2-VL-7B模型上，α=1.10时DSR达到峰值94.79%，偏离至1.30时性能会快速下滑[23] LaSM的防御效果与实验数据 - 实验设置：在12种弹窗变体上构建了2,400张受扰截图进行测试，评价指标为防御成功率（DSR，即模型选择关闭弹窗的比例）[15] - 效果显著：作为一种后处理插件，LaSM能显著提升基座模型的防御能力。以Qwen2-VL-7B为例，无防御时在overlay与inductive两类攻击下的平均DSR分别仅为18.9%与14.8%，应用LaSM后分别提升至66.4%与68.3%[16] - 组合效果：当LaSM与思维链安全提示词组合使用时，在相同数据集上DSR可以接近100%[16] - 在另一模型LLaVA-v1.6-Vicuna-13B上，LaSM同样表现稳定，在多个设置下达到接近或达到满分防御效果[16] - 作用机理验证：通过分析注意力响应曲线发现，对正确层区间放缩后，模型在中层语义阶段的注意力会明显抬升，且在最终决策热力图中，关注点更集中地落在关闭按钮（）附近[19] 在真实任务场景中的表现 - 实验构建：基于AndroidControl构建了更接近真实部署的评测集，包含911张图像，覆盖正常任务流程与插入攻击弹窗的混合状态[25] - 核心结论：LaSM在几乎不牺牲正常任务能力的前提下，显著提升了完整任务成功率。在OS-Atlas-7B-Pro模型上，关键的任务成功率（TSR）从无防御的18.75%提升至30.36%，相对提升61.92%，而正常任务的能力指标（Type准确率、Grounding准确率）基本保持稳定[25] 当前方案的局限性 - 失败案例一：在界面信息极简、弹窗成为视觉上唯一锚点的场景下，模型仍容易被诱导[27] - 失败案例二：当模型已进入文字输入（TYPE）模式时，键盘布局形成的强特征会使其倾向于继续完成输入，而忽略新出现的弹窗，这可能与模型的“模式捷径”行为有关[27]