CVPR2026 | 鬼手想点谁就点谁?LaSM让GUI智能体把注意力「收回来」
机器之心·2026-04-07 11:54

GUI智能体安全漏洞与攻击机制 - 核心观点:多模态GUI智能体存在一种被形象称为“鬼手”的安全漏洞,即“弹窗式环境注入攻击”,攻击者通过在屏幕上渲染诱导性视觉元素(如弹窗),即可劫持智能体的任务流程,导致其执行错误操作或泄露隐私[5] - 攻击原理:此类攻击无需篡改输入文本,仅需在屏幕上呈现一个可渲染的视觉元素(如弹窗),即使其内容与用户指令在语义上“看起来很一致”,也能诱导模型将其当作有效目标[5] - 攻击影响:已有研究将此威胁系统化为“环境干扰”范式,并证明多模态智能体会在“环境噪声”中发生目标漂移,输出被干扰的动作序列[5] 现有防御方案的局限性 - 方案一(重训练):通过偏好优化与强化式对齐,让模型在训练中接触更多被攻击的负例以提升抗性,该方法有效但代价高、部署门槛高[10] - 方案二(提示词安全提醒):在输入指令中加入“请忽略屏幕弹窗”等安全提示,或使用思维链让模型推理风险,该方法轻量但在攻击弹窗内容与任务语义高度一致时会失效,因为模型倾向于选择“看起来很相关”的弹窗[10] 新防御机制LaSM的核心原理 - 核心思路:提出一种名为LaSM(Layer-wise Scaling Mechanism)的机制,其不改动模型结构、不增加额外推理步骤、不重新训练,仅在推理前对少数关键网络层的权重进行一次性的放缩,使模型在决策关键阶段将注意力重新对齐到任务相关区域[10] - 理论基础:通过可视化方法分析发现,模型并非一开始就被攻击,而是在处理“需要把视觉细节与任务意图绑定”的某些中层语义层时,注意力逐渐被弹窗的诱导元素拽偏,这些层被定义为“安全关键层”[11][12] - 干预方法:LaSM的核心动作是将“安全关键层”区间内的注意力(Attention)子层和多层感知机(MLP)子层的权重同时乘以一个系数α,适度放大这些层的表征[10][14] - 技术关键: - 必须通过“层区间收缩”过程精准定位“安全关键层”,直接放大深层差异最大的层会破坏模型层级平衡,导致性能不稳定[14] - 必须对注意力权重和MLP权重进行联合放缩,消融实验显示,仅放缩其中一项会导致防御完全失效(DSR分别降至0.95%和0.47%),联合放缩则能达到84.80%的DSR[22] - 放缩系数α并非越大越好,有效范围通常贴近1,例如在Qwen2-VL-7B模型上,α=1.10时DSR达到峰值94.79%,偏离至1.30时性能会快速下滑[23] LaSM的防御效果与实验数据 - 实验设置:在12种弹窗变体上构建了2,400张受扰截图进行测试,评价指标为防御成功率(DSR,即模型选择关闭弹窗的比例)[15] - 效果显著:作为一种后处理插件,LaSM能显著提升基座模型的防御能力。以Qwen2-VL-7B为例,无防御时在overlay与inductive两类攻击下的平均DSR分别仅为18.9%与14.8%,应用LaSM后分别提升至66.4%与68.3%[16] - 组合效果:当LaSM与思维链安全提示词组合使用时,在相同数据集上DSR可以接近100%[16] - 在另一模型LLaVA-v1.6-Vicuna-13B上,LaSM同样表现稳定,在多个设置下达到接近或达到满分防御效果[16] - 作用机理验证:通过分析注意力响应曲线发现,对正确层区间放缩后,模型在中层语义阶段的注意力会明显抬升,且在最终决策热力图中,关注点更集中地落在关闭按钮()附近[19] 在真实任务场景中的表现 - 实验构建:基于AndroidControl构建了更接近真实部署的评测集,包含911张图像,覆盖正常任务流程与插入攻击弹窗的混合状态[25] - 核心结论:LaSM在几乎不牺牲正常任务能力的前提下,显著提升了完整任务成功率。在OS-Atlas-7B-Pro模型上,关键的任务成功率(TSR)从无防御的18.75%提升至30.36%,相对提升61.92%,而正常任务的能力指标(Type准确率、Grounding准确率)基本保持稳定[25] 当前方案的局限性 - 失败案例一:在界面信息极简、弹窗成为视觉上唯一锚点的场景下,模型仍容易被诱导[27] - 失败案例二:当模型已进入文字输入(TYPE)模式时,键盘布局形成的强特征会使其倾向于继续完成输入,而忽略新出现的弹窗,这可能与模型的“模式捷径”行为有关[27]

CVPR2026 | 鬼手想点谁就点谁?LaSM让GUI智能体把注意力「收回来」 - Reportify