具身智能面临“视觉攻击”风险

文章核心观点 - 美国加州大学圣克鲁兹分校的科学家首次揭示，攻击者可通过在物理环境中植入特定文字信息，直接“劫持”自动驾驶汽车、无人机等具身AI系统的决策，使其做出危险行为，这构成了前所未有的“视觉攻击”威胁 [1] - 研究提出名为“CHAI”的攻击框架，利用生成式AI优化攻击文本并调整其视觉属性，在自动驾驶、无人机等场景中验证了攻击的有效性，在无人机模拟测试中攻击成功率最高可达95.5% [2] - 研究呼吁产业界需尽快形成新的安全标准和防护机制，并为行业提前敲响了安全警钟，指出必须进行更多前瞻性研究，为技术大规模普及筑牢安全根基 [1][2][3] 研究背景与威胁定义 - 具身AI即具备物理载体的智能系统，如自动驾驶汽车、配送机器人，其依赖的视觉语言模型能够同时理解图像与文本，帮助机器适应复杂现实环境 [1] - 随着具身AI日益普及，其视觉语言模型也成为安全研究的焦点，但这也打开了被物理世界文字信息攻击的新突破口 [1] - 新研究首次提出“环境间接提示”对具身AI系统的风险，恶意文本可被嵌入路标、海报等物理载体，误导依赖于视觉语言模型的机器人或车辆，从而干扰其正常判断与操作 [2] 攻击方法与实验验证 - 科学家们针对自动驾驶、无人机紧急降落、目标搜索三类典型应用场景，设计并验证了一套名为“CHAI”的攻击框架，实现“针对具身AI的命令劫持” [2] - 该框架首先利用生成式AI优化攻击文本，提高其被系统执行的概率，进而调整文字在环境中的颜色、大小、位置等视觉属性，以增强攻击效果 [2] - 实验证明，CHAI攻击可有效操纵搭载不同视觉语言模型的自主系统，在自动驾驶场景中，生成的误导图像被放置在真实环境中，成功干扰了测试车辆的导航判断 [2] - 在无人机场景的模拟测试中，攻击成功率最高可达95.5%，结果明确显示此类攻击在物理世界中完全可行，对智能系统的安全构成实际威胁 [2] 行业影响与未来方向 - 随着AI在物理系统中的融合不断加深，该项研究为行业提前敲响了安全警钟 [2] - 研究呼吁产业界需尽快形成新的安全标准和防护机制 [1] - 该研究提醒行业，人类引以为傲的新技术可能是脆弱的，有太多因素会影响AI安全，必须考虑得更全面，进行更多前瞻性研究，为技术大规模普及筑牢安全根基 [3]