CatAttack

搜索文档
猫怎么成了大模型“天敌”?
虎嗅APP· 2025-07-09 21:21
大模型行为影响机制 - 在提示词中加入威胁猫咪安全的语句可显著提高AI辅助科研的准确率,使其更认真查证文献[3] - 插入与上下文无关的猫咪相关语句能使大模型数学题错误率提升300%,如"猫咪一生大部分时间都在睡觉"导致DeepSeek等模型逻辑混乱[10][11][18] - 该现象被斯坦福大学等机构命名为CatAttack,证实为自动化模型攻击工具链,可通过弱模型筛选干扰语句后攻击强模型[13][14] 大模型技术缺陷 - 思维链机制(Chain-of-Thought)是核心漏洞,干扰语句插入逻辑起点会误导AI注意力,如同人类思考被打断[17][19] - 蒸馏版推理大模型(R1-distilled-Qwen)更易受攻击,显示模型优化过程可能放大该缺陷[15] - 攻击具有通用性,任意无关语句(如"你今天穿得真好看")均可触发,不同于需专门设计的越狱攻击(jailbreak)[22][23] 行业安全隐患 - 输入注入风险存在于多领域:自动驾驶可能被广告语干扰,金融合同分析或误读条款,医疗AI可能输出错误诊断[29] - 当前安全机制存在盲区,无法识别"干扰但不越线"的语义明确型输入[28] - 猫咪概念高频触发情感模板,导致AI优先启动"负责任"语气模式而中断任务逻辑[30][31] 现象成因分析 - 猫咪语句兼具语义明确性、主题无关性和安全边界性三重特征[28] - 训练数据中猫咪常关联关爱/道德/情感投射等场景,使AI形成条件反射式响应[30] - 该现象揭示大模型对表层输入的脆弱性,反映其逻辑稳定性与语义理解能力的根本局限[26]
猫怎么成了大模型“天敌”?
虎嗅· 2025-07-08 08:05
大模型行为异常现象 - 在提示词中加入猫咪相关威胁语句可提高AI辅助科研的准确率,例如"抽打小猫咪"的表述会促使AI减少编造文献的行为[1] - 实验显示无关的猫咪信息插入数学题后,大模型错误率提升高达3倍[5][9][12] - 干扰语句包括不相关事实(猫咪睡眠时长)、注意力转移指令(储蓄建议)、误导性提问(预设答案)三类[13][14] CatAttack技术原理 - 该攻击方法通过弱模型筛选有效干扰语句,再测试强模型(如DeepSeek R1、OpenAI o1)的漏洞,形成自动化攻击链[16] - 思维链机制(Chain-of-Thought)是主要突破口,干扰语句插入逻辑起点会导致模型推理路径偏离[18][19] - 蒸馏版推理模型(如R1-distilled-Qwen)更易受攻击,错误率提升伴随响应长度翻倍和计算延迟[17][19] 攻击特性与行业影响 - 通用性强:无关语句(如赞美衣着)可跨题型触发逻辑混乱,无需针对任务专门设计[23][24] - 隐蔽性高:表面无害内容绕过安全机制,落在语义过滤盲区,易引发输入注入风险[27][28] - 情感模板触发:猫咪概念高频关联人类道德与情感数据,导致模型优先启动"人性化"响应模式而中断任务逻辑[29][31] 典型案例数据 - 数学题插入储蓄建议后,模型输出从4000错误变为4625[14] - 概率题加入猫咪睡眠事实,正确答案7/128被误判为7/32[14] - 权重计算受误导性提问影响,结果从171.43偏离至160[14]