猫怎么成了大模型“天敌”?
虎嗅APP·2025-07-09 21:21
大模型行为影响机制 - 在提示词中加入威胁猫咪安全的语句可显著提高AI辅助科研的准确率,使其更认真查证文献[3] - 插入与上下文无关的猫咪相关语句能使大模型数学题错误率提升300%,如"猫咪一生大部分时间都在睡觉"导致DeepSeek等模型逻辑混乱[10][11][18] - 该现象被斯坦福大学等机构命名为CatAttack,证实为自动化模型攻击工具链,可通过弱模型筛选干扰语句后攻击强模型[13][14] 大模型技术缺陷 - 思维链机制(Chain-of-Thought)是核心漏洞,干扰语句插入逻辑起点会误导AI注意力,如同人类思考被打断[17][19] - 蒸馏版推理大模型(R1-distilled-Qwen)更易受攻击,显示模型优化过程可能放大该缺陷[15] - 攻击具有通用性,任意无关语句(如"你今天穿得真好看")均可触发,不同于需专门设计的越狱攻击(jailbreak)[22][23] 行业安全隐患 - 输入注入风险存在于多领域:自动驾驶可能被广告语干扰,金融合同分析或误读条款,医疗AI可能输出错误诊断[29] - 当前安全机制存在盲区,无法识别"干扰但不越线"的语义明确型输入[28] - 猫咪概念高频触发情感模板,导致AI优先启动"负责任"语气模式而中断任务逻辑[30][31] 现象成因分析 - 猫咪语句兼具语义明确性、主题无关性和安全边界性三重特征[28] - 训练数据中猫咪常关联关爱/道德/情感投射等场景,使AI形成条件反射式响应[30] - 该现象揭示大模型对表层输入的脆弱性,反映其逻辑稳定性与语义理解能力的根本局限[26]