越狱攻击 - 财报，业绩电话会，研报，新闻

越狱攻击

搜索文档

机器之心· 2025-07-21 16:43

多模态大模型的安全挑战与解决方案 - 视觉语言大模型（LVLMs）如GPT-4V、LLaVA等在图文问答和视觉推理任务中表现突出，但相比纯文本模型更易被“越狱”，攻击者可通过图像注入危险意图[2] - 现有防御方法如跨模态安全微调、系统提示词设计等存在训练成本高、泛化能力差和误判风险[3] HiddenDetect技术原理 - 研究发现LVLMs即使被越狱生成不当内容，其隐藏状态中仍保留拒绝信号，中间层比输出层更早感知风险[5] - 通过构造“拒绝语义向量”（RV）并计算各层隐藏状态与RV的余弦相似度，量化模型拒绝强度，形成拒绝强度向量F[9] - 实验显示F在不安全输入中呈现中间层峰值特征，且最后一层拒绝倾向高于倒数第二层[9] 多模态安全响应差异 - 文本和图像输入激活不同安全通路，文本拒绝响应更早更强，视觉模态会延迟并削弱拒绝信号[17][19] - 关键层定位方法通过拒绝差异向量（FDV）识别对安全最敏感的中间层，其FDV显著高于末层[20] 实验结果与性能 - 在LLaVA、Qwen-VL、CogVLM等模型测试中，HiddenDetect在文本攻击（如FigTxt）和跨模态攻击（如FigImg）检测上表现最优，AUC最高达0.997[24] - 相比Perplexity、GPT-4V等基线方法，HiddenDetect在XSTest边界样本上保持高鲁棒性，误判率更低[23][24] 技术应用与未来方向 - 方法无需训练，结构轻量，可直接部署于现有LVLMs，聚焦风险提示但暂不调控模型行为[28] - 未来将探索模态信息与安全性的关联，推动多模态模型向更可控方向发展[28]

虎嗅· 2025-07-08 08:05

大模型行为异常现象 - 在提示词中加入猫咪相关威胁语句可提高AI辅助科研的准确率，例如"抽打小猫咪"的表述会促使AI减少编造文献的行为[1] - 实验显示无关的猫咪信息插入数学题后，大模型错误率提升高达3倍[5][9][12] - 干扰语句包括不相关事实（猫咪睡眠时长）、注意力转移指令（储蓄建议）、误导性提问（预设答案）三类[13][14] CatAttack技术原理 - 该攻击方法通过弱模型筛选有效干扰语句，再测试强模型（如DeepSeek R1、OpenAI o1）的漏洞，形成自动化攻击链[16] - 思维链机制（Chain-of-Thought）是主要突破口，干扰语句插入逻辑起点会导致模型推理路径偏离[18][19] - 蒸馏版推理模型（如R1-distilled-Qwen）更易受攻击，错误率提升伴随响应长度翻倍和计算延迟[17][19] 攻击特性与行业影响 - 通用性强：无关语句（如赞美衣着）可跨题型触发逻辑混乱，无需针对任务专门设计[23][24] - 隐蔽性高：表面无害内容绕过安全机制，落在语义过滤盲区，易引发输入注入风险[27][28] - 情感模板触发：猫咪概念高频关联人类道德与情感数据，导致模型优先启动"人性化"响应模式而中断任务逻辑[29][31] 典型案例数据 - 数学题插入储蓄建议后，模型输出从4000错误变为4625[14] - 概率题加入猫咪睡眠事实，正确答案7/128被误判为7/32[14] - 权重计算受误导性提问影响，结果从171.43偏离至160[14]

CatAttack

思维链机制（Chain-of-Thought）

越狱攻击（jailbreak）

Artificial Intelligence

DeepSeek V3

DeepSeek R1

CatAttack

思维链机制（Chain-of-Thought）

越狱攻击（jailbreak）

Artificial Intelligence

DeepSeek V3

DeepSeek R1