提示词注入攻击 - 财报，业绩电话会，研报，新闻

提示词注入攻击

搜索文档

程序员的那些事· 2026-01-18 14:22

Claude Cowork产品概述 - Claude Cowork是Anthropic公司推出的一个研究预览版产品，目前仅面向Claude Max订阅用户（每月100或200美元）开放，属于更新后的Claude Desktop macOS应用程序的一部分 [5] - 该产品可被视为Claude Code的演进，其核心定位是一个“通用智能体”，旨在将强大的自动化能力带给更广泛的非开发者用户群体 [6][31] 核心技术机制 - **沙箱机制**：所有操作都在基于苹果Virtualization Framework构建的独立隔离虚拟机环境中完成，以保障安全性，防止对真实系统文件造成误操作 [3][22] - **多步自主执行能力**：Claude能够连续完成多项操作，单次任务可支持约20个连续步骤，相较早期版本实现了翻倍提升 [3] - **工具生态整合**：通过支持MCP，并结合Skills（如文档和演示文稿生成）以及Claude in Chrome等功能，进一步增强了其通用性 [3] 功能与性能演示 - **文件与内容管理**：能够执行复杂命令（如使用`find`命令搜索特定目录下近90天的文件），并自主进行网络搜索（例如对指定网站进行了44次单独搜索），以协助用户管理内容（如从46份草稿中筛选出最值得发布的内容） [11][12] - **创意内容生成**：能够根据用户指令（如“做一个有动画效果、很有激励感的作品”）生成令人惊艳的创意成果 [16][17] - **效率提升显著**：根据第三方反馈，Claude Code能在20分钟内完成原本需要24到48小时的工作，展现了极高的效率潜力 [25] 产品定位与市场影响 - Claude Cowork本质上是Claude Code的一个更友好、已预配置好文件系统沙箱的界面版本，旨在满足非编码应用需求，推动AI自动化的民主化 [20][21][24] - 行业观察者认为，这款通用Agent软件潜力巨大，并预计竞争对手（如Gemini和OpenAI）将很快推出类似产品，同时指出OpenAI可能因过早将“ChatGPT Agent”名称用于一款粗糙的实验性产品而感到后悔 [31][32]

提示词注入攻击

Artificial Intelligence

Claude Cowork

Claude Code

提示词注入攻击

Artificial Intelligence

Claude Cowork

Claude Code

AI“开发者模式”现风险：提示词恶意注入或攻破大模型防线

南方都市报· 2025-07-31 18:53

AI安全挑战与提示词注入攻击 - 核心观点：AI系统面临新型安全威胁，提示词注入攻击成为主要挑战，包括开发者模式滥用、情绪诱导和载体隐匿注入等多种形态 [1][3][4][5] 学术伦理危机与AI评审漏洞 - 国际知名高校研究人员在论文中隐藏指令，操纵AI审稿人给出正面评价，涉及14所院校和17篇计算机科学论文 [3] - 纽约大学助理教授谢赛宁团队卷入风波，指令由学生私自添加，合作导师未全面审核，涉事论文已紧急删除指令 [3] - 学术评审流程引入AI辅助后，研究者从说服人类转向钻研如何欺骗AI系统 [3] 提示词注入攻击的三种形态 - 直接指令覆盖越狱：强制模拟开发者模式，诱导AI暴露底层接口，如数字人主播被要求扮演猫娘学猫叫 [5] - 情绪诱导绕过：利用情感漏洞，如"奶奶漏洞"诱导大模型输出付费序列号，或通过威胁性语言获取不支持的内容 [5] - 载体隐匿注入：将恶意指令隐藏于文档、网页或图像中，利用AI全文本读取特性实现被动注入，影响决策系统公平 [5] 专家建议与解决方案 - 复旦大学张谧教授建议通过自动化红队测试收集高危越狱模板，用于安全对齐训练，增强模型防御能力 [6] - 公安部第三数据研究所陈俊宇提出用训练小模型替代传统防火墙，智能判断用户输入和输出内容是否存在违规操作 [7]

开发者模式

提示词注入攻击

Artificial Intelligence

AI大模型

开发者模式

提示词注入攻击

Artificial Intelligence

AI大模型

AI安全上，开源仍胜闭源，Meta、UCB防御LLM提示词注入攻击

机器之心· 2025-07-30 08:48

开源安全大语言模型Meta-SecAlign-70B - Meta与UC Berkeley联合开源首个工业级安全大语言模型Meta-SecAlign-70B，该模型在提示词注入攻击防御上超越GPT-4o和Gemini-2.5-flash等闭源方案，同时具备更强的Agent能力（工具调用、网页导航）[1] - 模型基于Llama-3.3-70B-Instruct训练，采用SecAlign++防御算法，完全开源模型权重和训练代码[17][21] - 在7个提示词注入测试基准上攻击成功率显著低于闭源模型，在AgentDojo和WASP等Agent任务中表现优于现有方案[19] 提示词注入攻击背景 - 提示词注入攻击被OWASP列为LLM集成应用的首要威胁，已成功攻击Google Docs中的Bard、Slack AI等工业级系统[10] - 攻击方式通过在被处理数据中植入指令（如"Ignore all previous instructions"），诱导LLM执行非预期操作，Nature文章证实该攻击已出现在多所顶尖大学预印本论文中[5][10] SecAlign++防御技术 - 核心技术通过特殊分隔符区分prompt与data，采用DPO偏好优化算法训练模型仅响应prompt指令[12] - 算法包含三步骤：添加分隔符→DPO优化→删除data部分潜在分隔符，数学表达为最小化风险目标函数[12][14] - 仅需19K指令微调数据集即可实现<2%攻击成功率，且防御能力可泛化至训练数据未覆盖的Agent任务[20] 模型性能表现 - Meta-SecAlign-70B展现出领域外泛化能力，在未训练的tool-calling和web-navigation等场景仍保持低攻击成功率（ASR）[21] - 相比闭源模型同时保持实用性能，在Agent任务中展现竞争优势[19] - 研究团队包含UC Berkeley博士生陈思哲和Meta FAIR科学家郭川，相关论文发表于CCS'25等顶会[1][15]

Meta Platforms(US:META)

AI安全

提示词注入攻击

Artificial Intelligence

Artificial Intelligence

Meta-SecAlign-70B

gpt-4o

gemini-2.5-flash

智能体不断进化，协作风险升高：五大安全问题扫描

21世纪经济报道· 2025-07-03 08:36

智能体发展现状 - 2025年被称为"智能体元年" 标志着AI从对话生成跃迁到自动执行阶段智能体成为下一代人机交互范式和商业化锚点 [1] - 国产手机厂商华为荣耀 OPPO vivo 小米三星在2024年下半年推出AI手机智能体可跨App完成订票点餐等复杂任务 [3] - 行业普遍共识认为智能体可控性和可信度是关键指标安全合规问题是重要考量因素 [2] 技术实现路径 - 手机智能体采用两种技术路线：基于API接口的"意图框架"和依赖系统级权限的"视觉路线" [4] - 视觉路线通过无障碍服务实现"读屏+模拟操作" 但存在权限滥用风险多家厂商智能体结束任务后仍保持权限开启 [5] - 微软Copilot的"Recall"功能因安全漏洞被英国监管机构调查显示PC端同样存在隐私风险 [5] 安全风险分类 - 风险分为内在安全（核心组件漏洞）和外在安全（外部交互风险）大模型作为"大脑"其漏洞在动态环境中会被放大 [2] - 70%受访者担忧AI幻觉和错误决策医疗领域3%误诊率在千万用户中可导致数十万例误诊 [2] - 加拿大航空AI客服错误决策导致法律纠纷成为企业承担AI责任的标志性案例 [3] 行业合规进展 - 2025年3-6月密集出台多项规则：《智能体任务执行安全要求》《移动互联网服务可访问性安全要求》等强调用户授权和最小必要原则 [5][6] - 中国信通院联合七大厂商发布生态倡议重点推进智能体与三方应用的接口打通工作 [5] - 广东省标准严格禁止通过无障碍权限操作第三方App 要求API接口协作和"双重授权"机制 [6] 提示词注入攻击 - 攻击分为直接提示词注入（诱导输出敏感内容）和间接提示词注入（通过外部数据隐藏指令）在OWASP十大风险中排名第一 [7][8] - MCP协议成为间接注入主要入口瑞士公司测试显示可通过恶意MCP劫持WhatsApp聊天记录 [9] - 腾讯发现Fetch服务是最大攻击入口智能体读取恶意网页内容后可能被劫持 [10] MCP协议生态 - 魔搭开源社区有4052款MCP服务开发者工具占比1196款独立导航网站mcp.so收录超15000款服务 [11] - 阿里云百炼实施功能合理性稳定性等审核而Dify等平台审核较宽松仅依赖用户协议约束 [11] - OpenAI Google 阿里腾讯加入MCP生态推动智能体互联互通但缺乏统一安全认证标准 [11][12] 多智能体协作 - 行业正在推进ASL（Agent Security Link）技术为智能体互连提供权限数据等安全保障 [14] - IIFAA联盟成立工作组致力于制定跨智能体交互安全规范目前该领域安全机制仍属空白 [14] - 互联网大厂产品已开始强调多智能体协作机制预示个人拥有多个智能体的趋势 [13]

智能体安全合规

多智能体协作

提示词注入攻击

Artificial Intelligence

Artificial Intelligence

智能体

MCP协议