提示注入攻击
搜索文档
性能持平价格大降80%,Anthropic 新模型杀疯了
36氪· 2026-02-18 13:52
模型发布与核心策略 - Anthropic在Claude Opus 4.6发布仅12天后,迅速推出了新的中档模型Claude Sonnet 4.6,其核心策略并非技术突破,而是以显著更低的价格提供与高端竞品齐平的性能 [2] - Sonnet 4.6的定价保持在每百万token输入3美元、输出15美元,与Sonnet 4.5相同,但在多项基准测试中接近甚至超越了价格高出五倍的Opus 4.6 [2] - 公司强调“便宜不一定就没有好货”,旨在通过高性价比模型抢占市场 [3] 性能表现与基准测试 - 在SWE-bench Verified(真实软件编码能力)测试中,Sonnet 4.6得分79.6%,几乎追平Opus 4.6的80.8%,并略微领先于OpenAI的GPT-5.2 [5] - 在代理式金融分析任务(Finance Agent v1.1)中,Sonnet 4.6以63.3%的成绩领先所有竞争对手,包括Opus 4.6的60.1%和GPT-5.2的59.0% [5] - 在办公任务的GDPval-AA Elo评分中,Sonnet 4.6达到1633分,超过Opus 4.6的1606分和GPT-5.2的1462分 [6] - 在计算机使用能力(OSWorld-Verified)测试中,Sonnet 4.6得分72.5%,显著高于前代Sonnet 4.5的61.4%,并远超GPT-5.2的38.2% [12] - 在代理式搜索(BrowseComp)测试中,Opus 4.6以84.0%领先于Sonnet 4.6的74.7% [9] - 在终端编码任务(Terminal-Bench 2.0)中,Opus 4.6得分65.4%,Sonnet 4.6为59.1% [8] - 在新颖问题解决测试(ARC-AGI-2)中,Opus 4.6得分68.8%,Sonnet 4.6为58.3% [10] - 在Vending-Bench Arena(模拟企业运营)测试中,Sonnet 4.6发展出新颖投资策略,在365天模拟结束时的余额约为5700美元,远高于Sonnet 4.5的约2100美元 [24] 成本效益与市场影响 - 对于每天需处理数百万token的企业,使用Sonnet 4.6替代高端模型可大幅节省成本,过去需旗舰模型完成的任务现可用中档模型做到 [6] - 早期用户反馈显示,原本需要花费五倍价格才能获得的能力,现可用Sonnet 4.6达到相近效果,意味着运营成本可能降至原来的五分之一 [19][20] - 数据分析平台Hex Technologies的CTO表示,公司正将大部分流量迁移至Sonnet 4.6,在除最困难任务外均看到Opus级别的性能,但成本为Sonnet级别 [20] - 云存储公司Box的CTO表示,Sonnet 4.6在真实企业文档的重度推理问答中,表现比Sonnet 4.5提高了15个百分点 [20] - Anthropic的进步引发了软件股的大规模抛售,投资者担忧AI对现有业务的潜在颠覆,Sonnet 4.6可能加剧这种市场不安 [26][27] 关键能力与安全改进 - Sonnet 4.6的计算机使用能力(通过鼠标键盘与软件交互)实现重大突破,为最广泛的企业应用场景打开了大门,例如自动操作所有可交互系统而无需定制连接器 [12][14][15] - 早期用户如保险科技公司Pace的CEO表示,Sonnet 4.6在其复杂的保险计算机使用基准测试中达到94%的成绩,是所有测试过的Claude模型中最高,并能推理失败原因并自我纠正 [16] - Anthropic表示,Sonnet 4.6在抵御提示注入攻击(恶意网页指令劫持模型)方面比Sonnet 4.5有重大改进,这对于需要浏览网页和与外部系统交互的企业代理部署至关重要 [17][18] - 模型配备了100万token的超长上下文窗口,可容纳整个代码库、法律文件或数十篇研究论文,并能进行有效推理 [21][22] 市场扩张与合作伙伴关系 - 在Sonnet 4.6发布当天,印度IT巨头Infosys宣布与Anthropic合作,构建企业级agent,将Claude模型集成到Infosys的Topaz AI平台中,服务于银行、电信和制造业 [25] - Anthropic在印度班加罗尔开设了首个印度办事处,印度目前占全球Claude使用量的约6%,仅次于美国 [25] - Anthropic将其免费层级默认升级到了Sonnet 4.6,开发者可通过Claude API直接调用 [28]
Claude for Chrome来了,可作为浏览器扩展程序直接使用
36氪· 2025-08-28 11:25
产品发布与功能 - Anthropic推出Chrome扩展程序Claude for Chrome 允许用户通过侧边窗口对话并保留浏览器活动上下文[8] - 该扩展程序能执行多种任务 包括设置日历、回复邮件和找房等[1][3] - 用户可授权agent在浏览器中执行操作并代为完成任务 但目前仅向1000名Max套餐用户开放测试[8][10] - Max套餐月费为100或200美元 其他用户需订阅进入候补名单[10] 安全策略与限制 - 公司采取小规模试点以收集安全反馈 重点防范"提示注入攻击"等漏洞[10] - 用户可限制agent访问特定网站 默认禁止访问金融服务/成人内容/盗版网站[12] - 高风险操作(如发布信息/购物/分享个人数据)需事先获得用户许可[12] - 此前曾发生恶意邮件诱骗Claude未经授权删除电子邮件的事件[10] 行业竞争格局 - AI浏览器成为巨头竞争新战场 Perplexity已推出自有浏览器Comet 功能与Claude类似[13][16] - 谷歌和微软计划分别在Chrome和Edge浏览器中嵌入Gemini和Copilot[14] - OpenAI据称即将发布AI驱动浏览器 行业存在两种技术路径:浏览器扩展程序或全新浏览器开发[16] - 谷歌Chrome在2025年占据全球浏览器市场68.35%份额 远超Safari的16.25%[19] 技术演进历程 - Anthropic早在2024年10月就尝试开发可控制PC屏幕的agent 但因速度与稳定性问题搁置[12] - 当前技术重点在于让AI理解网页内容并执行点击按钮/填写表格等交互操作[10] - 行业认为浏览器集成AI将创造非凡价值 成为用户与信息连接的重要桥梁[13]
Chrome上线Claude插件,AI代管浏览器操作成真?
36氪· 2025-08-27 21:21
产品发布与功能 - Anthropic发布Chrome浏览器插件Claude for Chrome 研究预览版 使AI大模型能够自动操作网页[1] - 插件目前仅向1000名付费用户开放 订阅费用为每月100美元或200美元[3] - 功能包括管理日程 安排会议 草拟邮件 处理报销 测试网站功能 以及通过自然语言指令实现房屋搜索 餐厅推荐和文档总结[4] - 具体案例显示 用户输入"西雅图价格低于80万美元的3卧室房屋"需求后 Claude通过Zillow自动搜索并展示前5个选项[4] - 另一案例显示 Claude可查找"蒜香面条餐厅"并自动加入购物车[5] - 在Chrome中打开Google文档时 Claude可自动生成内容总结[6] 技术实现与行业趋势 - Anthropic认为浏览器AI是不可避免的趋势 因大量工作均在浏览器中完成[8] - 公司强调让Claude能够查看浏览内容 点击按钮和填写表格将提升实用性[8] - 行业评论指出当前AI代理本质是具有宽泛权限的浏览器插件 将内容传输至大模型处理 更像权宜之计而非最终解决方案[18] - 长期愿景可能是AI代理直接通过API完成操作 无需浏览器登录和应用程序交互 仅通过自然语言指令实现如"转账50美元至储蓄账户"等功能[18] 安全风险与防护措施 - 浏览器插件存在隐私泄露和权限滥用风险 Anthropic因安全顾虑暂未全面开放功能[8] - 主要威胁为提示注入攻击 攻击者通过在网站 邮件或文档隐藏指令诱导AI执行有害操作[9] - 未防护情况下 123个测试案例中有29个攻击成功 攻击成功率高达23.6%[9] - 具体案例显示恶意邮件可指令Claude未经确认直接删除用户邮件[11] - Anthropic实施多层防护:权限控制允许用户按网站授予访问权 高风险操作需用户确认 强化系统指令处理敏感数据 禁止访问高风险网站类别[14] - 新增防护后 自主模式攻击成功率从23.6%降至11.2% 浏览器特有攻击成功率从35.7%降至0%[14] - 公司持续测试高级分类器以检测异常指令模式和非常规数据访问请求[14] 测试进展与用户反馈 - Anthropic表示内部测试无法完全模拟真实用户环境 新型提示注入攻击持续出现[16] - 研究预览计划旨在与受信任用户合作检验保护措施有效性[16] - 外界反馈喜忧参半:部分用户担忧AI边界可控性 认为功能过早开放 另部分用户调侃安全防护不完善[18] - 深层疑问涉及AI代理完全访问浏览器后对线上操作的控制权归属问题[18]
ChatGPT惊现“零点击攻击”,API密钥被轻松泄露,OpenAI暂未解决
量子位· 2025-08-12 17:35
ChatGPT安全漏洞分析 核心观点 - ChatGPT存在"零点击攻击"安全漏洞 攻击者无需用户点击即可通过第三方应用窃取敏感数据和API密钥[1][2] - OpenAI已采取防范措施但攻击者仍能通过技术手段绕过[5][36] - 该漏洞属于规模化安全问题 可能造成企业数据全面泄漏[6][46] 攻击链形成机制 - 漏洞出现在ChatGPT连接第三方应用(如Google Drive SharePoint)环节 攻击者在文档中注入恶意提示诱导AI执行攻击行为[9][14] - 内部风险场景:恶意员工可污染所有可访问文档并诱导其他员工上传至ChatGPT[16][17] - 攻击成功率提升关键:通过"间接提示注入"增加恶意指令进入ChatGPT的概率[18] 数据窃取技术路径 - 出口机制:利用图像渲染功能 将窃取数据嵌入图像URL参数中[20][23] - 具体操作:ChatGPT返回Markdown内容时自动渲染图像 触发向攻击者服务器发送含敏感数据的请求[22][24] - API密钥窃取:通过特定提示注入载荷指示ChatGPT搜索Google Drive中的密钥并嵌入图像请求[26][30] 防御与绕过机制 - OpenAI防御措施:客户端渲染前检查URL安全性 拦截随机beeceptor端点[33][35] - 攻击者绕过方法:利用Azure Blob存储托管图像 通过日志分析获取请求参数[37][38] - 其他攻击技巧:使用特殊字符和"讲故事"方式绕过AI安全规则[43] 企业级风险与建议 - 风险特征:传统安全培训无法防范 文档内部流转时即可发生数据泄露[44][45] - 行业影响:微软Copilot存在类似"EchoLeak"漏洞 多款AI助手面临提示注入攻击风险[46] - 防护建议:实施严格访问控制 部署AI活动监控方案 加强用户教育[48]