Anthropic披露针对其AI模型Claude的规模化能力抽取攻击 - 三起系统性能力抽取攻击通过创建超过2.4万个欺诈账户与Claude产生超过1600万次交互 目的是提取模型能力用于训练和优化攻击方自身模型 [1] - 相关攻击活动在访问规模、提示结构和任务重点上均明显偏离正常用户行为模式 呈现出明确的“能力抽取”特征而非一般性使用 [1] 攻击的通用操作手法与归因依据 - 三起攻击在操作手法上高度相似 均借助虚假账户与代理服务进行大规模访问以规避平台检测 [7] - Anthropic通过IP地址关联、请求元数据、基础设施特征等多项技术证据对相关行为进行了高置信度归因 并在部分案例中获得行业合作伙伴交叉验证 [7] 针对DeepSeek的攻击细节 - DeepSeek相关的攻击规模超过15万次交互 [7] - 攻击内容覆盖多任务推理能力、基于评分标准的评估任务以及生成“审查安全”的敏感问题替代问法 [7] - DeepSeek相关账户在流量模式、支付方式和时间安排上高度同步 呈现出类似“负载均衡”的特征以提升吞吐量并降低被发现风险 [7] - 一种被识别的技术路径是通过提示Claude“回溯并逐步写出其内部推理过程” 以此大规模生成链式思考训练数据 [7] - 通过请求元数据已将部分账户追溯至该实验室的具体研究人员 [7] 针对Moonshot AI的攻击细节 - Moonshot AI相关的攻击交互规模超过340万次 [8] - 该行动主要聚焦代理式推理、工具使用、编程与数据分析、计算机使用代理以及计算机视觉能力 [8] - Moonshot AI动用了数百个欺诈账户 并通过混合使用不同类型账号以降低整体行动的可识别性 [8] - Anthropic通过请求元数据将这些行为与Moonshot部分高级员工的公开资料进行匹配 [8] - 在后期阶段观察到更具针对性的尝试 即提取并重建Claude的推理轨迹 [8] 针对MiniMax的攻击细节 - 规模最大的攻击被归因于MiniMax 累计交互次数超过1300万次 [8] - 攻击重点集中在代理式编程能力以及工具调用与编排 [8] - Anthropic通过请求元数据和基础设施指标完成归因 并将相关时间节点与MiniMax公开的产品路线图进行比对 [8] - 由于该行动在MiniMax相关模型正式发布前即被发现 Anthropic得以首次完整观察一次蒸馏攻击从数据生成到模型发布前的全过程 [8] - 在Anthropic发布新模型期间 MiniMax在24小时内调整策略 将近一半流量转向新系统以获取最新能力特征 [8] 攻击针对的核心能力与行业现状 - 这些攻击行动主要针对Claude在“代理式推理”、工具调用以及代码生成等差异化能力 [7] - 截至发稿 DeepSeek、月之暗面以及MiniMax尚未对Anthropic的披露发表回应 [9]
DeepSeek、月之暗面、MiniMax被指大规模蒸馏Claude,MiniMax交互超1300万次