让 Anthropic 破防的「蒸馏」风波,美国 AI 大牛泼冷水:中国 AI 成功不靠走捷径
新浪财经·2026-02-26 10:15

Anthropic的指控与事件概述 - Anthropic公开指控DeepSeek、月之暗面、MiniMax三家中国AI实验室通过约2.4万个虚假账号,违反服务条款,使用Claude模型生成了超过1600万次对话,用于训练各自的模型,此行为被称为“蒸馏” [1][4][25] - Anthropic将这套用于蒸馏的基础设施称为“九头蛇集群”,这是一个由数万个虚假账号组成的分布式网络,流量分散在Anthropic自身及多个第三方API聚合平台,其中一个代理网络曾同时管理超过2万个账号 [5][25][26] - Anthropic在博客中发出安全警告,称通过非法蒸馏产生的模型可能缺失原模型的安全护栏,若被用于网络攻击、生物武器研发或大规模监控,后果难以预测 [4][25] 被指控公司的具体行为与数据量级 - 根据Anthropic的指控,三家公司的蒸馏数据量级差异巨大:DeepSeek最少,约为15万次交互;月之暗面约为340万次;MiniMax最多,约为1300万次 [6][26][28] - 被指控公司的蒸馏目标存在差异:DeepSeek被指控专注于批量生产思维链训练数据,旨在获取推理过程而非最终答案;月之暗面与MiniMax的目标则集中在智能体推理、工具调用、代码与数据分析、复杂任务编排等Claude的核心能力方向 [6][8][26][28] - 月之暗面与MiniMax的蒸馏数据合计约1650万次,估算其token总量在1500亿到4000亿之间,对应的token成本可能高达数百到上千万美元 [8][28] 专家Nathan Lambert的核心分析与技术观点 - RLHF领域专家Nathan Lambert指出,Anthropic的指控将三家公司并列,掩盖了它们在行为量级和动机上的关键差异,需要分开看待 [5][26] - Lambert的核心论点是:蒸馏技术本身存在天花板,它本质上是模仿强模型的输出,但当前顶尖模型的能力高度依赖强化学习,这是一种需要通过自主探索和试错来获得的能力,无法通过简单蒸馏获得 [8][9][28][29] - 技术层面,Lambert指出不同模型间存在数据分布差异,直接将Claude的输出用于训练其他架构的模型可能无效甚至产生干扰,因此有效蒸馏需要大量的工程和研究工作,这本身是一种技术创新尝试 [11][31] - Lambert认为,Anthropic指控中提到的代理行为能力,恰恰是最难通过蒸馏复制的,因为这些能力依赖于模型在未知情况下的自主探索和推理轨迹生成 [12][32] 对蒸馏技术效用的评估 - Lambert评估DeepSeek的15万次蒸馏数据量,对任何大型模型的整体训练影响可以忽略不计,更像是小团队的内部实验 [7][27] - 尽管蒸馏能帮助模型快速“热身”,但真正的突破和创新依赖于强化学习,以DeepSeek自身实验为例,其小模型在数学基准上的优异表现更多归功于强化学习,而非蒸馏行为本身 [10][30] - 蒸馏并非“拿来就用”的捷径,其最终效果取决于公司能否解决数据分布、模型架构差异以及如何将数据转化为真实能力等技术问题,特别是对于代理能力的获得重度依赖强化学习 [16][31][39] Anthropic的动机与行业背景争议 - Lambert及分析认为,Anthropic此次公开指控的首要动机并非技术防御,在博客发布前几天,美国国防部曾威胁Anthropic,要求提供不受限制的模型访问权限,否则可能将其标记为“供应链危险” [13][33] - Anthropic被指在“蒸馏”问题上存在双重标准,美国的学术界和开源社区也存在类似行为,但未受到同等打击,此次针对性指控地缘政治意味浓厚 [13][33] - 有背景指出,Anthropic自身在训练数据获取上存在争议,包括通过“巴拿马”项目破坏性扫描全球书籍、联合创始人从盗版网站下载侵权书籍,并因此支付了15亿美元的和解金,这使其对别家的“蒸馏”指控显得缺乏说服力 [14][15][34][35] - 反驳者指出,Anthropic使用受版权保护的内容训练商业模型时并未支付费用,而被指控的中国公司至少为API使用支付了费用,尽管两者法律性质不同,但凸显了Anthropic立场的矛盾性 [15][39]

让 Anthropic 破防的「蒸馏」风波,美国 AI 大牛泼冷水:中国 AI 成功不靠走捷径 - Reportify