让 Anthropic 破防的「蒸馏」风波，美国 AI 大牛泼冷水：中国 AI 成功不靠走捷径

Anthropic的指控与事件概述 - Anthropic公开指控DeepSeek、月之暗面、MiniMax三家中国AI实验室通过约2.4万个虚假账号，违反服务条款，使用Claude模型生成了超过1600万次对话，用于训练各自的模型，此行为被称为“蒸馏” [1][4][25] - Anthropic将这套用于蒸馏的基础设施称为“九头蛇集群”，这是一个由数万个虚假账号组成的分布式网络，流量分散在Anthropic自身及多个第三方API聚合平台，其中一个代理网络曾同时管理超过2万个账号 [5][25][26] - Anthropic在博客中发出安全警告，称通过非法蒸馏产生的模型可能缺失原模型的安全护栏，若被用于网络攻击、生物武器研发或大规模监控，后果难以预测 [4][25] 被指控公司的具体行为与数据量级 - 根据Anthropic的指控，三家公司的蒸馏数据量级差异巨大：DeepSeek最少，约为15万次交互；月之暗面约为340万次；MiniMax最多，约为1300万次 [6][26][28] - 被指控公司的蒸馏目标存在差异：DeepSeek被指控专注于批量生产思维链训练数据，旨在获取推理过程而非最终答案；月之暗面与MiniMax的目标则集中在智能体推理、工具调用、代码与数据分析、复杂任务编排等Claude的核心能力方向 [6][8][26][28] - 月之暗面与MiniMax的蒸馏数据合计约1650万次，估算其token总量在1500亿到4000亿之间，对应的token成本可能高达数百到上千万美元 [8][28] 专家Nathan Lambert的核心分析与技术观点 - RLHF领域专家Nathan Lambert指出，Anthropic的指控将三家公司并列，掩盖了它们在行为量级和动机上的关键差异，需要分开看待 [5][26] - Lambert的核心论点是：蒸馏技术本身存在天花板，它本质上是模仿强模型的输出，但当前顶尖模型的能力高度依赖强化学习，这是一种需要通过自主探索和试错来获得的能力，无法通过简单蒸馏获得 [8][9][28][29] - 技术层面，Lambert指出不同模型间存在数据分布差异，直接将Claude的输出用于训练其他架构的模型可能无效甚至产生干扰，因此有效蒸馏需要大量的工程和研究工作，这本身是一种技术创新尝试 [11][31] - Lambert认为，Anthropic指控中提到的代理行为能力，恰恰是最难通过蒸馏复制的，因为这些能力依赖于模型在未知情况下的自主探索和推理轨迹生成 [12][32] 对蒸馏技术效用的评估 - Lambert评估DeepSeek的15万次蒸馏数据量，对任何大型模型的整体训练影响可以忽略不计，更像是小团队的内部实验 [7][27] - 尽管蒸馏能帮助模型快速“热身”，但真正的突破和创新依赖于强化学习，以DeepSeek自身实验为例，其小模型在数学基准上的优异表现更多归功于强化学习，而非蒸馏行为本身 [10][30] - 蒸馏并非“拿来就用”的捷径，其最终效果取决于公司能否解决数据分布、模型架构差异以及如何将数据转化为真实能力等技术问题，特别是对于代理能力的获得重度依赖强化学习 [16][31][39] Anthropic的动机与行业背景争议 - Lambert及分析认为，Anthropic此次公开指控的首要动机并非技术防御，在博客发布前几天，美国国防部曾威胁Anthropic，要求提供不受限制的模型访问权限，否则可能将其标记为“供应链危险” [13][33] - Anthropic被指在“蒸馏”问题上存在双重标准，美国的学术界和开源社区也存在类似行为，但未受到同等打击，此次针对性指控地缘政治意味浓厚 [13][33] - 有背景指出，Anthropic自身在训练数据获取上存在争议，包括通过“巴拿马”项目破坏性扫描全球书籍、联合创始人从盗版网站下载侵权书籍，并因此支付了15亿美元的和解金，这使其对别家的“蒸馏”指控显得缺乏说服力 [14][15][34][35] - 反驳者指出，Anthropic使用受版权保护的内容训练商业模型时并未支付费用，而被指控的中国公司至少为API使用支付了费用，尽管两者法律性质不同，但凸显了Anthropic立场的矛盾性 [15][39]