模型蒸馏 - 财报，业绩电话会，研报，新闻

模型蒸馏

搜索文档

DeepSeek、月之暗面、MiniMax被点“非法提取”，它们做错了吗? | 电厂

新浪财经· 2026-02-25 18:47

事件核心观点 - Anthropic指控三家中国AI公司（DeepSeek、Moonshot、MiniMax）通过约2.4万个欺诈账户与Claude进行超1600万次互动，以“非法提取”其模型输出用于训练自身模型，并将此行为定义为“蒸馏攻击” [1] - 被指控的三家中国公司截至目前均未对Anthropic的声明作出公开回应 [1] - 此次事件是2026年开年不到三个月内，国产模型第二次陷入使用美国领先AI模型进行训练的争议 [1] 指控的具体内容与数据 - **技术手段**：Anthropic称三家中国公司采用了名为“蒸馏”的模型训练手段，将Claude作为“教师模型”，通过交互获取其输出概率分布等信息来训练“学生模型” [4] - **交互规模**：据Anthropic披露，三家中国企业以约2.4万个欺诈账户与Claude进行了超1600万次互动 [1] - **细分数据**：DeepSeek与Claude进行了15万次交换、Moonshot进行了340万次交换、MiniMax进行了1300万次交换 [7] - **提取焦点**：Anthropic认为上述行为针对Claude最独特的三大能力——代理推理、工具使用、编码进行了有意提取 [7] “蒸馏”技术的行业背景与争议 - **技术起源**：蒸馏技术可追溯至2015年，由Geoffrey Hinton及其团队提出 [4] - **行业普遍实践**：蒸馏是常见的让模型快速进化的手段，顶尖的大模型厂商和AI实验室常在自研大版本模型基础上蒸馏出更小版本模型，例如阿里巴巴在Qwen2发布5个月后蒸馏出了DistilQwen2 [6] - **条款禁止**：许多大模型（包括Claude）在其服务条款中明确禁止用户或竞品将模型输出用于训练或开发AI模型 [6] - **行为定性困难**：如何确证模型蒸馏行为的存在、如何定性该行为、是否涉及法律问题等，目前尚无明确路径可循 [10] 涉事各方的历史与回应 - **Anthropic的对华立场**：Claude及其公司Anthropic是对中国用户及客户最不“友好”的大模型公司之一，曾表态支持美国出口管制政策，并于2025年9月更新销售地区限制，不向位于中国或中资持股超50%的海外子公司提供商业访问渠道 [7] - **DeepSeek的历史争议**：2025年1月，OpenAI研究人员曾称DeepSeek可能使用了OpenAI模型的输出来训练R1大模型；DeepSeek在2025年9月发表于Nature的论文中回应称，其部分训练数据源于网页随机抓取，“没有故意加入OpenAI生成的合成数据” [9] - **Moonshot的历史争议**：2026年1月底Moonshot新模型Kimi K2.5发布后，坊间曾质疑其蒸馏自Claude；公司创始人杨植麟公开否认，解释称模型在预训练中采样了最新的互联网数据，而这些数据与“Claude”这个token关联较多 [9] 开源与闭源的生态博弈 - **中国模型的开源政策**：中国多款领先大模型遵循开源协议允许蒸馏行为，例如DeepSeek主要模型系列遵循MIT许可证，MiniMax-M1、Kimi K2、阿里巴巴Qwen3等遵循Apache 2.0许可证 [10] - **闭源模型的受益**：许多闭源模型同样受益于开源模型进行蒸馏，例如有市场消息称，Meta在训练其闭源模型“Avocado”时，会使用包括阿里巴巴Qwen在内的多家第三方模型进行蒸馏 [11] - **竞争逻辑的演变**：在AI新市场，技术先进程度不再是唯一追求，生态、人才、法律、地缘等因素叠加，使得竞争维度不断丰富 [13]