中国宏观经济月报：DeepSeek的抄袭争议——蒸馏技术的使用

争议背景 - DeepSeek R1和V3走红引发外界质疑，OpenAI指控其“抄袭”，彭博社称微软安全研究人员发现DeepSeek员工2023年秋季通过OpenAI的API获取大量数据用于训练模型，但OpenAI未提供确凿证据[2] 技术原理 - 蒸馏技术是将大型复杂模型知识迁移到小型高效模型，本质是知识迁移而非整体架构抄袭，由Geoffrey Hinton在2015年提出[3] 技术应用 - DeepSeek在V3模型开发中，利用DeepSeek - R1系列推理能力生成80万条训练样本用于模型训练，还利用这些样本对Qwen和Llama系列等较小基础模型进行微调，提高蒸馏效率[5] 技术优劣势 - 优势在于降低数据构建成本、扩展模型应用范围，小型科技企业可借此控制成本并展现创新能力，全球许多AI初创公司采用蒸馏融合技术形成“多专家模型”，可能超越原始模型性能[7] - 劣势是学生模型性能难突破原始模型上限，处理多模态数据时推理能力受限[7] 技术展望 - 蒸馏技术是人工智能重要创新，有巨大潜力但并非万能，未来需与其他技术结合，大型科技公司持续投入基座模型和前沿研究仍是保持领先关键[9]