Workflow
中国宏观经济月报:DeepSeek的抄袭争议——蒸馏技术的使用
致富证券·2025-02-12 20:02

争议背景 - DeepSeek R1和V3走红引发外界质疑,OpenAI指控其“抄袭”,彭博社称微软安全研究人员发现DeepSeek员工2023年秋季通过OpenAI的API获取大量数据用于训练模型,但OpenAI未提供确凿证据[2] 技术原理 - 蒸馏技术是将大型复杂模型知识迁移到小型高效模型,本质是知识迁移而非整体架构抄袭,由Geoffrey Hinton在2015年提出[3] 技术应用 - DeepSeek在V3模型开发中,利用DeepSeek - R1系列推理能力生成80万条训练样本用于模型训练,还利用这些样本对Qwen和Llama系列等较小基础模型进行微调,提高蒸馏效率[5] 技术优劣势 - 优势在于降低数据构建成本、扩展模型应用范围,小型科技企业可借此控制成本并展现创新能力,全球许多AI初创公司采用蒸馏融合技术形成“多专家模型”,可能超越原始模型性能[7] - 劣势是学生模型性能难突破原始模型上限,处理多模态数据时推理能力受限[7] 技术展望 - 蒸馏技术是人工智能重要创新,有巨大潜力但并非万能,未来需与其他技术结合,大型科技公司持续投入基座模型和前沿研究仍是保持领先关键[9]