梁文锋带队,首次回应“蒸馏”争议
阿尔法工场研究院·2025-09-19 08:05
以下文章来源于凤凰网科技 ,作者凤凰网科技 凤凰网科技 . 凤凰科技频道官方账号,带你直击真相。 导语:资金与算力,成了决定话语权的核心。然而,DeepSeek打破了这一"潜规则"。 2025年9月17日,属于中国人工智能的又一个高光时刻来到了。DeepSeek-AI团队梁文锋及其 同事在《自然》杂志发表了关于开源模型 DeepSeek-R1 的研究成果,并登上当期封面。 研究团队在《Nature》发表的论文中指出,他们采用了纯强化学习(RL)框架,并引入组相对 策略优化(GRPO)算法,仅依据最终答案的正确与否给予奖励,而非让模型模仿人类推理路 径。 "低成本奇迹":从29万美元到世界舞台 图|来源于网络 论文指出,大语言模型(LLM)的推理能力可以通过纯强化学习显著提升,从而减少对人工标注 的依赖。与传统训练方式相比,这一方法培养出的模型在数学解题、编程竞赛以及涉及STEM领 域研究生水平的问题上,均展现出更优的表现。 在此,DeepSeek也首次回应"蒸馏"争议,在与审稿人的交流中,DeepSeek明确表示,R1并非 通过复制OpenAI模型生成的推理示例来学习。只是和大多数其他大语言模型一样,R1的基 ...