Workflow
组相对策略优化算法
icon
搜索文档
DeepSeek登《Nature》封面 梁文锋带队 首次回应争议
凤凰网· 2025-09-18 15:48
研究突破 - 公司通过纯强化学习框架显著提升大语言模型推理能力 减少对人工标注的依赖[1] - 引入组相对策略优化算法 仅依据最终答案正确性给予奖励 而非模仿人类推理路径[4] - 模型自然涌现自我反思 自我验证及生成长推理链等高级行为 单问题推敲可达数百至上千token[4] 性能表现 - 模型在美国数学邀请赛准确率从15.6%跃升至77.9% 采用自洽解码后达86.7% 超越人类平均水平[4] - 在数学解题 编程竞赛及STEM领域研究生水平问题上均展现更优表现[1] - 通过多阶段优化后 在写作 问答等通用任务上展现流畅性和一致性[5] 成本效率 - 推理成本仅29.4万美元 基础模型训练开销约600万美元 总成本远低于国外巨头[3] - 相比OpenAI训练GPT-4的1亿美元成本 实现数量级降低[3] - 突破行业"资金即壁垒"共识 展现算法创新对成本结构的颠覆性影响[3][8] 技术路径 - 采用非传统训练方式 并非通过复制OpenAI模型推理示例学习[1] - 基础模型基于网络训练 会吸收互联网已有AI生成内容[1] - 方法论被《自然》评论为"让AI学会自己思考" 而非"教AI思考"[4][5] 行业影响 - 研究被《自然》杂志收录并登上封面 标志中国AI领域重大突破[1] - 被Nature审稿人评价为"开启推理革命" 多机构开始应用该方法论改善现有模型[9] - 推动行业竞争从"数据与算力军备竞赛"转向"算法与智慧创新竞赛"[9] 团队背景 - 创始人梁文锋具浙江大学信息与通信工程硕士背景 专注机器视觉与量化交易领域[7] - 曾创办雅克比投资及幻方科技 2023年转向通用人工智能领域[8] - 团队建设坚持"能力为先" 核心岗位由应届生及低年限经验人员构成 自主培养人才[8]