Workflow
DAPO算法
icon
搜索文档
01年实习生被曝负责字节RL核心算法!系字节LLM攻坚小组成员
量子位· 2025-03-20 18:56
衡宇 发自 凹非寺 量子位 | 公众号 QbitAI 一个超越DeepSeek GRPO的关键RL算法 出现了! 用上该算法后,Qwen2.5-32B模型只经过RL训练,不引入蒸馏等其他技术,在AIME 2024基准上拿下50分,优于相同setting下使用GRPO 算法的DeepSeek-R1-Zero-Qwen,且DAPO使用的训练步数还减少了50%。 这个算法名为DAPO,字节、清华AIR联合实验室SIA Lab出品,现 已开源 。 论文通讯作者和开源项目负责人都是一个叫Qiying Yu的人 。 我们还从知情人士处得知了禹棋赢的另一重身份—— 在字节大模型团队内部负责打造"能力显著提升的下一代语言模型"的攻坚小组中,禹棋赢是唯一的实习生。 虽然是实习生,但在这个大神云集的小组里, 禹棋赢被委以重任,直接负责RL方向的研究 。 凭什么? 事情要从去年夏天说起。 去年10月,他在字节第一个跑出aha moment 去年5月,字节启动「Top Seed人才计划」,最终录取多名应届和在读博士组成史无前例的AI研究团队,禹棋赢就在其中。 为期2个月的warm up landing (类似可自由探索的适应期) 后 ...