算法突破 - 一种名为DAPO的新型强化学习算法出现,在相同设置下,其性能超越了DeepSeek的GRPO算法 [1] - 使用DAPO算法后,Qwen2.5-32B模型仅经过RL训练,在AIME 2024基准上获得50分,优于使用GRPO的DeepSeek-R1-Zero-Qwen模型,且训练步数减少了50% [1] - 该算法由字节跳动与清华大学AIR联合实验室SIA Lab共同研发,目前已经开源 [2] 核心人物背景 - 算法论文通讯作者及开源项目负责人是禹棋赢(Qiying Yu)[3] - 禹棋赢出生于2001年,本科毕业于哈尔滨工业大学,后直博进入清华大学AIR,目前博士三年级在读 [4] - 他于2023年年中以研究实习生身份加入字节跳动的“Top Seed人才计划” [4] - 在字节大模型团队内部负责打造下一代语言模型的攻坚小组中,禹棋赢是唯一的实习生,并被委以重任,直接负责强化学习方向的研究 [6][7] 技术探索历程 - 2023年5月,禹棋赢通过“Top Seed人才计划”加入字节,经过2个月适应期后,锚定大语言模型推理为研究方向 [9] - 他观察到“采样更多,弱模型准确率也可以很高”的现象后,坚定选择使用强化学习技术路径 [9] - 基于对OpenAI o1模型的分析,禹棋赢团队判断其基于结果监督训练,从而确立了使用基于结果的奖励进行强化学习的技术路线,这与当时主流思路不同 [12][13] - 使用内部小模型和开源数据集进行迭代后,成功将小模型的数学能力提升几十分,超过了内部最大最强的模型,并观察到模型不断涌现新能力 [14][15] - 2023年10月中旬,团队观察到模型在遇到复杂数学问题时能进行反思并转换思路,这被认为是所追求能力的雏形,也是其内部的“Aha Moment” [20][21] 行业人才趋势 - 大模型行业经验不再是唯一筹码,好奇心与执行力成为通行证 [53] - 行业更看重实际解决问题的能力而非资历,这一逻辑正在重塑AI产业的人才坐标系 [50] - 年轻人虽然经验相对缺乏,但不受既有范式束缚,拥有对技术直觉的信任、极高的热情与好奇心,以及对试错成本的高耐受度,这些特质对探索AGI非常珍贵 [55] - 学界和工业界都认可这一趋势,工业界如字节跳动的“Top Seed”项目为年轻人提供充分算力资源、顶级待遇和探索空间 [58] 公司战略与项目 - 字节跳动的“Top Seed人才计划”旨在招募顶尖应届和在读博士组成AI研究团队,禹棋赢是首批成员之一 [9][31] - 与禹棋赢同期的Top Seed实习生包括两届国际数学奥林匹克竞赛满分选手、LLaDA一作、Buffer of Thoughts一作等顶尖人才 [32] - 字节跳动对禹棋赢的重用,体现了顶尖大模型团队对“解决前沿问题能力”的极致追求 [48] - 2024年,字节跳动将继续推进Top Seed项目,并由原谷歌DeepMind副总裁、现负责豆包大模型AI基础研究探索的吴永辉亲自带队 [61][62]
01年实习生被曝负责字节RL核心算法!系字节LLM攻坚小组成员
量子位·2025-03-20 18:56