DAPO算法 - 财报，业绩电话会，研报，新闻

DAPO算法

搜索文档

新浪财经· 2025-12-26 09:56

人工智能前沿技术发展 - 当前人工智能浪潮是数字AI、物理AI与生物AI的深度融合，是第四次工业革命的技术引擎 [7][25] - 在大语言模型领域，强化学习和推理模型是重要突破，清华大学智能产业研究院与字节跳动联合研发的DAPO算法使强化学习性能和效率提升数倍 [10][28] - 在物理AI领域，自动驾驶是具身智能的挑战性方向，基于累计2亿公里行驶数据，其安全性已达到人类驾驶的17倍，且未发生伤亡或重大事故 [11][29][30] - 在生物AI领域，全球首个AI智能体医院模拟了21个科室，仅用两天即可完成大型三甲医院两到三年的工作量，并在美国执业医师考试基准上取得92%的准确率，远超持证医生65%的平均水平 [13][32] - 研究院约三分之一的教授从事AI驱动的新药研发，人工智能将极大加速药物研发进程 [14][33] 中美人工智能产业比较 - 美国在芯片和基础设施方面整体领先，但中国在电力网络方面明显领先 [16][35] - 在模型和软件层面，中国更为开源且模型架构更高效，美国则拥有更多前沿、规模更大的模型但更为闭源 [16][35] - 在应用软件方面，中国可能走在前列 [16][35] - 人工智能发展并非零和博弈，中美及全球其他地区都将受益于这场技术革命 [16][35] 人工智能未来趋势与机遇 - 发展路径正从生成式AI走向AI智能体，并进一步迈向智能体互联网，未来每个人或设备都将拥有智能体 [18][37] - 开源与闭源模型将并行发展，预计约80%的模型将是开源的，20%是闭源的 [18][37] - 最大的市场机会将来自垂直领域模型（如机器人、生物、预测），其机会至少是基础模型的100倍，部署于终端设备的边缘模型也将形成巨大市场 [18][37] - 预训练阶段的规模扩展因数据接近枯竭而放缓，未来智能突破将更多来自后训练阶段，包括智能体、推理和强化学习 [18][37] - 通用人工智能在数字AI领域可能在五年内实现，物理AI中的无人驾驶可能在三到五年内通过图灵测试，人形机器人需约十年，生物AI的脑机接口技术或需十五到二十年 [19][20][38][39] 主要参与机构与生态 - 清华大学智能产业研究院拥有超过20位教授及400多名顶尖博士生、博士后和研究科学家 [7][25] - 研究院与字节跳动、阿里巴巴、深度求索等领先企业在大型语言模型、强化学习、AI智能体等领域保持紧密合作 [10][28] - 百度旗下的“萝卜快跑”在武汉部署了超过1500辆自动驾驶汽车，覆盖3000平方公里、服务1700万人口，拥有全球最大的自动驾驶车队 [11][29]

人工智能

生成式AI

AGI（通用人工智能）

Artificial Intelligence

Artificial Intelligence

大语言模型

AI智能体

01年实习生被曝负责字节RL核心算法！系字节LLM攻坚小组成员

量子位· 2025-03-20 18:56

算法突破 - 一种名为DAPO的新型强化学习算法出现，在相同设置下，其性能超越了DeepSeek的GRPO算法 [1] - 使用DAPO算法后，Qwen2.5-32B模型仅经过RL训练，在AIME 2024基准上获得50分，优于使用GRPO的DeepSeek-R1-Zero-Qwen模型，且训练步数减少了50% [1] - 该算法由字节跳动与清华大学AIR联合实验室SIA Lab共同研发，目前已经开源 [2] 核心人物背景 - 算法论文通讯作者及开源项目负责人是禹棋赢（Qiying Yu）[3] - 禹棋赢出生于2001年，本科毕业于哈尔滨工业大学，后直博进入清华大学AIR，目前博士三年级在读 [4] - 他于2023年年中以研究实习生身份加入字节跳动的“Top Seed人才计划” [4] - 在字节大模型团队内部负责打造下一代语言模型的攻坚小组中，禹棋赢是唯一的实习生，并被委以重任，直接负责强化学习方向的研究 [6][7] 技术探索历程 - 2023年5月，禹棋赢通过“Top Seed人才计划”加入字节，经过2个月适应期后，锚定大语言模型推理为研究方向 [9] - 他观察到“采样更多，弱模型准确率也可以很高”的现象后，坚定选择使用强化学习技术路径 [9] - 基于对OpenAI o1模型的分析，禹棋赢团队判断其基于结果监督训练，从而确立了使用基于结果的奖励进行强化学习的技术路线，这与当时主流思路不同 [12][13] - 使用内部小模型和开源数据集进行迭代后，成功将小模型的数学能力提升几十分，超过了内部最大最强的模型，并观察到模型不断涌现新能力 [14][15] - 2023年10月中旬，团队观察到模型在遇到复杂数学问题时能进行反思并转换思路，这被认为是所追求能力的雏形，也是其内部的“Aha Moment” [20][21] 行业人才趋势 - 大模型行业经验不再是唯一筹码，好奇心与执行力成为通行证 [53] - 行业更看重实际解决问题的能力而非资历，这一逻辑正在重塑AI产业的人才坐标系 [50] - 年轻人虽然经验相对缺乏，但不受既有范式束缚，拥有对技术直觉的信任、极高的热情与好奇心，以及对试错成本的高耐受度，这些特质对探索AGI非常珍贵 [55] - 学界和工业界都认可这一趋势，工业界如字节跳动的“Top Seed”项目为年轻人提供充分算力资源、顶级待遇和探索空间 [58] 公司战略与项目 - 字节跳动的“Top Seed人才计划”旨在招募顶尖应届和在读博士组成AI研究团队，禹棋赢是首批成员之一 [9][31] - 与禹棋赢同期的Top Seed实习生包括两届国际数学奥林匹克竞赛满分选手、LLaDA一作、Buffer of Thoughts一作等顶尖人才 [32] - 字节跳动对禹棋赢的重用，体现了顶尖大模型团队对“解决前沿问题能力”的极致追求 [48] - 2024年，字节跳动将继续推进Top Seed项目，并由原谷歌DeepMind副总裁、现负责豆包大模型AI基础研究探索的吴永辉亲自带队 [61][62]