DAPO算法
搜索文档
张亚勤|未来,每个人、每个设备都将拥有智能体
新浪财经· 2025-12-26 09:56
人工智能前沿技术发展 - 当前人工智能浪潮是数字AI、物理AI与生物AI的深度融合,是第四次工业革命的技术引擎 [7][25] - 在大语言模型领域,强化学习和推理模型是重要突破,清华大学智能产业研究院与字节跳动联合研发的DAPO算法使强化学习性能和效率提升数倍 [10][28] - 在物理AI领域,自动驾驶是具身智能的挑战性方向,基于累计2亿公里行驶数据,其安全性已达到人类驾驶的17倍,且未发生伤亡或重大事故 [11][29][30] - 在生物AI领域,全球首个AI智能体医院模拟了21个科室,仅用两天即可完成大型三甲医院两到三年的工作量,并在美国执业医师考试基准上取得92%的准确率,远超持证医生65%的平均水平 [13][32] - 研究院约三分之一的教授从事AI驱动的新药研发,人工智能将极大加速药物研发进程 [14][33] 中美人工智能产业比较 - 美国在芯片和基础设施方面整体领先,但中国在电力网络方面明显领先 [16][35] - 在模型和软件层面,中国更为开源且模型架构更高效,美国则拥有更多前沿、规模更大的模型但更为闭源 [16][35] - 在应用软件方面,中国可能走在前列 [16][35] - 人工智能发展并非零和博弈,中美及全球其他地区都将受益于这场技术革命 [16][35] 人工智能未来趋势与机遇 - 发展路径正从生成式AI走向AI智能体,并进一步迈向智能体互联网,未来每个人或设备都将拥有智能体 [18][37] - 开源与闭源模型将并行发展,预计约80%的模型将是开源的,20%是闭源的 [18][37] - 最大的市场机会将来自垂直领域模型(如机器人、生物、预测),其机会至少是基础模型的100倍,部署于终端设备的边缘模型也将形成巨大市场 [18][37] - 预训练阶段的规模扩展因数据接近枯竭而放缓,未来智能突破将更多来自后训练阶段,包括智能体、推理和强化学习 [18][37] - 通用人工智能在数字AI领域可能在五年内实现,物理AI中的无人驾驶可能在三到五年内通过图灵测试,人形机器人需约十年,生物AI的脑机接口技术或需十五到二十年 [19][20][38][39] 主要参与机构与生态 - 清华大学智能产业研究院拥有超过20位教授及400多名顶尖博士生、博士后和研究科学家 [7][25] - 研究院与字节跳动、阿里巴巴、深度求索等领先企业在大型语言模型、强化学习、AI智能体等领域保持紧密合作 [10][28] - 百度旗下的“萝卜快跑”在武汉部署了超过1500辆自动驾驶汽车,覆盖3000平方公里、服务1700万人口,拥有全球最大的自动驾驶车队 [11][29]
01年实习生被曝负责字节RL核心算法!系字节LLM攻坚小组成员
量子位· 2025-03-20 18:56
算法突破 - 一种名为DAPO的新型强化学习算法出现,在相同设置下,其性能超越了DeepSeek的GRPO算法 [1] - 使用DAPO算法后,Qwen2.5-32B模型仅经过RL训练,在AIME 2024基准上获得50分,优于使用GRPO的DeepSeek-R1-Zero-Qwen模型,且训练步数减少了50% [1] - 该算法由字节跳动与清华大学AIR联合实验室SIA Lab共同研发,目前已经开源 [2] 核心人物背景 - 算法论文通讯作者及开源项目负责人是禹棋赢(Qiying Yu)[3] - 禹棋赢出生于2001年,本科毕业于哈尔滨工业大学,后直博进入清华大学AIR,目前博士三年级在读 [4] - 他于2023年年中以研究实习生身份加入字节跳动的“Top Seed人才计划” [4] - 在字节大模型团队内部负责打造下一代语言模型的攻坚小组中,禹棋赢是唯一的实习生,并被委以重任,直接负责强化学习方向的研究 [6][7] 技术探索历程 - 2023年5月,禹棋赢通过“Top Seed人才计划”加入字节,经过2个月适应期后,锚定大语言模型推理为研究方向 [9] - 他观察到“采样更多,弱模型准确率也可以很高”的现象后,坚定选择使用强化学习技术路径 [9] - 基于对OpenAI o1模型的分析,禹棋赢团队判断其基于结果监督训练,从而确立了使用基于结果的奖励进行强化学习的技术路线,这与当时主流思路不同 [12][13] - 使用内部小模型和开源数据集进行迭代后,成功将小模型的数学能力提升几十分,超过了内部最大最强的模型,并观察到模型不断涌现新能力 [14][15] - 2023年10月中旬,团队观察到模型在遇到复杂数学问题时能进行反思并转换思路,这被认为是所追求能力的雏形,也是其内部的“Aha Moment” [20][21] 行业人才趋势 - 大模型行业经验不再是唯一筹码,好奇心与执行力成为通行证 [53] - 行业更看重实际解决问题的能力而非资历,这一逻辑正在重塑AI产业的人才坐标系 [50] - 年轻人虽然经验相对缺乏,但不受既有范式束缚,拥有对技术直觉的信任、极高的热情与好奇心,以及对试错成本的高耐受度,这些特质对探索AGI非常珍贵 [55] - 学界和工业界都认可这一趋势,工业界如字节跳动的“Top Seed”项目为年轻人提供充分算力资源、顶级待遇和探索空间 [58] 公司战略与项目 - 字节跳动的“Top Seed人才计划”旨在招募顶尖应届和在读博士组成AI研究团队,禹棋赢是首批成员之一 [9][31] - 与禹棋赢同期的Top Seed实习生包括两届国际数学奥林匹克竞赛满分选手、LLaDA一作、Buffer of Thoughts一作等顶尖人才 [32] - 字节跳动对禹棋赢的重用,体现了顶尖大模型团队对“解决前沿问题能力”的极致追求 [48] - 2024年,字节跳动将继续推进Top Seed项目,并由原谷歌DeepMind副总裁、现负责豆包大模型AI基础研究探索的吴永辉亲自带队 [61][62]