Workflow
TRL仓库原生的DPO Trainer
icon
搜索文档
过去一个月高强度RL的实践和思考 - 如何涨点?
自动驾驶之心· 2025-10-20 07:32
作者 | Jason@知乎 转自 | 纯干货!VLM RL如何涨点的实践和思考 原文链接: https://zhuanlan.zhihu.com/p/1952370307714220903 点击下方 卡片 ,关注" 大模型之心Tech "公众号 戳我-> 领取大模型巨卷干货 本文只做学术分享,如有侵权,联系删文 ,欢迎添加小助理微信AIDriver004做进一步咨询 前言 过去的一个月在比较高强度做RL,最近终于有了一些阶段性成果,整理了一下整体的迭代思路和最近踩过的坑,分享出来,与各位共勉。结果 上,部分Benchmark取得了同size 模型1-2个点的涨幅,最高的单项能有8-10个点的涨幅。这个过程最大的感触是 2. 没做好数据基础就开始研究新算法的,要小心了,很可能长期做不出结果; 3. 基础的RL算法,就能有较为明确的涨点,即使目标是做开源SOTA,也可以从最简单但正确的事情做起,千里之行,始于足下。 RL的目标 关于RL,我们不是第一批吃螃蟹的人,有很多前人的工作可以追溯,所以是站在巨人的肩膀上做事,对结果有一定预期。因此,基于开源tech report的结果和认知,我认为RL至少应该达成以下两个 ...