VeRL
搜索文档
强化学习AI系统的设计实现及未来发展
36氪· 2025-11-04 20:52
强化学习作为推动大语言模型进一步提升智能程度的手段,一直是大语言模型训练环节中最核心且复杂的环节。其中的复杂度不仅仅体现在其算法方面, 也体现在其系统的整体要求上。 本文整理自阿里巴巴算法专家曹宇今年 6 月 在 AICon 2025 北京站的分享 《强化学习 AI 系统的设计实现及未来发展》。其分享从传统的 RLHF 系统开 始,结合算法实践展示出 RL 系统的现状及发展脉络。通过具体的实践,与从业者共同探讨未来超大规模 RL 的发展方向,分享内容既包括理论基础,也 包含业界实践,最后开源生态及社区共建也会涉及。 以下是演讲实录(经 InfoQ 进行不改变原意的编辑整理)。 今天我非常高兴能够与大家分享一些关于强化学习(Reinforcement Learning,简称 RL)在大语言模型系统设计中的应用,以及对未来发展的几点初步建 议。 从下图左侧看似简单抽象的算法理论来看,其执行逻辑实际上比我们想象的要复杂得多。中间部分是我参与的一个框架——Open RLxF 的执行逻辑图。与 左侧的算法理论相比,它明显更为复杂。因为在实际执行过程中,我们有多个算法组件,例如绿色部分是训练态的模型,蓝色部分是推理态的模 ...
开源RL框架Verlog来了,专为LLM智能体打造,400回合不成问题
机器之心· 2025-10-08 12:13
文章核心观点 - 提出名为Verlog的多轮强化学习框架,旨在解决AI智能体在长时程任务中面临的挑战,如奖励稀疏和历史冗长[2][3] - Verlog框架可将任务处理能力从传统方法的约10回合显著扩展至超过400回合,在复杂长期决策任务中具备独特优势[3] - 该框架在BabyAI、BabaIsAI和Crafter等高难度基准环境中得到验证,展现出稳定而高效的训练性能[3][16][19] 方法介绍 - 基础模型基于Qwen-2.5的Instruct变体构建,包括Qwen-2.5-3B/7B-Instruct型号[6] - 选择该模型的主要原因包括可与BALROG评估框架无缝集成,并允许研究者直接使用基准测试提示而无需大量修改[7] - 记忆机制采用仅保留最新n+1个回合的策略,而非将整个轨迹放入上下文窗口,对于3B模型在n=1或2时性能达到峰值[9] - 引入Dual Discounting GAE算法,将token与step解耦以鼓励智能体用更少的环境步数完成任务[11][12][14] 实验结果 - 在Crafter环境中使用8张H100 GPU对Qwen2.5-7B-Instruct模型训练约36小时[19] - 在BabyAI与BabaIsAI环境中使用4张A40 GPU对Qwen2.5-3B-Instruct模型训练约24小时[19] - 三个实验环境证明Verlog在长周期、稀疏奖励和可变episode长度条件下均展现稳定训练能力[19] - Crafter环境的回合长度范围在70到400步之间,平均约为190步,Verlog在此类挑战性环境中开箱即用[3] 框架优势总结 - 通过记忆机制和回合级抽象有效管理长交互历史信息[20] - 结合dual-discounting GAE和价值函数预训练增强稀疏奖励下的训练稳定性[20] - 利用固定回合批处理和自举式价值估计管理可变长度轨迹[23] - 通过针对性提示工程和默认动作替换使训练过程中超过95%的动作均为有效动作[23]