Verlog
搜索文档
开源RL框架Verlog来了,专为LLM智能体打造,400回合不成问题
机器之心· 2025-10-08 12:13
文章核心观点 - 提出名为Verlog的多轮强化学习框架,旨在解决AI智能体在长时程任务中面临的挑战,如奖励稀疏和历史冗长[2][3] - Verlog框架可将任务处理能力从传统方法的约10回合显著扩展至超过400回合,在复杂长期决策任务中具备独特优势[3] - 该框架在BabyAI、BabaIsAI和Crafter等高难度基准环境中得到验证,展现出稳定而高效的训练性能[3][16][19] 方法介绍 - 基础模型基于Qwen-2.5的Instruct变体构建,包括Qwen-2.5-3B/7B-Instruct型号[6] - 选择该模型的主要原因包括可与BALROG评估框架无缝集成,并允许研究者直接使用基准测试提示而无需大量修改[7] - 记忆机制采用仅保留最新n+1个回合的策略,而非将整个轨迹放入上下文窗口,对于3B模型在n=1或2时性能达到峰值[9] - 引入Dual Discounting GAE算法,将token与step解耦以鼓励智能体用更少的环境步数完成任务[11][12][14] 实验结果 - 在Crafter环境中使用8张H100 GPU对Qwen2.5-7B-Instruct模型训练约36小时[19] - 在BabyAI与BabaIsAI环境中使用4张A40 GPU对Qwen2.5-3B-Instruct模型训练约24小时[19] - 三个实验环境证明Verlog在长周期、稀疏奖励和可变episode长度条件下均展现稳定训练能力[19] - Crafter环境的回合长度范围在70到400步之间,平均约为190步,Verlog在此类挑战性环境中开箱即用[3] 框架优势总结 - 通过记忆机制和回合级抽象有效管理长交互历史信息[20] - 结合dual-discounting GAE和价值函数预训练增强稀疏奖励下的训练稳定性[20] - 利用固定回合批处理和自举式价值估计管理可变长度轨迹[23] - 通过针对性提示工程和默认动作替换使训练过程中超过95%的动作均为有效动作[23]