Workflow
LLM智能体
icon
搜索文档
开源RL框架Verlog来了,专为LLM智能体打造,400回合不成问题
机器之心· 2025-10-08 12:13
文章核心观点 - 提出名为Verlog的多轮强化学习框架,旨在解决AI智能体在长时程任务中面临的挑战,如奖励稀疏和历史冗长[2][3] - Verlog框架可将任务处理能力从传统方法的约10回合显著扩展至超过400回合,在复杂长期决策任务中具备独特优势[3] - 该框架在BabyAI、BabaIsAI和Crafter等高难度基准环境中得到验证,展现出稳定而高效的训练性能[3][16][19] 方法介绍 - 基础模型基于Qwen-2.5的Instruct变体构建,包括Qwen-2.5-3B/7B-Instruct型号[6] - 选择该模型的主要原因包括可与BALROG评估框架无缝集成,并允许研究者直接使用基准测试提示而无需大量修改[7] - 记忆机制采用仅保留最新n+1个回合的策略,而非将整个轨迹放入上下文窗口,对于3B模型在n=1或2时性能达到峰值[9] - 引入Dual Discounting GAE算法,将token与step解耦以鼓励智能体用更少的环境步数完成任务[11][12][14] 实验结果 - 在Crafter环境中使用8张H100 GPU对Qwen2.5-7B-Instruct模型训练约36小时[19] - 在BabyAI与BabaIsAI环境中使用4张A40 GPU对Qwen2.5-3B-Instruct模型训练约24小时[19] - 三个实验环境证明Verlog在长周期、稀疏奖励和可变episode长度条件下均展现稳定训练能力[19] - Crafter环境的回合长度范围在70到400步之间,平均约为190步,Verlog在此类挑战性环境中开箱即用[3] 框架优势总结 - 通过记忆机制和回合级抽象有效管理长交互历史信息[20] - 结合dual-discounting GAE和价值函数预训练增强稀疏奖励下的训练稳定性[20] - 利用固定回合批处理和自举式价值估计管理可变长度轨迹[23] - 通过针对性提示工程和默认动作替换使训练过程中超过95%的动作均为有效动作[23]
如何为LLM智能体编写工具?Anthropic官方教程来了
机器之心· 2025-09-12 19:31
智能体工具开发新范式 - 智能体工具开发需要从传统确定性系统转向非确定性范式,因为智能体在相同输入下可能产生不同输出[8][9][10] - 工具效能是决定智能体完成任务效率的关键因素,需要专门为智能体设计而非简单封装API[1][10][41] 工具开发流程 - 构建原型阶段需向Claude提供相关文档和软件库信息,可封装在本地MCP服务器或桌面扩展程序中进行测试[16][17][18] - 评估阶段应生成真实使用场景的提示响应对,建议任务需要多达数十次工具调用进行压力测试[24][25][27] - 通过编程方式运行评估,Claude的交错思维功能可分析工具调用原因[28][29] 工具设计原则 - 工具数量并非越多越好,应优先构建少量高价值工具,避免功能重叠导致智能体分心[41][43][46] - 工具应具有整合能力,能一次性处理多个离散操作,减少中间结果消耗的上下文空间[44][45][54] - 命名空间划分可帮助智能体区分功能重叠的工具,按服务或资源加前缀分组效果显著[48][49][50] 工具响应优化 - 工具响应应返回高信号信息,优先使用自然语言标识符而非技术标识符,可将准确率提高显著[52][56] - 响应结构需匹配LLM训练数据格式,JSON/XML/Markdown等格式性能因任务而异[57] - 对大量上下文响应应结合分页、过滤和截断功能,默认限制25000个token[58] 性能评估指标 - 除准确率外还需收集单次调用运行时间、工具调用总次数、总token消耗和错误情况等指标[30][39] - 分析时应关注智能体卡顿点、工具调用指标和未明确表达的行为模式[33][34][35] 工具描述优化 - 工具描述应像向新团队成员解释般清晰,明确输入输出参数命名规范[64] - 对工具描述进行微小改进可大幅降低错误率并提高任务完成率,Claude Sonnet 3.5在SWE-bench评估中取得最佳性能[64] 未来发展方向 - 智能体交互机制将持续演变,包括MCP协议更新和底层LLM升级[66] - 通过系统化评估驱动的方法确保工具随智能体能力同步发展[66]