ASearcher

搜索文档
清华叉院教授手把手教你用强化学习训练智能体
机器之心· 2025-08-19 10:43
大模型智能体技术发展 - 智能体强化学习(Agentic RL)是训练通用智能体的核心技术之一 [1] - ASearcher项目基于AReaL全异步Agentic RL框架打造端到端搜索智能体(Search Agent) [1] - AReaL框架支持智能体进行128次复杂环境交互并实现长程工具调用(Long-Horizon Tool Use) [2] ASearcher项目技术特点 - 采用极简代码设计实现单文件内完成复杂长程工具调用 [2] - 全异步RL技术解锁智能体的长程工具调用能力 [11] - 提供轻量级开发工具AReaL-Lite实现极速Agentic RL训练 [11] 技术实践与分享 - 以多轮搜索智能体(multi-turn search agent)为例展示极简代码实现 [2] - 直播将手把手教学在jupyter notebook中实现多轮search agent训练 [11] - 推荐使用4卡GPU服务器进行训练实践 [11] 团队与资源 - 项目由清华大学交叉信息院吴翼教授团队主导 [11] - 核心成员包括清华博士生及蚂蚁强化学习实验室研究员 [11] - 提供预习用的jupyter notebook资源(GitHub链接) [11] 行业活动信息 - 直播主题为"清华叉院教授手把手教你用强化学习训练智能体" [8] - 直播时间定于北京时间8月21日19:30-20:30 [10] - 活动包含QA环节并提供技术交流群 [10]