Agentic RL
搜索文档
告别昂贵账单,Token直降68%,多智能体动态协作编程来了
机器之心· 2026-04-05 12:34
行业背景与现有挑战 - 软件开发范式正从“人写代码”转向“人指挥智能体写代码”,以Claude Code、OpenClaw为代表的系统让智能体能够自主完成编码、调试等完整任务流程 [2] - 面对系统级开发或竞赛级算法等复杂问题,单一模型能力边界明显,多智能体协作成为主流范式 [2] - 现有主流方法存在两类典型路径:一类如Claude Code的Agent Teams,通过并行调用多个模型提升能力,但带来极高的Token成本;另一类如OpenClaw,通过技能组合与流程编排实现多智能体管理,工程上更可控 [2] - 现有方法的协作结构大多依赖预定义规则或静态流程,解决的是“如何组织调用”,而非“如何根据任务动态调整协作方式”,导致智能体冗余通讯与大量Token消耗,最终给用户带来极高的自主编程成本 [3] 核心解决方案:AgentConductor框架 - 上海交通大学i-WiN团队提出多智能体框架AgentConductor,通过引入一个经过强化学习训练的3B参数指挥智能体,从根本上解决动态协作问题 [3] - AgentConductor会先评估任务难度,并生成一张以YAML表示的交互拓扑图,使简单任务使用轻量团队,复杂任务使用更复杂的交互图,实现能力与成本的自适应匹配 [3] - AgentConductor并非一次性规划,当生成代码运行失败时,指挥智能体会根据环境反馈的错误信息,结合历史记忆,对拓扑进行端到端重新生成,从而探索新的协作形式 [5] - 该方法在显著提升编码准确率(+14.6%)的同时,将Token成本降低了68% [5] 核心特色与方法 - **基于YAML的新型多智能体交互图结构**:使用YAML结构化表示交互图,使其既具备可读性,又支持程序化校验与约束,并可由大模型直接生成,便于理解与落地 [11][12] - **创新的交互形式**:融合多种拓扑优势,支持层内并行和跨层通讯,且每个智能体可任意链接之前的历史节点,在提升表达能力的同时避免不必要的通信开销 [13] - **两阶段训练范式**:采用监督微调(SFT)和基于GRPO的多轮端到端Agentic强化学习训练,仅训练一个指挥智能体 [15] - **SFT阶段**:基于GPT-4o生成的4,500个高质量拓扑样本(覆盖三档难度),赋予基础模型拓扑先验 [15] - **强化学习阶段**:将环境反馈的代码报错和多轮的拓扑文本一起作为轨迹用于智能体的强化学习训练,基于GRPO算法优化模型的拓扑生成策略以最大化复合奖励,最终实现低Token成本的高质量代码生成 [15] - **拓扑密度评估函数**:为实现任务自适应,将问题分成三档难度,并根据从Token成本到拓扑密度的形式化映射,提出了拓扑密度评估函数并作为奖励函数一部分,综合刻画节点数、边密度与图深度对通信成本的影响 [17] - **通信成本形式化**:多智能体系统的平均通信成本可形式化为 C = m(1 + |V| + (2|E|/|V|) + d),其中d为图深度,m为提示词最大长度 [18] 实验结果与性能 - 在三个竞赛级(APPS, LiveCodeBench, CodeContests)与两个基础代码数据集(HumanEval, MBPP)上评估了AgentConductor(基于Qwen-2.5-3B-Instruct模型) [21] - 在APPS数据集上,AgentConductor(3B)的pass@1准确率达到58.8(±0.3),显著超越所有基线方法 [22] - 在基础代码生成任务上,AgentConductor在HumanEval和MBPP上的平均准确率达到96.3(±0.2) [22] - 在成本方面,AgentConductor在APPS数据集上将Completion Token消耗降低至79,800,相比基线减少了最多68% [22][23] - 系统展现出细粒度难度适配能力:在easy任务上使用极简拓扑(平均3–4节点),在hard任务上自动扩展至8–10节点,而多数基线无论难度均维持固定密度 [23] 行业意义与范式转变 - AgentConductor证明,智能协作的关键不在于智能体数量,更在于结构的适应性,标志着多智能体研究从“静态工作流”迈向“动态生态系统” [24] - 该框架代表了一种新范式:将多智能体协作视为可学习、可演化的结构化决策过程 [24] - 通过将任务难度、执行反馈与通信成本统一纳入强化学习框架,实现了准确率与效率的协同提升 [24] - 这项工作在国际AI社区(X)引发广泛关注,被知名AI分享博主DAIR.AI当日置顶宣传并评为2026年2月23日–3月1日Top AI Papers [8]
企业玩不转龙虾,是人的思维出错了
量子位· 2026-04-03 14:11
文章核心观点 - 企业级AI Agent(文中代称“龙虾”)落地面临普遍困境,其根本原因在于企业试图用“以人为中心”的旧有思维和IT架构去承载“以Agent为中心”的新范式,导致Agent无法真正融入业务流程 [3][4][6] - 实现Agent成功落地的关键在于完成思维跃迁,从“人在中心操控AI”转变为“Agent在中心干活,人是驾驭者”,并围绕Agent重构工作流、权限体系和基础设施 [10][14] - 行业存在技术惯性认知误区,例如用管理传统无状态微服务(如K8s)的方案来管理有状态、异质、长时运行的Agent,这会导致失败 [16][18][20] - 云服务的使用主体正从“人”转向“Agent”,这要求基础设施进行范式转移,提供原生的、能消灭偶然复杂度的Agent运行环境(如腾讯云Agent Runtime)和安全体系 [22][24][30] - 通过腾讯云与MiniMax在Agentic RL训练上的深度合作案例,展示了为Agent量身定制、重构底层计算与存储基础设施的必要性和巨大价值,支撑了模型能力的快速迭代 [31][34][36] - 对于从业者,建议破除偏见、建立AI Native工作模式、并立即开始实践构建,从小处着手将Agent用透,是抓住Agent时代机遇的关键 [39][40][43] 企业Agent落地失败的根本原因 - **思维模式错误:** 企业普遍试图在不改变原有工作流和系统架构的前提下,将Agent当作“插件”强行嵌入现有的“以人为中心”的IT体系中 [6][7] - **不恰当的比喻:** 这种做法如同将F1赛车开上乡镇公路并要求其遵守家用轿车规则,无法发挥Agent的真正能力 [8] - **腾讯内部教训:** 初期尝试将Agent接入以角色分工为核心的TAPD系统而未改变工作流,被证明完全走不通 [11][12] 成功落地所需的思维与工作流变革 - **核心转变:** 企业必须从“人在中心操控AI”跃迁至“Agent在中心干活,人是驾驭者(Harness)” [10] - **工作流重构:** 真正Agent Native的企业需要围绕Agent重新组织工作流,使代码、文档、文件命名等均转为“面向Agent友好”的结构化模式 [10][14] - **权限与信息流:** 需消除冗余审批节点,赋予Agent能够自闭环的权限,并确保Agent能获取人所能获取的所有信息 [13] - **实践成效:** 腾讯研发团队转变思维,以Git仓库为唯一真源进行工作,成功消除了落地门槛,使Agent自然落地 [13] 技术实施层面的认知误区与挑战 - **技术惯性误区:** 云厂商和IT团队常错误地将Agent视为下一个微服务升级,试图用K8s等传统方案硬性承接 [16] - **本质差异:** 传统Docker/K8s假设应用是无状态、同质化、可快速伸缩的;而Agent是有状态、异质、且需要7x24小时长时运行的 [19][20] - **错误后果:** 用解决静态问题的旧工具处理自主、不确定的Agent,注定失败 [21] - **基础设施需求转变:** 过去几十年的IT基础设施核心服务对象是“人”,而AI Agent带来了范式转移,使用云的主体变成了“Agent” [22] 面向Agent的基础设施解决方案 - **原生基础设施目标:** 如腾讯云Agent Runtime,其核心设计逻辑是消灭偶然复杂度,让大模型公司专注模型,企业客户专注业务,基础设施解决运行环境、状态保存、权限管控、系统通信等复杂问题 [24] - **安全体系重构:** 需构建Agent时代的安全沙箱和授权体系,而非因担忧安全而停滞不前 [26][28][30] - **具体技术方案:** 腾讯云通过Agent网关解决连接问题,并计划开源Cube安全沙箱技术,提供全隔离运行环境、精细化权限管控和全链路操作追溯能力 [24][30] 深度合作案例:腾讯云与MiniMax的Agentic RL训练 - **技术挑战:** Agentic RL训练需在真实沙盒环境中进行,要求底层Infra能支持秒级启动十万甚至几十万个并发、高度稳定的异构沙盒 [31][32] - **传统方案失效:** 使用传统K8s无法支撑,几万个并发就能将Master节点拉垮 [32] - **腾讯云的定制化重构:** - **计算调度:** 深入内核级进行锁优化和快照技术攻关,实现海量异构沙盒秒级并发启动 [35] - **存储加速:** 针对数十万异构镜像分发痛点,自研块级去重、多级缓存、按需加载的专属加速存储方案,利用内存映射等技术实现磁盘瞬间挂载,可支撑分钟级数十万沙箱快速拉起,并发能力随集群平行扩展 [35] - **快照与回滚:** 打造自研的CoW快照存储设施,支撑Agent秒级的暂停恢复与快照回滚能力 [36] - **合作成果:** 在此Agent-centric的极速算力基础设施支撑下,MiniMax实现了模型能力的月级别快速迭代,在复杂人设保持、长程任务执行上达到比肩甚至超越国际顶尖模型的水平 [36][37] 给从业者与企业的行动建议 - **破除偏见:** 坚信Agent适用于任何有重复性工作的岗位,坚定相信是落地的第一步 [39] - **建立AI Native工作模式:** 企业落地第一步是让每个员工在具体岗位上把Agent用起来,形成内部分享插件和know-how的“大集市”,沉淀企业AI资产 [40][42] - **立即开始构建:** 不要等待完美系统或公司指令,应从解决一个小Bug、回复一类邮件等具体任务开始,使用现有工具搭建属于自己的Harness [43] - **未来效率衡量:** 未来衡量工程师或企业效率的标准,可能变为每天能同时让多少个Agent工作,以及每月能烧掉多少有价值的Token [44]
补齐OpenClaw进化拼图!AReaL v1.0开源,智能体强化学习「一键接入」
机器之心· 2026-03-04 11:58
Agent赛道现状与趋势 - 2026年开年,Agent依然是全球最引人注目的AI赛道之一,OpenClaw(原Clawbot)掀起的Agent热潮仍在发酵,让“一人公司”概念首次真正有了落地的可能性[1] - 近日,OpenClaw超越了React、Linux,成为GitHub上Star量最多的非资源/教程类开源软件项目[2] - Agent的能力边界正在拓宽,从Browser Agent到Coding Agent,从个人到企业级工作流Agent,能做的事越来越多[4] - 各类运行时框架(如LangChain、Claude Code、OpenClaw)不断拓宽智能体的能力边界,使其能胜任更复杂的任务[4] - 行业下一阶段的重点将从“教Agent怎么做事”转向“如何让Agent自我进化”,以强化学习(RL)为代表的系统化训练正成为决定Agent能力上限的关键变量[43][44] AReaL v1.0框架的核心突破 - 由蚂蚁和清华大学联合打造的开源强化学习框架AReaL发布了里程碑式的稳定版本v1.0[8] - AReaL v1.0是一套面向Agent的开源全异步强化学习训练框架,其核心进展是让“Agent一键接入RL训练”成为现实,重新定义了智能体强化学习的范式[8] - 该框架可以兼容任意Agent框架,仅需修改一个接口地址即可无缝接入RL训练,包括最近火热的OpenClaw,极大降低了强化学习的训练门槛[9] - 框架引入了系统化的AI辅助开发体系,并基于深度定制开发的PyTorch原生训练引擎Archon,实现了千亿MoE模型的端到端训练[9] 技术架构与性能优势 - AReaL的核心架构创新在于将强化学习中的训练与推理完全解耦,推理引擎流式生成轨迹,训练引擎持续消费样本,两者在独立GPU上同时运行[21] - 通过精心设计的PPO算法修正和陈旧度控制机制,AReaL在保证训练稳定性的同时,实现了2倍以上的吞吐提升[22] - 该设计让Agent可以一边学习一边全力工作,训练引擎异步更新参数,不会阻塞智能体的推理[23] - 为了解决大量共享前缀造成的冗余计算,AReaL引入了基于Trie(前缀树)的序列打包方案,实现了树状注意力计算[29][33] - 树状注意力带来了显著的性能提升:单Worker训练吞吐最高提升8.31倍,集群整体吞吐最高提升6.20倍,相比于基线方案减少超过50%的GPU显存占用[30] 创新的训练引擎Archon - AReaL v1.0带来了训练引擎Archon的重磅更新,这是一个支持完整5D并行(数据并行DP、张量并行TP、流水线并行PP、上下文并行CP、专家并行EP)的PyTorch原生训练引擎[34][39] - Archon引擎从零开始实现到验证正确性,仅用了1人·月的工作量,在32天内通过累计72万行代码修改完成,并验证了能训练千亿参数MoE模型[34] - 创造这一效率奇迹的秘诀在于AReaL集成的一整套AI辅助开发体系,实现了复杂工程开发的高度自动化[35] AI辅助开发体系 - AReaL的AI辅助开发体系包括:为各核心模块配置领域专家Agents;引入以命令驱动的引导式工作流;在真实开发场景中,由特定Agent全程自动化完成任务规划、代码生成、自动校验到PR创建[37][38] - 这套体系释放出清晰信号:AI辅助编程不仅仅是效率工具,同样具备了深度参与复杂系统开发的真实生产力,重新定义了效率边界[41] - 软件工程的角色分工出现深刻重构,人类开发者可更多地转向“明确需求、设计系统”等决策工作,而AI更多地承担流程固定、规则明确的工程落地任务[41] 行业影响与未来展望 - AReaL v1.0为行业贡献了一个兼具易用性、可靠性和强扩展性的开源Agentic RL范本,应用层保持开放和兼容,引擎层深度优化[44] - 随着这类高性能底座的日益成熟,Agent有望加速跨越跑通Demo的初级阶段,真正开启持续、自主、规模化进化的新阶段[45] - 当训练框架变得足够简单,Agent的接入方式足够统一,AI能够深度辅助底层系统开发时,Agentic RL的大规模落地将跨越少数顶尖团队的门槛,成为更普及的大众开发者利器[44] - 未来,AReaL团队将继续在系统组件可用性、Archon引擎生产效率、AI辅助开发能力和VLM/Omni模型Agent训练等四个方向发力,旨在打造成为Agentic AI时代的高性能RL运行时底座[44]
大模型最难的AI Infra,用Vibe Coding搞定
机器之心· 2026-01-07 13:16
文章核心观点 - 传统的“氛围编程”(Vibe Coding)在应对AI基础设施(AI Infra)等复杂系统开发时,存在上下文丢失、决策偏离和质量不稳定三大痛点,根源在于缺乏持久化、结构化的决策管理机制[3][4] - 为解决上述问题,文章提出并实践了“文档驱动的氛围编程”新范式,通过系统化的设计文档将关键决策前置、结构化和持久化,使开发者专注于高层设计,AI负责实现细节,从而高效、高质量地完成复杂系统开发[5][6][7] - 该新范式在阿里巴巴团队开发的、面向Agentic RL的GPU资源调度系统(一个数万行代码的分布式训练系统)中成功应用,通过“时分复用”方案解决了GPU利用率挑战,并在生产级集群上验证了其显著性能提升[9][14][45] AI编程范式演进与挑战 - “氛围编程”(Vibe Coding)因其“聊一聊就能生成代码”的体验,在简单任务上提升了开发效率,成为开发者新宠[2] - 但在AI Infra等复杂系统(动辄数万行代码、成百上千个相互关联的决策点)开发中,传统氛围编程面临三大困境:1) 上下文丢失:对话历史被压缩,关键设计决策在多轮交互中被遗忘;2) 决策偏离:AI自主做出的技术决策容易偏离开发者意图;3) 质量不稳定:相同需求在不同时间可能得到截然不同的实现方案[3][4] - 这些问题的根源在于当前对话式编程缺乏对复杂决策进行持久化、结构化管理的机制[4] 文档驱动的氛围编程方法论 - 核心理念是将复杂系统的关键决策前置到设计阶段,通过结构化设计文档体系化、持久化地记录所有决策点,让开发有章可循,大幅降低复杂度门槛[5][6] - 设计文档作为关键工具,实现了开发者与AI在关键决策上的对齐,直接解决了传统氛围编程的三大痛点:持久化文档消除上下文丢失,明确决策避免AI偏离意图,规范和代码逻辑确保质量稳定[24] - 该方法带来了工作方式的根本转变:开发者从编码、调试等执行层面,转向与AI讨论设计、通过文档明确决策直至完全对齐,然后由AI负责实现[24] - 与传统开发和单纯氛围编程相比,文档化氛围编程在理解架构、设计方案、编码效率与质量、团队协作等方面展现出综合优势[26] 方法论实施:组织、审阅与分步开发 - **内容组织**:设计文档需系统性地跟进自顶向下的决策点,并层次化拆解,形成决策体系。文档模板需包含迭代版本记录和代码实施进度[31][32] - **审阅修改**:建立了系统化的多轮迭代审阅流程以确保文档质量。利用工具(如iFlow CLI)将常见审阅场景的指令固化为Prompt模板,以应对理解困难、修改一致性、内容爆炸、AI过度设计、逻辑错误隐蔽性等挑战[28][33][35] - **分步实施**:实施分为两个阶段:1) 规划阶段:将设计拆解为依赖有序的小步骤(通常每步包含3-5个相互关联的方法),并绘制依赖图;2) 增量开发循环:AI按步骤读取设计并生成代码,开发者审查后提交,循环直至完成[36][37][39] 防御性编程与系统健壮性 - 在分布式AI训练等复杂系统中,微小的错误可能引发级联故障,而AI编程倾向于主动进行错误处理,有时反而会掩盖真实错误信息[40] - 新范式将防御性思维前置到设计阶段:在关键节点设置验证点,构建标准化的错误处理模式库,并利用AI自动生成健壮的防御代码[40] - 具体措施包括:1) 维护统一的验证模式库(如检查整数范围、出口条件检查等),遵循单一定义、多处复用原则;2) 在设计文档中用标准化注释标注验证需求;3) AI实施时自动将标注展开为具体验证逻辑;4) 对于超过10行的复杂验证,定义独立的验证函数[41][42][44] 应用案例:Agentic RL的GPU资源调度优化 - **业务挑战**:在Agentic RL采样过程中,智能体执行任务的时间呈长尾分布,导致经典的“落后者效应”,即必须等待最慢的样本完成,造成GPU资源闲置和浪费,成为性能瓶颈[12] - **方案对比**:业界主流方案存在缺陷:1) 共置方案:rollout和training严格串行,阶段内和阶段间均存在资源闲置;2) 异步分离方案:静态分配rollout和training专用GPU,引入“双边空泡”问题,即两侧GPU都可能出现闲置[13] - **创新方案**:提出“时分复用”方案,其核心是基于rollout对GPU资源需求动态波动的洞察,设计智能资源调度机制:在采样需求低谷期分配部分GPU执行训练任务,实现需求波动与资源调度的匹配[14] - **技术实现**:采用两阶段流程:1) 全力采样阶段:所有GPU协同处理大多数样本;2) 并行执行阶段:当采样完成度达标后,系统缩容,释放固定GPU转入训练模式,同时长尾样本迁移至剩余GPU继续处理。训练完成后立即扩容,回收所有GPU准备下一轮采样[14] - **方案价值**:该策略将训练的快速执行特性与rollout需求波动在时间维度巧妙匹配,提升了整体GPU资源利用效率,但显著增加了系统复杂度[15][18] 方案性能验证与结果 - **实验配置**:在生产级大规模集群(160卡GPU)上验证,使用Qwen3-235B-A22B模型(235B参数),设置最大交互轮数100轮,最大token长度64K,batch size为512[46] - **性能对比**:与采用128卡training、32卡rollout静态分配的baseline(异步分离方案)相比,采用动态调度的时分复用方案使rollout吞吐率提升了3.5倍[47] - **任务完成率**:Baseline方案因rollout资源受限(仅32卡),采样速度慢,导致大量任务触发超时限制。时分复用方案通过动态释放更多GPU用于rollout,显著加快采样速度,完全避免了超时,提升了训练稳定性和样本利用效率[50] - **系统开销**:分析表明,时分复用方案引入的额外参数同步开销(在160卡间进行)在整体训练时间中占比极小。缩容操作(释放rollout模型参数)的实测开销在秒级,未成为性能瓶颈[53][55]
自搜索强化学习SSRL:Agentic RL的Sim2Real时刻
机器之心· 2025-09-02 09:27
研究背景与方法 - 研究由清华大学、上海人工智能实验室、上海交通大学等机构联合完成,聚焦于利用大语言模型内部世界知识提升搜索智能体训练效率 [2][6] - 提出SSRL方法,通过结构化提示和格式奖励有效提取模型世界知识,降低幻觉并在多个基准测试中取得更好效果 [2][6][8] - 探索训练智能体无需真实环境参与的可能性,并验证接入真实搜索引擎后SSRL训练的模型表现更优,体现Sim2Real有效性 [2][8] 当前搜索智能体训练挑战 - 全真实搜索方式直接调用商业搜索引擎API或RAG本地知识库,成本高昂且与真实场景存在差距 [7][13] - 半真实搜索使用辅助LLM模拟搜索引擎行为,但训练效率低下且不稳定 [7][13] - 当前训练方式非常昂贵、耗时且不稳定,多轮工具调用导致rollout效率降低,外部信息引入易导致模型崩溃 [7][13] LLM利用世界知识的上限 - 通过formatted instruction显式利用模型内部知识,在大量模型上采样显示仅依赖内部知识即可在所有基准测试中获得明显效果提升 [10][12] - Llama-3.1-8B-Instruct在Bamboogle上pass@64达到76%正确率,在BrowseComp上pass@256达到10%正确率 [12] - 发现Llama系列在该类任务上效果远超Qwen系列,与数学领域结论相反 [12] - Majority Voting方法无法逼近模型能力上限,增加采样数量时效果不会进一步提升 [15] SSRL训练优化与设计 - 训练目标函数优化为标准GRPO目标,通过信息掩码强制模型基于查询和推理生成答案而非简单复制 [22][23] - 采用复合奖励函数结合格式奖励和结果奖励,防止奖励黑客并确保奖励有效性 [24] - 训练后模型表现优于依赖外部引擎训练的模型,训练效率提升约5.6倍且训练奖励持续增长未出现崩溃现象 [31] 实验结果 - 在Llama和Qwen2.5系列模型上训练,SSRL方法在多项基准测试中取得更好效果 [25][26] - Llama-3.2-3B-Instruct模型在HotpotQA上达到43.8%准确率,在NQ上达到58.4%,在Bamboogle上达到38.4% [26] - Llama-3.1-8B-Instruct模型在HotpotQA上达到48.0%准确率,在NQ上达到62.6%,在Bamboogle上达到54.4% [26] Sim2Real泛化 - 将前K个自搜索知识替换为在线搜索结果,发现SSRL训练模型在真实场景下表现更优 [28][29] - Llama-3.2-3B-Instruct模型在Sim2Real设置下准确率提升至41.9%,Qwen2.5-7B-Instruct提升至47.9% [33] - 随着K增加效果不会持续增长,显示模型内部知识具有高度压缩性和灵活性 [32] 熵引导搜索 - 提出熵引导搜索方法,根据模型不确定性动态选择使用内部知识或外部工具 [34] - 搜索次数减少20%-42%的同时保持可比性能,Llama-3.1-8B-Instruct模型准确率提升至41.7% [36] SSRL与TTRL结合 - SSRL与TTRL结合可获得显著效果提升,Llama-3.2-3B-Instruct模型在多项测试中准确率提升最高达67% [38][39] - 在BrowseComp任务上,Llama-3.2-3B-Instruct模型达到6.2%准确率 [40] - 但TTRL易导致模型过于自信和训练崩溃问题 [39]