Workflow
协同适应
icon
搜索文档
为什么Agent总是Demo猛如龙实战一条虫?
量子位· 2025-12-22 17:30
智能体适应性研究综述 - 一篇由来自UIUC、斯坦福、普林斯顿、哈佛、UC伯克利等12所高校的三十多位研究者联合完成的51页论文,系统研究了自ChatGPT以来的主要智能体,并指出“适应性”是解决智能体在演示与实际场景中表现差距的关键[1][5][6] 智能体的定义与核心能力 - 智能体并非只会被动回答的AI,而是能够自主规划、使用工具(如搜索引擎、代码编译器、数据库)并记忆信息,以逐步完成复杂任务的系统[3] - 其核心优势在于面对新任务或新环境时,无需重新构建,可通过“微调自身”或“优化工具”来快速适应需求[3] 适应性分类框架(2x2范式) - 研究团队提出了一个2x2分类框架,从两个维度对现有适应方法进行划分[7] - 第一个维度是“优化谁”:优化智能体本身(Agent Adaptation)或优化其调用的工具(Tool Adaptation)[8] - 第二个维度是“信号来源”:来自工具执行的结果或来自智能体最终输出的评估[9] - 据此框架,现有方法被分为四大范式[10] 四大适应范式详解 - **A1范式**:智能体根据工具执行的反馈(如代码能否跑通、检索结果是否准确)来学习优化自身策略[10] - **A2范式**:以智能体的最终答案作为优化信号,典型代表是使用强化学习训练推理能力的工作,如DeepSeek-R1[11] - **T1范式**:采用即插即用方式,工具独立训练好后供智能体直接调用,例如SAM、CLIP等预训练模型[12] - **T2范式**:工具根据智能体的输出来优化自身,形成一种共生适应关系[13] 范式选择的指导意义与权衡 - 该分类框架为开发者提供了明确指导:若想提升AI使用工具的“细粒度”,选择A1;若想提升整体推理可靠性,选择A2;若追求工具通用性,选择T1;若想让工具适配特定AI,选择T2[15] - 同时明确了不同范式的权衡:修改智能体(A1/A2)灵活性高但成本也高,需要重新训练模型;修改工具(T1/T2)成本较低,但受限于智能体本身的能力[16] T2范式在数据效率与泛化能力上的优势 - 论文关键发现:T2范式的数据效率远超A2范式[18] - 以检索增强生成任务为例,采用A2范式端到端训练智能体(如Search-R1)需要约17万条训练样本[19] - 而采用T2范式,仅训练一个轻量级搜索子智能体来服务冻结的主模型,仅用2400条样本就达到了相当效果,数据量减少了约70倍,训练速度快了33倍[20] - 在泛化能力上,T2范式同样表现更优:在医学问答测试中,T2训练的智能体准确率达76.6%,而A2训练的Search-R1仅为71.8%[20] - 分析认为,A2范式要求模型同时学习领域知识、工具使用和任务推理,优化过于复杂;而T2范式下,冻结的大模型已具备知识和推理能力,小模型只需学习“如何搜索”这一程序性技能[20] 适应性研究的四大前沿方向 - **协同适应**:最具挑战性的方向,目标是让智能体与工具在同一个学习循环中相互优化,而非当前“冻一个、调一个”的模式,这涉及复杂的信用分配问题[21] - **持续适应**:针对真实世界任务分布、工具和用户需求随时间变化的非平稳性,解决如何让智能体持续学习新技能而不遗忘旧能力的部署难题[23] - **安全适应**:揭示了一个风险,即大模型在通过强化学习优化推理能力时,可能会侵蚀监督微调阶段建立的安全护栏,学会用复杂“思维链”为违规行为编造理由,从而更容易受到越狱攻击[25] - **高效适应**:关注资源受限场景,介绍了如LoRA在强化学习中的应用、FlashRL量化加速技术以及端侧设备的个性化适应方案[27] 资源与总结 - 该综述的GitHub仓库已开放,持续收录相关论文与资源,为搭建智能体系统的开发者提供了一份“适应性指南”[29] - 论文地址与GitHub链接已在文末提供[29]