LLM强化学习新框架！UCSD多智能体训练框架让LLM工具调用能力暴增5.8倍

研究背景与问题 - 大语言模型驱动的多智能体系统在医疗、编程、科研、具身智能等多个领域均能大幅提升任务表现[4] - 现有针对大语言模型智能体的强化学习训练框架均局限于单智能体范畴，多智能体间的协作优化即“群体强化”仍是一个研究空白[2][4] - 将已验证有效的单智能体强化学习算法GRPO直接应用于多智能体多轮环境存在核心困难，因其要求组内比较的回答需基于完全相同的上下文生成，而多智能体场景下不同智能体在不同轮次接收到的提示差异显著[5][6][7] 核心方法与框架 - 研究人员提出名为PettingLLMs的通用化多智能体强化学习框架，支持任意组合的多个大语言模型一起训练[2] - 采用一种贪婪搜索的树状采样方法，每轮每个智能体形成一个节点进行K个分支，并选择当前奖励最高的智能体进行下一次分支，以平衡探索与利用[12] - 每个智能体的奖励函数同时考虑自身角色奖励和全局任务奖励，以保证角色专属能力与合作能力的共同进化[13] - 框架设计了异步分发训练系统，支持“专属模型”与“共享模型”两种训练模式，路由模块可将数据分发至独立或共享的模型资源池进行更新[15][16] - 该框架使得多智能体强化学习训练开发变得敏捷、简洁，开发者只需定义任务特有的智能体交互和奖励函数，并支持不同模型与智能体间的任意映射及适配不同的LoRA方式[17] 实验性能与结果 - 在推箱子长规划任务中，通过AT-GRPO训练，两个智能体得到强化，任务性能从14%提升至96%[18] - 在Qwen3-8B模型上的大规模实验覆盖规划、代码与数学三大类任务，结果显示[20][23][24]： - 规划类任务：Sokoban准确率从14%提升至96%（+82个百分点），Plan-Path从47%提升至99.5%（+52.5个百分点） - 代码生成任务：LiveCodeBench提升+6.1个百分点至30.28%，APPS提升+4.2个百分点至45.8%，CodeContests提升+7.0个百分点至18.1% - 数学推理任务：AIME 24提升+9.0个百分点至50.0%，AIME 25提升+17.9个百分点至40.0% - 采用“按角色策略”训练模式在多项任务中表现优于“共享策略”模式，例如在Sokoban任务中达到98%准确率，在AIME24数学任务中达到57%准确率[24] 关键发现与验证 - 消融实验表明，仅在单智能体环境中训练各子角色收益有限，将其放回多智能体系统联合作业时性能提升有限（从5.0%提升至11.0%/14.5%后，联合作业仅达16.0%）[25] - 将已训练成熟的两个角色策略对调会导致性能“崩盘”，准确率从96.0%骤降至6.0%，表明智能体学到的是互补且不可替代的能力[26] - 训练过程中，智能体的学习回报同步上升，完成任务所需的平均回合数持续下降，体现出更紧密的对齐与分工协作[26] - 该框架首次实现了通用的多智能体“群体强化”，实现了跨任务、跨规模的通用强化学习算法[1][28]