北航，清华，北大联合发布：异构智能体协同强化学习！

文章核心观点 - 提出了一种名为异构协同强化学习（HACRL）的全新训练范式，旨在解决大模型强化学习微调中因“单打独斗”和“孤立优化”导致的采样成本高、样本利用率低等核心瓶颈[5][7] - HACRL范式的核心是让多个在参数、规模或架构上存在差异的异构智能体在训练阶段共享并验证彼此的轨迹（rollouts），实现协同策略优化，而在推理阶段则各自独立部署运行[6][8] - 为支持HACRL，提出了异构协同策略优化（HACPO）算法，该算法通过四项关键技术弥合智能体间的能力与策略分布差异，实验证明该算法能有效提升所有参与智能体的性能，同时显著降低采样成本[12][26][35] 问题背景与现有范式局限 - 当前瓶颈：大模型强化学习微调中，rollout采样与校验成本是核心瓶颈，严重制约训练效率与规模化落地[5] - 孤立优化问题：现有范式普遍采用孤立优化，模型独立采样、验证与更新，导致高质量轨迹无法复用，样本利用率极低，造成巨大算力浪费[5] - 异构数据价值未发掘：大模型生态呈现显著异构性，不同模型生成的rollouts携带互补知识，但现有方法（如多智能体强化学习MARL和知识蒸馏KD）无法有效支持“训练协同、推理独立”的异构模型双向学习场景[7][13] 异构协同强化学习（HACRL）新范式 - 范式定义：HACRL是一种新范式，多个异构智能体在训练时共享经过验证的rollouts（响应+奖励）以实现协同策略优化，在推理时则各自独立完成任务[6][8] - 与现有范式的区别： - 不同于多智能体强化学习（MARL）：MARL训练一个需协同执行的系统，而HACRL训练多个在推理时独立的模型[13] - 不同于知识蒸馏（KD）：KD是同构模型间的单向知识传递，而HACRL是异构模型间的双向相互学习[13] 核心算法：异构协同策略优化（HACPO） 1. 智能体能力感知的优势估计：根据每个智能体的相对性能，为其分配不同的组间优势基线，理论上该估计器是无偏的[15][16] 2. 模型能力差异系数：使用能力比率来校准基线并调制梯度，以鼓励向更强的智能体学习，同时对较弱的智能体保持保守[19][20] 3. 指数重要性采样：采用序列级别的重要性比率并扩展至异构多智能体设置，引入非梯度指数重加权，使智能体偏向从输出分布与其自身更一致的rollout中学习[21] 4. 逐步裁剪：对跨智能体重要性采样比率应用非对称裁剪边界和逐步裁剪策略，防止跨智能体经验在训练后期占据主导，提高训练稳定性[23] 实验结果与有效性分析 - 整体性能提升：在多个数学推理基准上，HACPO使所有参与智能体的性能均获得一致提升，平均性能超越基线方法 3.3% [6][35] - 采样效率提升：与等资源基线相比，HACPO仅需 一半的采样成本 即可实现性能提升[6][35] - 不同异构类型下的表现： - 状态异构：弱模型（Qwen3-4B）性能提高 7.1% ，强模型（Qwen3-4B-Instruct）提高 1.4% ，主要体现强模型对弱模型的帮助[27] - 尺寸异构：小模型（Qwen3-1.7B-Base）提升 2.6% ，大模型（Qwen3-4B-Base）提升 2.3% ，小模型能提供互补知识[31][33] - 模型异构：即使架构和分词器不同，Qwen3-4B-Base提高 1.9% ，Llama3.2-3B-Instruct提高 3.9% ，证明了算法的通用性和鲁棒性[32] - 性能提升归因：主要源于能力驱动的指导（强模型提供高质量解）和互补知识的交换（弱模型提供不同的推理路径与信息性错误）[29] - 消融实验：对HACPO四个核心模块的消融实验表明，缺失任何一个模块都会导致模型性能下降，证明了各模块的有效性[36] 未来展望 - 将HACRL范式的适用场景从数学推理延伸至代码生成、多模态理解等更广泛的大模型核心下游任务，以验证其普适性[38] - 探索更大规模的异构智能体协同训练网络，研究智能体间相互学习的效果边界与影响机制[38] - 构建跨模型、跨领域的统一知识学习平台，为迈向通用人工智能（AGI）奠定框架基础[38]