Workflow
MARSHAL框架
icon
搜索文档
大模型如何泛化出多智能体推理能力?清华提出策略游戏自博弈方案MARSHAL
机器之心· 2026-01-09 12:08
文章核心观点 - 清华大学研究团队提出的MARSHAL框架,通过在多智能体策略游戏中进行自博弈强化学习,有效提升了大型语言模型在多轮、多智能体交互场景中的博弈决策与推理能力,并且该能力能够显著泛化至通用的多智能体系统,在数学竞赛和专家级问答等一般推理任务中提升整体表现 [2][7][13][19] 背景与挑战 - 尽管可验证奖励强化学习在单轮、单智能体场景中已证明价值,但在多智能体系统的多轮交互场景中应用仍处探索阶段 [5] - 将RLVR拓展至多智能体领域面临两大核心技术挑战:多轮交互的信用分配困难,以及不同智能体因高度异构性导致优势估计基准差异大、训练难以收敛 [5][7] MARSHAL方法介绍 - 框架基于Group-Relative Policy Optimization架构,提出了两项关键算法改进以应对多轮次、多智能体训练的挑战 [12] - **轮次级优势估计器**:针对信用分配问题,摒弃粗糙的轨迹级评估,引入精细的轮次级奖励机制,并采用“先求累计和再归一化”方法进行稳定优势计算 [14] - **分角色的优势归一化**:针对角色异构性,实施严格区分角色的归一化策略,根据角色不同将数据分组计算优势,以解决回报分布差异问题 [14] - 研究团队挑选了六款涵盖从简单到复杂、从竞争到合作多种类型的策略游戏用于训练和测试 [12] 核心实验 - **实验设置**:以Qwen3-4B为基线模型,在三款训练游戏中训练了专家智能体和通用智能体两种类型 [16][18] - **游戏策略能力泛化**:MARSHAL训练出的智能体在测试游戏中展现出出色的泛化性,通用智能体取得了高达**28.7%**的胜率提升,表明模型掌握了通用的博弈逻辑 [13][16] - **通用推理能力泛化**:将MARSHAL模型集成到主流多智能体框架中测试,在一般推理任务中表现显著提升 [18] - 在竞争性多智能体系统MAD中,综合表现最强的MARSHAL通用智能体在数学测试AIME准确率提升**10.0%**,在问答测试GPQA-Diamond准确率提升**7.6%** [13][19] - 在所有基准测试中平均提升**3.5%** [13] - **能力泛化领域对齐**:在竞争性系统MAD中,竞争性游戏训练的模型表现更优;在合作性系统AutoGen中,合作性游戏训练的模型表现更优 [19] - **可扩展性验证**:在扩展到8B模型的实验中,MARSHAL方法依然保持了强劲的增长势头 [20] 推理模式分析 - **定性分析**:游戏训练激发了模型两项关键的涌现能力 [22] - **角色意识**:模型能根据自身角色调整决策策略 [22] - **意图识别**:模型能在不确定信息场景中根据其他智能体的动作判断其意图 [22] - **定量分析**:失败模式分析显示,MARSHAL将**智能体间未对齐**的情况减少了**11.5%**,显著提升了跨智能体的沟通效率和理解能力 [24] 消融实验 - **自博弈 vs 固定对手**:与固定专家对手训练相比,自博弈展现出不可替代的优势,针对固定对手训练的模型容易过拟合,在测试游戏中性能急剧下降 [26][27] - **优势估计算法设计**:逐步移除核心算法组件的实验验证了MARSHAL算法设计的必要性 [28] - **轮次级优势估计**是处理长序列决策的关键 [28] - **分角色归一化**在角色回报差异大的竞争性游戏中影响巨大,而在合作游戏中影响相对较小 [28]