Workflow
自博弈
icon
搜索文档
大模型如何泛化出多智能体推理能力?清华提出策略游戏自博弈方案MARSHAL
机器之心· 2026-01-09 12:08
文章核心观点 - 清华大学研究团队提出的MARSHAL框架,通过在多智能体策略游戏中进行自博弈强化学习,有效提升了大型语言模型在多轮、多智能体交互场景中的博弈决策与推理能力,并且该能力能够显著泛化至通用的多智能体系统,在数学竞赛和专家级问答等一般推理任务中提升整体表现 [2][7][13][19] 背景与挑战 - 尽管可验证奖励强化学习在单轮、单智能体场景中已证明价值,但在多智能体系统的多轮交互场景中应用仍处探索阶段 [5] - 将RLVR拓展至多智能体领域面临两大核心技术挑战:多轮交互的信用分配困难,以及不同智能体因高度异构性导致优势估计基准差异大、训练难以收敛 [5][7] MARSHAL方法介绍 - 框架基于Group-Relative Policy Optimization架构,提出了两项关键算法改进以应对多轮次、多智能体训练的挑战 [12] - **轮次级优势估计器**:针对信用分配问题,摒弃粗糙的轨迹级评估,引入精细的轮次级奖励机制,并采用“先求累计和再归一化”方法进行稳定优势计算 [14] - **分角色的优势归一化**:针对角色异构性,实施严格区分角色的归一化策略,根据角色不同将数据分组计算优势,以解决回报分布差异问题 [14] - 研究团队挑选了六款涵盖从简单到复杂、从竞争到合作多种类型的策略游戏用于训练和测试 [12] 核心实验 - **实验设置**:以Qwen3-4B为基线模型,在三款训练游戏中训练了专家智能体和通用智能体两种类型 [16][18] - **游戏策略能力泛化**:MARSHAL训练出的智能体在测试游戏中展现出出色的泛化性,通用智能体取得了高达**28.7%**的胜率提升,表明模型掌握了通用的博弈逻辑 [13][16] - **通用推理能力泛化**:将MARSHAL模型集成到主流多智能体框架中测试,在一般推理任务中表现显著提升 [18] - 在竞争性多智能体系统MAD中,综合表现最强的MARSHAL通用智能体在数学测试AIME准确率提升**10.0%**,在问答测试GPQA-Diamond准确率提升**7.6%** [13][19] - 在所有基准测试中平均提升**3.5%** [13] - **能力泛化领域对齐**:在竞争性系统MAD中,竞争性游戏训练的模型表现更优;在合作性系统AutoGen中,合作性游戏训练的模型表现更优 [19] - **可扩展性验证**:在扩展到8B模型的实验中,MARSHAL方法依然保持了强劲的增长势头 [20] 推理模式分析 - **定性分析**:游戏训练激发了模型两项关键的涌现能力 [22] - **角色意识**:模型能根据自身角色调整决策策略 [22] - **意图识别**:模型能在不确定信息场景中根据其他智能体的动作判断其意图 [22] - **定量分析**:失败模式分析显示,MARSHAL将**智能体间未对齐**的情况减少了**11.5%**,显著提升了跨智能体的沟通效率和理解能力 [24] 消融实验 - **自博弈 vs 固定对手**:与固定专家对手训练相比,自博弈展现出不可替代的优势,针对固定对手训练的模型容易过拟合,在测试游戏中性能急剧下降 [26][27] - **优势估计算法设计**:逐步移除核心算法组件的实验验证了MARSHAL算法设计的必要性 [28] - **轮次级优势估计**是处理长序列决策的关键 [28] - **分角色归一化**在角色回报差异大的竞争性游戏中影响巨大,而在合作游戏中影响相对较小 [28]
Vision-Zero:零数据VLM自我进化!陈怡然团队提出零监督训练新范式
机器之心· 2025-10-11 11:29
Vision-Zero框架核心创新 - 提出专为视觉语言模型设计的自博弈框架Vision-Zero,通过模型与自身副本竞争自动生成高复杂度推理数据,无需人工标注[6] - 框架特点包括策略自博弈、支持任意形式图片输入、以及通过Iterative-SPO算法实现持续性能提升,解决了传统自博弈的性能瓶颈问题[6][7] - 该框架在多个领域如推理和图表问答任务上,即使未使用任何标注数据训练,也超越了其他需要标注的当前最优方法[7] 自博弈机制设计 - 受社交推理游戏“谁是卧底”启发设计自博弈规则,游戏包含n名平民和1名卧底,卧底图片与平民存在细微差异[12][13] - 游戏过程包括线索阶段和决策阶段,迫使智能体生成复杂推理链条,随着对手能力提升,其视觉理解与推理能力被激发增强[14][15] - 游戏仅需两张有细微差异的图片对即可启动,数据构建成本低廉,应用场景广泛,支持合成场景、图表数据和真实世界图片等多种输入[17][18] 训练方法与性能优化 - 提出Iterative Self-Play Policy Optimization双阶段交替训练算法,通过自博弈和可验证奖励的强化学习交替优化,避免陷入局部平衡和知识饱和[20] - 实验表明交替训练性能明显优于单阶段训练,有效缓解了纯自博弈训练难以探索新推理路径的问题[20] 实验结果与性能表现 - 在六个基准数据集测试中,VisionZero-Qwen-7B模型较基线提升约3%,另一版本提升约2.8%,而最优基线方法仅提升约1.9%[22] - Vision-Zero框架训练的模型有效缓解了跨能力负迁移问题,例如在图表问答任务上,基线模型性能下降约10%,而Vision-Zero模型在视觉任务提升的同时,在图表任务上平均仅下降0.2%[24] - 具体数据显示,VisionZero-Qwen-7B在MathVista得分72.6,在MathVision得分28.1,在WeMath得分39.8,平均表现优于对比基线模型[24] 框架启示与应用潜力 - Vision-Zero证明了自博弈从单一任务走向通用任务的可行性与巨大潜力,通过构建开放、可扩展的博弈环境摆脱了对人工标注的依赖[26] - 该框架使模型在无需特定任务训练的前提下实现可持续的能力进化与跨领域泛化,突破了数据和知识瓶颈[26]
OpenAI拿下IOI金牌,仅次于前五名人类选手!参赛推理模型才夺得IMO金牌
创业邦· 2025-08-12 11:33
OpenAI在IOI 2025的表现 - 公司在2025年国际信息学奥林匹克(IOI)中取得金牌级别成绩,在AI参赛者中排名第一 [2] - 公司模型得分533.29,在所有参赛选手中排名第6,仅落后于5位人类选手 [7] - 公司遵守了与人类选手相同的比赛规则,包括5小时答题时间和50次提交限制 [6] 技术细节 - 公司使用了一组通用推理模型,未针对IOI进行专门训练 [8] - 公司直接使用IMO金牌模型参加IOI,未做任何改动 [14] - 模型在比赛中未使用互联网或RAG技术,仅能访问基础终端工具 [6] 性能提升 - 相比去年IOI表现,公司成绩从第49百分位跃升至第98百分位 [9] - 公司在过去几周连续在AtCoder世界总决赛、IMO和IOI取得优异成绩 [9] - IMO金牌模型在全面评测中表现最佳,不仅限于数学竞赛领域 [14] 行业影响 - 公司联合创始人Greg Brockman盛赞此次"金牌级表现" [13] - 行业人士认为未专门训练就取得优异成绩,显示通用推理能力显著提升 [16] - 行业对模型真身猜测不断,期待公司推出采用相同技术的公开版本 [18]