SPIRAL：零和游戏自对弈成为语言模型推理训练的「免费午餐」

核心观点 - 研究团队提出SPIRAL框架，通过零和游戏自对弈提升语言模型的推理能力，摆脱对人工监督的依赖[3] - 游戏作为推理训练场，通过输赢结果提供廉价可验证的奖励，无需人工标注[6] - 仅通过库恩扑克训练，模型数学推理能力平均提升8.7%，在Minerva Math基准测试上跃升18.1个百分点[7] - SPIRAL框架让竞争驱动智能涌现，通过多回合零和游戏自主发现并强化可泛化的推理模式[10] 游戏选择与训练效果 - 选择三种具有不同认知需求的游戏：井字棋（空间模式识别）、库恩扑克（概率计算）、简单谈判（多步规划）[12] - 自对弈保持50-52%胜率，确认对手与学习者同步进化[13] - 训练阶段胜率变化：Step 16（0% vs Gemini，52.3%自对弈），Step 128（37.5%，51.7%），Step 384（62.5%，50.9%）[14] 推理模式迁移 - 发现三种核心推理模式：期望值计算（使用率从15%增长到78%）、逐案分析（出现率72%）、模式识别（使用率35%到45%）[16][18][19] - 不同游戏培养专门化能力：井字棋专家在空间游戏Snake上56%胜率，扑克大师在概率游戏Pig Dice上91.7%胜率[20] - 多游戏训练产生协同效应：Liar's Dice上单一专家12-25%胜率，多游戏模型达51.4%[21][22] 技术创新 - 开发分布式在线多智能体强化学习系统，实现全参数更新的在线自对弈[24] - 角色条件优势估计（RAE）防止思维崩溃，保持稳定梯度和推理生成[26][27][28] - 在DeepSeek-R1-Distill-Qwen-7B上应用SPIRAL，性能从59.7%提升到61.7%，AIME 2025分数跃升10个百分点[30] 实践意义与局限 - 提供全新思路：无需高质量推理数据，只需设计合适游戏环境[35] - 验证关键假设：强化学习筛选预训练模型中的可泛化思维链[35] - 当前局限：游戏环境依赖、计算资源需求（8块H100 GPU运行25小时）、性能瓶颈[38] - 评估局限：主要集中在学术基准测试，需进一步验证现实任务影响[39]