跨域泛化

搜索文档
强化学习新发现:无需数学样本,仅游戏训练AI推理大增
机器之心· 2025-06-24 14:46
研究团队与背景 - 第一作者谢云飞是莱斯大学博士生,导师为通讯作者魏晨教授,研究方向包括多模态生成与理解 [1] - Project Leader 肖俊飞是约翰斯・霍普金斯大学博士生,导师为 Bloomberg Distinguished Professor Alan Yuille [2] - 第二作者马崟淞是约翰斯・霍普金斯大学博士生 [3] - 第三作者兰石懿是英伟达 Research Scientist [4] 核心发现 - 强化学习领域出现颠覆性发现:AI仅通过玩简单游戏(如贪吃蛇)就能显著提升数学推理能力,无需大量数学训练样本 [5] - 研究团队提出ViGaL (Visual Game Learning)方法,在多个主流视觉数学基准测试和MMMU系列基准测试中超越此前在数学等领域数据上训练的强化学习模型 [5] - 论文标题为"Play to Generalize: Learning to Reason Through Game Play",强调不用数学样本,游戏训练在数学基准取得突破 [6] 研究方法与结果 - 使用7B参数的Qwen2.5-VL模型进行训练,仅通过强化学习训练模型玩贪吃蛇和旋转游戏 [11] - 在数学推理基准上平均提升2.9%,在多学科推理基准上平均提升2.0%,超过专门在数学或多学科数据上训练的强化学习方法 [11] - ViGaL在MathVista等数学推理基准上平均提升2.9%,相比之下在高质量数学数据集上进行强化学习的方法仅提升2.4% [15] - 在MMMU系列多学科推理任务上,ViGaL超越在多学科数据上进行RL训练的R1-OneVision-7B模型5.4个百分点 [15] 游戏设计原理 - 贪吃蛇游戏:在10×10网格上训练路径规划、避障决策和空间导航能力,对应数学中的坐标几何和函数图像理解 [18] - 旋转游戏:自主设计的3D空间推理游戏,训练空间几何理解能力,对应角度和长度相关的数学推理问题 [19] - 两款游戏设计哲学互补:贪吃蛇提升2D坐标相关数学表现,旋转游戏更适合角度和长度推理,联合训练效果更佳 [20] 理论依据与意义 - 游戏训练符合认知科学规律,类似儿童通过搭积木、躲猫猫等游戏活动构建抽象思维基础 [16] - 认知科学研究证实游戏常被用作探索人类心智的实验平台,如"四子连珠"游戏研究规划能力 [17] - ViGaL揭示潜在新趋势:当高质量人类数据枯竭时,精心设计的游戏可能为多模态推理能力发展开辟新道路 [22] - 游戏化训练范式优势:成本极低、效果显著、拓展性强、通用性好 [25]