Workflow
GameQA
icon
搜索文档
RL新思路,复旦用游戏增强VLM通用推理,性能匹敌几何数据
36氪· 2025-10-22 10:17
技术方法与创新 - 复旦大学NLP实验室提出Game-RL方法,利用电子游戏丰富的视觉元素和明确规则来生成多模态可验证推理数据,以强化训练视觉语言模型(VLM)的推理能力[1] - 创新性地提出Code2Logic方法,通过游戏代码系统化合成数据,该方法利用强LLM生成游戏代码、设计任务模板并构建数据引擎代码,最终自动批量生成数据[3][8][11] - 通过Code2Logic构建了GameQA数据集,该数据集包含4大认知能力类别、30个游戏、158个推理任务以及14万个问答对,任务和样本均按难度分级[13][15] 数据集与实验效果 - 在GameQA数据集上使用GRPO进行训练后,4个开源VLM在7个完全域外的通用视觉语言推理基准上均取得性能提升,例如Qwen2.5-VL-7B模型平均提升2.33%[17][18] - 与专门用于几何和图表推理的数据集(如MAVIS、MultiMath)进行对比训练,尽管训练数据量更少且领域不匹配,GameQA训练的模型在通用基准上表现极具竞争力,甚至在部分数学推理基准上能匹敌更“对口”的数据集[19][20] - 实验显示出明显的规模效应:随着训练数据量增加至20K,以及训练游戏种类增多,模型在通用推理基准上的表现持续提升,域外泛化效果增强[21][22] 能力提升与行业价值 - 人工定性分析表明,经过Game-RL训练后,模型在视觉感知和文本推理两个核心能力上均有显著提升[25][27] - 该研究将VLM的强化训练领域成功拓展至游戏场景,验证了游戏数据在提供多模态、可控、可验证数据方面的重要价值,为提升模型通用推理能力提供了新路径[28]