Code2Logic方法

搜索文档
以玩促学?游戏代码驱动数据合成,提升多模态大模型通用推理
机器之心· 2025-07-04 16:59
核心观点 - 游戏代码可自动合成视觉推理数据,提升AI几何与图表推理能力 [1][4] - 游戏具备三大优势:规则明确、因果推理链完整、LLM生成成本低 [12] - Code2Logic方法通过LLM三步骤转化游戏代码为多模态推理数据 [13][14][15] - GameQA数据集含14万问答对,覆盖4类认知能力与30种游戏 [18][21] - 游戏数据训练使模型在域外任务和通用基准上均获显著提升 [24][25][26] 研究方法 - 游戏代码构建:LLM自动生成完整游戏逻辑(如推箱子) [13] - QA模板设计:从代码提取推理模式并设计任务模板 [14] - 数据引擎构建:自动化生成问答实例且保证正确性 [15] - 数据集特点:细粒度难度控制(Easy/Medium/Hard三级) [20] - 对比实验:5K GameQA样本效果优于8K几何数据集 [28][29] 数据集表现 - 人类在域内游戏测试准确率达84.75%,Claude-3.5仅47.69% [22] - Gemini-2.5-Pro表现最佳达58.95%,仍显著低于人类 [22] - 开源模型Qwen2.5-VL-7B训练后平均提升2.33% [25][26] - InternVL3-8B在MathVista达73%,超几何数据集67.63% [26][29] - 游戏多样性提升域外泛化效果1.80% [37] 模型能力分析 - 3D空间感知是最大短板,易混淆物体高度关系 [42] - 非网格化场景(如祖玛)中模式识别困难 [43] - 多次识图易受文本干扰导致图文不符 [44] - 策略规划能力不足,缺乏直觉剪枝能力 [45] - GRPO训练后视觉感知提升10.94%,文本推理提升14.95% [32] 行业意义 - 首次验证游戏作为可验证环境提升通用智能的潜力 [48] - 低成本可扩展数据合成方法突破多模态数据稀缺瓶颈 [4][19] - 游戏认知多样性能迁移至数学等非对口领域 [29] - 揭示当前VLMs在3D感知和策略规划的根本缺陷 [42][45] - 为多模态大模型训练评估提供理想数据源 [48]