Workflow
240元打造擅长数学的多模态版R1,基于DeepSeek核心思想,两阶段训练提升推理能力至工业级应用标准
量子位·2025-03-19 06:20

文章核心观点 - 东南大学、香港中文大学、蚂蚁集团等研究人员提出的LMM - R1框架,通过创新两阶段训练策略解决多模态领域难题,提升多模态大模型推理能力,且成本低效果好,有强大应用潜力 [2][3][4] 分组1:LMM - R1框架背景与优势 - 多模态大模型在深度数学推理任务上表现不佳,小型模型更明显 [1] - LMM - R1框架创造性引入规则化奖励函数机制,仅需240元GPU成本,将多模态模型推理能力提升至工业级应用标准 [4] - 经LMM - R1框架强化的QwenVL - 2.5 - 3B模型,在推箱子等任务中超越100B +参数量产品级大模型 [4] 分组2:从文本到多模态推理能力迁移挑战及解决 - 将基于规则奖励的强化学习扩展到多模态领域面临数据限制和基础推理能力薄弱两大挑战 [5][6] - LMM - R1框架通过创新两阶段训练策略解决上述问题 [5] 分组3:LMM - R1两阶段强化学习策略 - 第一阶段基础推理增强(FRE),利用纯文本推理数据增强模型基础推理能力,避开多模态数据限制 [7] - 第二阶段多模态泛化训练(MGT),将第一阶段推理能力泛化到多模态领域,避免依赖昂贵多模态训练数据 [9] 分组4:实验结果 - 以Qwen2.5 - VL - Instruct - 3B为基准模型,经LMM - R1框架训练后在几何推理、感知 - 推理平衡、智能体相关领域基准测试上显著提升 [10] - 在纯文本和多模态基准测试上平均提升约4.5% - 4.8%,推理密集型任务效果明显,避免推理能力退化问题 [11] - 在推箱子任务中,经LMM - R1框架强化后的模型仅通过初始画面即可完成完整动作序列规划 [12] 分组5:LMM - R1框架应用潜力与发展 - 3B规模小模型使用LMM - R1两阶段RL训练可极大增强推理能力,框架有强大应用潜力 [13] - 框架基于OpenRLHF实现完全自主研发,构建高效稳定训练体系,降低资源消耗 [13] - 项目开源后获学术界关注,技术方案被多个知名开源项目采纳,在GitHub获超500 +星标关注 [13] - 团队将持续深耕多模态模型领域,推动技术落地应用,与开源社区共建多模态强化学习框架 [14]