Workflow
MMK12
icon
搜索文档
只训练数学,却在物理化学生物战胜o1!新强化学习算法带来显著性能提升,还缓解训练崩溃问题
量子位· 2025-06-23 12:45
核心观点 - 上海创智学院与上海AI Lab提出的CPGD算法显著提升多模态模型的推理能力与训练稳定性,在数学、物理、化学、生物等学科表现优异 [1][2][14] - MM-Eureka系列工作开源了模型、代码、数据集及过程奖励模型,推动多模态强化学习领域发展 [3][25] - 强化学习在跨学科泛化能力上优于监督微调(SFT),但无法替代知识本身的缺失 [22][23] 算法与技术突破 CPGD算法 - 通过策略比值对数化和策略漂移项设计,解决传统强化学习(GRPO/RLOO)训练崩溃问题,性能提升11% [8][11] - 在7B/32B模型上验证:MMK12测试集平均提升21.8%,MathVista/MathVision分别提升8.5%/11.4% [1][14] - 新型KL估计器减少梯度方差,细粒度token级损失函数优化训练效率 [9][10] 多模态强化学习框架 - 基于OpenRLHF支持Qwen-VL/InternVL等模型,可扩展至32B-38B规模 [4][5] - 训练稳定性突破:双边裁剪、online filter等技术提升资源效率 [6][7] 模型性能表现 7B模型对比 - MM-Eureka-CPGD-7B在MMK12上超越QwenVL2.5-7B基准21.8%,Overall评分1.11 [13][14] - 对比GRPO算法(提升6%),CPGD将整体提升幅度扩大至11% [1][14] 32B模型对比 - MM-Eureka-CPGD-32B在MMK12测试集超越o1模型,物理/化学/生物学科表现突出 [2][15] - 接近闭源模型水平,Overall评分1.10(以QwenVL2.5-32B为基准) [15] 数据集与工具 MMK12数据集 - 覆盖K12阶段15k多模态数学题,含几何/函数/图形推理题型,额外提供2k跨学科选择题 [16][17] - 下载量超1700次,成为多模态推理基准 [17] MM-PRM过程奖励模型 - 通过500万数据训练+70万自动标注,提升推理路径严谨性,MMK12准确率提升9% [18][19][21] - 支持全自动过程监督,无需人工标注 [21] 行业影响与开源生态 - 模型下载超1万次,代码库获1000+ star,论文引用近100次 [3] - 完整开源技术方案包括训练框架、数据集、模型权重及技术报告 [25]