MMK12 - 财报，业绩电话会，研报，新闻

MMK12

搜索文档

只训练数学，却在物理化学生物战胜o1！新强化学习算法带来显著性能提升，还缓解训练崩溃问题

量子位· 2025-06-23 12:45

核心观点 - 上海创智学院与上海AI Lab提出的CPGD算法显著提升多模态模型的推理能力与训练稳定性，在数学、物理、化学、生物等学科表现优异 [1][2][14] - MM-Eureka系列工作开源了模型、代码、数据集及过程奖励模型，推动多模态强化学习领域发展 [3][25] - 强化学习在跨学科泛化能力上优于监督微调（SFT），但无法替代知识本身的缺失 [22][23] 算法与技术突破 CPGD算法 - 通过策略比值对数化和策略漂移项设计，解决传统强化学习（GRPO/RLOO）训练崩溃问题，性能提升11% [8][11] - 在7B/32B模型上验证：MMK12测试集平均提升21.8%，MathVista/MathVision分别提升8.5%/11.4% [1][14] - 新型KL估计器减少梯度方差，细粒度token级损失函数优化训练效率 [9][10] 多模态强化学习框架 - 基于OpenRLHF支持Qwen-VL/InternVL等模型，可扩展至32B-38B规模 [4][5] - 训练稳定性突破：双边裁剪、online filter等技术提升资源效率 [6][7] 模型性能表现 7B模型对比 - MM-Eureka-CPGD-7B在MMK12上超越QwenVL2.5-7B基准21.8%，Overall评分1.11 [13][14] - 对比GRPO算法（提升6%），CPGD将整体提升幅度扩大至11% [1][14] 32B模型对比 - MM-Eureka-CPGD-32B在MMK12测试集超越o1模型，物理/化学/生物学科表现突出 [2][15] - 接近闭源模型水平，Overall评分1.10（以QwenVL2.5-32B为基准） [15] 数据集与工具 MMK12数据集 - 覆盖K12阶段15k多模态数学题，含几何/函数/图形推理题型，额外提供2k跨学科选择题 [16][17] - 下载量超1700次，成为多模态推理基准 [17] MM-PRM过程奖励模型 - 通过500万数据训练+70万自动标注，提升推理路径严谨性，MMK12准确率提升9% [18][19][21] - 支持全自动过程监督，无需人工标注 [21] 行业影响与开源生态 - 模型下载超1万次，代码库获1000+ star，论文引用近100次 [3] - 完整开源技术方案包括训练框架、数据集、模型权重及技术报告 [25]

多模态推理

强化学习

Artificial Intelligence

Artificial Intelligence

MM-Eureka-CPGD-7B

MM-Eureka-CPGD-32B

MMK12