多模态数学推理 - 财报，业绩电话会，研报，新闻

多模态数学推理

搜索文档

机器之心· 2025-08-27 18:40

核心观点 - We-Math 2.0是一个针对多模态数学推理的系统通过构建结构化知识体系和双向数据扩展策略提升模型推理能力[9][14][17] - 系统包含5层级知识体系覆盖491知识点和1819知识原理并采用三维难度建模和动态调度训练增强泛化能力[9][20][26] - 实验显示MathBook-7B模型仅用10K数据量在多个测试集平均性能提升超5% 超越部分大规模数据集模型[31][32] 知识体系构建 - 知识体系按定义-定理-应用思想设计包含5层级491知识点1819知识原理确保概念层次清晰且相互独立[14] - 知识点覆盖小学至大学及竞赛数学例如三角形面积细分基本公式海伦公式三角函数法等原理[14] - 构建方法融合人类专家教材维基百科设计和GPT-4o开源数据聚类最终由专家修正形成高质量体系[14] 数据集设计 - MathBook-Standard采用一题多图和一图多题策略每题标注多层级知识点覆盖全部1819知识原理[9][17] - 一题多图通过视觉变式提升同一知识泛化一图多题基于同一图像设计多问题考察不同知识[17] - 全部数据手动用Geogebra专业软件渲染确保高精度和高质量[11] 训练策略 - 训练分三阶段：先用1000条SFT数据冷启动微调改变输出范式再通过均值奖励以知识原理单位奖惩最后用动态调度提升泛化[10][23][26] - 动态调度根据错误类型调整数据包含知识增量调度视觉复杂度增加辅助元素语境复杂度拓展情境[26][27][28] - 模态增量调度针对新增视觉或语境复杂度专门训练对应样本[29] 性能结果 - MathBook-7B基于Qwen2.5-VL-7B开发在MathVista测试集达48.7分 MathVision73.0分 We-Math48.4分 MathVerse45.2分[31] - 平均性能较Qwen2.5-VL-7B提升超5% 在MathVista和We-Math展现优异知识泛化能力[31][32] - 仅用10K数据量达到与大规模数据集模型同等效果凸显高质量数据和知识体系高效性[32] 技术优势 - 三维难度建模从知识点数量视觉复杂度场景复杂度扩展题目每种子题扩展7难度层级[20][21] - SFT采用自然语言CoT优于结构化推理链少量数据即可释放强化学习潜力[40] - 模型在代数题准确率超50% 但几何题表现较差反映空间推理不足[42]

细粒度视觉推理链引入数学领域，准确率暴涨32%，港中文MMLab打破多模态数学推理瓶颈

量子位· 2025-06-16 18:30

多模态数学推理的挑战与突破传统方法的局限性 - 传统思维链推理方法在视觉与数学结合场景下表现不佳，易忽略视觉输入中的数学细节导致推理错误[2] - 现有视觉CoT方法存在三大瓶颈：粗粒度图像区域选择破坏数学元素关联性[4]、通用视觉编码器对数学图像感知力不足[5]、过度依赖外部工具导致高成本低通用性[6] MINT-CoT的创新设计 - 提出动态Interleave Token机制，通过计算隐藏层相似度实时选取最相关视觉token，实现文本与数学图像元素的细粒度融合[9] - 突破传统矩形区域限制，可灵活捕捉几何图形、坐标轴等结构化数学元素，支持任意形状视觉区域选择[9] - 采用轻量化架构设计，无需依赖外部工具即可完成端到端训练与推理[9] 数据与训练体系 - 构建5.4万条视觉交错推理样本数据集，通过四步流程实现token级图文对齐标注：网格划分→OCR文本映射→关键词提取→MLLM关联匹配[11] - 设计三阶段渐进训练策略：文本CoT微调→双损失监督的交错模态微调→强化学习优化视觉选择策略[13] 性能表现 - 在Qwen-VL-7B模型上应用MINT-CoT框架后，MathVista/GeoQA/MMStar三大基准分别提升32.59%/26.92%/23.2%[16] - 可视化结果显示模型能自主选择相关视觉token并与文本推理链动态交互，推理逻辑显著优于基线[15] 行业影响 - 该技术首次实现数学场景下视觉与思维链的深度融合，为结构化视觉推理建立新范式[17] - 方法论具备扩展性，未来可迁移至科学图表解析、工程图纸理解等专业领域[17]