Workflow
Mathematical Reasoning
icon
搜索文档
小学数学题,大模型集体不及格!达摩院推出新基准VCBench
量子位· 2025-05-22 22:29
大模型数学能力评估 - 人类在小学数学题测试中平均得分93.30%,显著优于所有AI模型 [1][17] - 闭源模型Gemini2.0-Flash(49.77%)、Qwen-VL-Max(47.03%)、Claude-3.7-Sonnet(46.63%)表现最佳但未突破50%准确率 [1][17] - 开源模型整体表现低于闭源模型且参差不齐,可能与架构差异、多模态整合程度或训练数据质量有关 [17] VCBench基准特点 - 专为评估具备显式视觉依赖性的多模态数学推理任务设计,面向小学1-6年级数学问题 [4][5] - 强调vision-centric而非knowledge-centric,与儿童学习路径相符 [8][9][10] - 平均每个问题包含3.9张图像,显著高于现有基准,要求模型整合多图视觉线索 [12] 模型能力差异分析 - 大模型在逻辑推理类问题表现较好,但空间几何表现差,显示视觉和几何感知严重不足 [17] - 单图场景下模型表现平均比多图提升42.3%,Emu2-Chat单图性能飙升281.5% [22] - 思维链(CoT)对多步逻辑推理任务提升显著(Qwen-VL-Max在reasoning任务提升40%),但对感知型任务效果有限 [24] 错误类型分布 - 视觉感知错误占比最高(超50%),Gemini2-Flash达62%,是当前多模态模型主要瓶颈 [27][29] - 计算错误率4-7%,上下文误解错误率3-6%,Gemini2-Flash(3%)和Claude(4%)表现最佳 [27] - Claude逻辑错误率最高(33%),GPT-4o答案整合错误率最高(23%) [27][29]
DeepSeek开源新模型,数学推理能力大提升
虎嗅· 2025-05-01 08:48
模型发布与版本 - DeepSeek在Hugging Face正式发布DeepSeek-Prover-V2,同步上线模型卡及示例代码,共推出两个版本:7B和671B [1][4] - DeepSeek-Prover-V2-7B基于上一代V1.5模型,支持最长32K上下文输入 [4] - DeepSeek-Prover-V2-671B在DeepSeek-V3-Base基础上训练,推理性能最强 [4] 训练方法与技术 - 训练核心采用"递归+强化学习"组合,由DeepSeek-V3拆解复杂定理生成子目标和推理思路,再通过GRPO算法从候选方案中学习最优解 [3] - 训练分为两阶段:第一阶段采用"专家迭代"方法,模型通过解决难题反哺自身 [5];第二阶段迁移DeepSeek-V3数学知识并引入形式化数据,构建复杂推理路径 [6] - GRPO强化学习算法引导模型在32个候选证明方案中选择被Lean验证系统判定为正确的答案(奖励1分,否则0分) [8][9] 模型能力与特点 - 671B模型能力被"蒸馏"到7B模型,使小模型在资源有限设备上获得接近大模型的数学推理能力 [10][11] - 提供两种解题风格:快速模式(non-CoT)直接生成精炼答案;逻辑模式(CoT)详细展示推理过程 [12] - DeepSeek-V3负责拆解定理生成推理草图,7B模型完成子证明并拼接完整推理,形成"模糊思考+精确证明"机制 [14][15] 性能评估与数据集 - DeepSeek-Prover-V2-671B在MiniF2F测试中通过率达88.9%,成功解出PutnamBench数据集49道难题 [17] - 推出全新数学形式化数据集ProverBench,包含325道题目,涵盖AIME竞赛题、数论、代数、微积分等10个领域 [18][19] - 在15道AIME竞赛题中,DeepSeek-Prover-V2解出6道,DeepSeek-V3通过多数投票解决8道 [20] 行业趋势与方向 - 大型语言模型在"非正式数学推理"与"正式数学推理"间的表现差距明显缩小,逐步学会写出规范可验证的数学证明 [21][22] - 模型从生成内容迈向生成结构化逻辑,可能最早触碰通用人工智能的底层结构,推理能力成为知识系统边界的关键 [32][33][34] 商业化与部署 - 新模型遵循公开许可证,可通过Hugging Face平台免费下载并支持Transformers接口部署 [23][24] - Novita AI成为首批上线Prover-V2-671B推理服务的第三方提供商 [24]