大模型数学能力评测 - 七个大模型参与2025年数学新课标I卷测试,Gemini 2.5 Pro以145分位列第一,Doubao和DeepSeek R1以144分并列第二 [2] - 小米7B参数小模型MiMo-VL表现突出,总分139分与Qwen3-235B持平,仅比OpenAI o3低1分 [4] - MiMo-VL在7B参数多模态模型中优势显著,较同类Qwen2.5-VL-7B高出56分 [5] 细分题型表现 - 客观题部分(73分):MiMo-VL单选题得35分(总分40),多选题和填空题均获满分 [8][10][11] - 解答题部分(77分):MiMo-VL得71分位列第五,超越hunyuan-t1-latest和文心X1 Turbo [12] - 测试方法差异:MiMo-VL和Qwen2.5-VL-7B采用截图输入,其他模型使用文本Latex输入 [6] 小米MiMo-VL技术突破 - 模型基于MiMo-7B升级,在数学推理和代码竞赛中超越OpenAI o1-mini和阿里QwQ-32B-Preview [15] - 通过RL训练后,MiMo-7B-RL-0530版本达到与DeepSeek R1和OpenAI o3-mini相近水平 [16] - 多模态能力显著:在OlympiadBench等数学竞赛中领先10倍参数的Qwen-2.5-VL-72B和GPT-4o [20] 技术实现路径 - 采用混合在线强化学习算法(MORL),整合文本推理与多模态感知反馈信号 [27][29] - 预训练数据达2.4T tokens,涵盖图片-文本对、视频-文本对等多元数据类型 [28] - 模型已全面开源,包括技术报告、权重和评估框架 [32][33] 行业竞争格局 - 开源模型MiMo-VL-7B在内部评测中超越GPT-4o成为开源模型第一 [24] - 参数效率突破:7B模型性能比肩235B参数的Qwen3和闭源o3模型 [13][16] - 多模态赛道创新:GUI Grounding任务表现媲美专用模型 [18]
高考数学斩获139分!小米7B模型比肩Qwen3-235B、OpenAI o3