高考数学斩获139分！小米7B模型比肩Qwen3-235B、OpenAI o3

大模型数学能力评测 - 七个大模型参与2025年数学新课标I卷测试，Gemini 2.5 Pro以145分位列第一，Doubao和DeepSeek R1以144分并列第二 [2] - 小米7B参数小模型MiMo-VL表现突出，总分139分与Qwen3-235B持平，仅比OpenAI o3低1分 [4] - MiMo-VL在7B参数多模态模型中优势显著，较同类Qwen2.5-VL-7B高出56分 [5] 细分题型表现 - 客观题部分（73分）：MiMo-VL单选题得35分（总分40），多选题和填空题均获满分 [8][10][11] - 解答题部分（77分）：MiMo-VL得71分位列第五，超越hunyuan-t1-latest和文心X1 Turbo [12] - 测试方法差异：MiMo-VL和Qwen2.5-VL-7B采用截图输入，其他模型使用文本Latex输入 [6] 小米MiMo-VL技术突破 - 模型基于MiMo-7B升级，在数学推理和代码竞赛中超越OpenAI o1-mini和阿里QwQ-32B-Preview [15] - 通过RL训练后，MiMo-7B-RL-0530版本达到与DeepSeek R1和OpenAI o3-mini相近水平 [16] - 多模态能力显著：在OlympiadBench等数学竞赛中领先10倍参数的Qwen-2.5-VL-72B和GPT-4o [20] 技术实现路径 - 采用混合在线强化学习算法（MORL），整合文本推理与多模态感知反馈信号 [27][29] - 预训练数据达2.4T tokens，涵盖图片-文本对、视频-文本对等多元数据类型 [28] - 模型已全面开源，包括技术报告、权重和评估框架 [32][33] 行业竞争格局 - 开源模型MiMo-VL-7B在内部评测中超越GPT-4o成为开源模型第一 [24] - 参数效率突破：7B模型性能比肩235B参数的Qwen3和闭源o3模型 [13][16] - 多模态赛道创新：GUI Grounding任务表现媲美专用模型 [18]