两位大模型从业者群友如何评价小米MiMo大模型？

大模型性能对比 - Llama-3 8B在BBH基准测试中得分为64 2 显著低于Gemma-2 9B的69 4和Qwen2 5 7B的70 4 而MiMo-7B以75 2领先[1] - 在GPQA-Diamond测试中 Qwen2 5以35 4的准确率表现最佳超过MiMo-7B的25 8[1] - MiMo-7B在SuperGPQA测试中获得25 1分略优于Qwen2 5的24 6[1] - 数学能力方面 MiMo-7B在AIME 2024测试中取得32 9的高分远超Qwen2 5的10 1[1] - 代码能力上 MiMo-7B在LiveCodeBench v5测试中获得32 9分显著高于Qwen2 5的5 0[1] 中文能力表现 - Qwen2 5在C-Eval中文测试中获得81 8的高分明显优于MiMo-7B的68 7[1] - CMMLU中文测试中 Qwen2 5以82 7分领先 MiMo-7B得分为70 9[1] - 预训练结果显示Qwen在中文问答方面具有明显优势而MiMo-7B表现相对较弱[1] 模型训练策略 - MiMo-7B通过预训练偏重数学和代码能力导致其他能力下降[1] - 强化学习主要提升数学和代码能力但提升幅度不大未见显著创新[1] - 7B模型在AIME测试中获得20多分是通过牺牲其他能力实现的技巧性高分而非结构创新[1] - 小尺寸模型可能采用蒸馏技术训练效果优于直接训练[4] - MiMo-7B使用"先进推理模型"合成数据进行训练[4] 行业讨论 - 参数规模差异大的模型不适合直接比较如MindGPT是千亿参数级别[3] - 小参数模型训练更快可专注特定指标展示实力[3] - 当前行业普遍采用合成数据策略 MindGPT也使用类似方法[7] - 理想汽车计划在2025年5月举办AI Talk第二季活动[9]