Workflow
新“SOTA”推理模型避战Qwen和R1?欧版OpenAI被喷麻了
量子位·2025-06-11 13:13

模型发布与性能 - Mistral AI发布首款推理模型Magistral,包含Magistral Small(24B参数开源版本)和Magistral Medium(企业版)[4][5] - 与公司初期模型Mistral Medium 3相比,Magistral在AIME-24上的准确率提升50%[3] - Magistral Small在AIME-24准确率达70.7%,纯RL训练使AIME-24数学基准准确率从26.8%跃升至73.6%[18][20] 多语言与推理能力 - Magistral支持多语言推理,覆盖英语、法语、西班牙语等,解决欧洲语言推理效果不佳的问题[7] - 在AIME'24测试中,英语准确率73.6%,法语68.5%,西班牙语69.3%,德语66.8%[8] - 模型针对多步逻辑微调,提供可追溯的思考过程,实现大规模实时推理[10][15] 技术创新与训练方法 - 采用纯强化学习(RL)训练,改进GRPO算法,不依赖现有模型蒸馏数据[16][17] - 首创异步分布式训练架构,动态批处理优化提升训练效率,纯文本RL训练使多模态性能提升12%[20] - Magistral Medium的token吞吐量比大多数竞争对手快10倍,支持实时反馈[14] 行业对比与争议 - 官方未与最新版Qwen和DeepSeek R1对比,网友测试显示Qwen 4B性能相近,30B MoE效果更优[22][24] - 基准测试未纳入Qwen,且DeepSeek-R1数据非最新版(AIME-25准确率从70%升至87.5%)[1] - 开源权重版本Magistral Small采用Apache 2.0许可,但被质疑“欧洲OpenAI”不够开放[24]