新“SOTA”推理模型避战Qwen和R1？欧版OpenAI被喷麻了

模型发布与性能 - Mistral AI发布首款推理模型Magistral，包含Magistral Small（24B参数开源版本）和Magistral Medium（企业版）[4][5] - 与公司初期模型Mistral Medium 3相比，Magistral在AIME-24上的准确率提升50%[3] - Magistral Small在AIME-24准确率达70.7%，纯RL训练使AIME-24数学基准准确率从26.8%跃升至73.6%[18][20] 多语言与推理能力 - Magistral支持多语言推理，覆盖英语、法语、西班牙语等，解决欧洲语言推理效果不佳的问题[7] - 在AIME'24测试中，英语准确率73.6%，法语68.5%，西班牙语69.3%，德语66.8%[8] - 模型针对多步逻辑微调，提供可追溯的思考过程，实现大规模实时推理[10][15] 技术创新与训练方法 - 采用纯强化学习（RL）训练，改进GRPO算法，不依赖现有模型蒸馏数据[16][17] - 首创异步分布式训练架构，动态批处理优化提升训练效率，纯文本RL训练使多模态性能提升12%[20] - Magistral Medium的token吞吐量比大多数竞争对手快10倍，支持实时反馈[14] 行业对比与争议 - 官方未与最新版Qwen和DeepSeek R1对比，网友测试显示Qwen 4B性能相近，30B MoE效果更优[22][24] - 基准测试未纳入Qwen，且DeepSeek-R1数据非最新版（AIME-25准确率从70%升至87.5%）[1] - 开源权重版本Magistral Small采用Apache 2.0许可，但被质疑“欧洲OpenAI”不够开放[24]