性能比肩DeepSeek-R1，MiniMax仅花380万训出推理大模型性价比新王｜开源

模型发布与性能表现 - 国产推理大模型MiniMax-M1开源引发行业热议[1][2] - 模型在512块H800 GPU上仅用3周完成强化学习训练算力成本仅53.47万美元（约383.9万元）[3] - 在工具使用和软件工程等复杂任务上超越OpenAI o3和Claude 4 Opus 在多项基准测试中可比或超越DeepSeek-R1、Qwen3等开源模型[4] - 原生支持100万token输入长度（达DeepSeek R1的8倍）支持8万输出token（超过Gemini 2.5 Pro的6.4万）成为世界最长输出生成10万token时推理算力仅需DeepSeek R1的25%[8] - 已集成至MiniMax Chat网页版提供在线试玩支持迷宫生成器等动态可视化演示[6][9] 技术创新与架构设计 - 采用混合注意力架构每7个Lightning Attention块后接1个传统Softmax Attention块[11][17] - Lightning Attention通过分块计算策略（块内传统注意力+块间线性注意力）将计算复杂度从平方级降低支持数十万token扩展[12][15][18] - 提出CISPO算法替代传统PPO/GRPO 通过裁剪重要性采样权重保留低概率关键token（如反思token）的梯度贡献在Qwen2.5-32B实验中实现2倍训练加速[19][20][21][23] - 针对训练推理精度不匹配问题将输出头精度提升至FP32使概率相关性从0.9x升至0.99x 并开发基于token概率的早停机制（连续3000个token概率超0.99时终止）[25][27] 训练流程与数据构建 - 基于MiniMax-Text-01继续预训练7.5万亿token STEM、代码和推理内容占比提升至70% 后通过监督微调注入链式思考模式[28] - 强化学习阶段构建多维度训练环境：数学推理与竞赛编程 SynLogic框架合成41类逻辑推理任务（5.3万样本） SWE-bench真实软件工程沙箱环境[29] - 采用生成式奖励模型解决通用任务反馈通过动态调整规避长度偏见问题上下文窗口通过阶段性扩展策略从4万逐步提升至8万[29] 基准测试结果 - 数学推理：AIME 2024达86.0分（对比DeepSeek-R1 85.7分） MATH-500达96.8分[31] - 长上下文：OpenAI-MRCR（128k）达73.4分（对比OpenAI o3 48.9分） LongBench-v2达61.5分[31] - 软件工程：SWE-bench Verified达56.0分（对比Claude 4 Opus 72.5分）[31] - 工具使用：TAU-bench（airline）达62.0分（对比OpenAI o3 59.6分）[31] 生态布局与行业影响 - 模型权重与技术报告已在HuggingFace和GitHub开放[7][37] - 此次发布为"MiniMaxWeek"5日活动的首日预示后续将有海螺AI视频模型（Hailuo 02）等新产品发布[33][35]