MiniMax开源首个推理模型,456B参数,性能超DeepSeek-R1,技术报告公开
Seek .Seek .(US:SKLTY) 36氪·2025-06-17 16:15

模型发布与核心特性 - 公司发布全球首个开源大规模混合架构推理模型MiniMax-M1,并宣布为期五天的连更计划[2] - M1模型参数规模为4560亿,每个token激活459亿参数,原生支持100万上下文输入和8万token推理输出[4] - 模型提供两个版本,思考预算分别为40k和80k[4] - 在复杂的软件工程、工具使用和长上下文任务方面,M1表现优于DeepSeek-R1和Qwen3-235B等开源模型[4] 技术架构与创新 - M1基于MiniMax-Text-01模型开发,采用混合专家架构和闪电注意力机制[16] - 闪电注意力机制可高效扩展测试时计算,在10万token生成长度下仅需消耗DeepSeek-R1 25%的FLOP[16] - 公司开发了RL扩展框架并提出CISPO新算法,该算法在AIME实验中比DAPO等强化学习算法收敛速度快一倍[16] - 在相同训练步数下,CISPO性能优于GRPO和DAPO;使用50%训练步数时,CISPO可达到与DAPO相当性能[17] 性能基准测试 - 在软件工程能力测试集SWE-bench Verified中,M1-40k和M1-80k表现略逊于DeepSeek-R1-0528,但优于其他开源模型[14] - 在Agent工具使用测试集TAU-bench中,M1-40k在航空业测试中优于其他开源和闭源模型,在零售业测试中与DeepSeek-R1表现相当[14] - 在OpenAI发布的MRCR测试集中,M1表现略逊于Gemini 2.5 Pro,但优于其他模型[13] - 在数学、编程能力方面,M1得分相比Qwen3-235B-A22B、DeepSeek-R1、Claude 4 Opus等模型较低[14] 训练成本与商业化 - 模型强化学习阶段使用512块H800训练三周,租赁成本为53.74万美元,比预期少一个数量级[7] - M1在MiniMax APP和Web上支持不限量免费使用[7] - API定价采用三档结构:输入长度0-32k时输入0.8元/百万token、输出8元/百万token;32k-128k时输入1.2元/百万token、输出16元/百万token;128k-1M时输入2.4元/百万token、输出24元/百万token[7] - 在标准时段,M1第一档输入价格是DeepSeek-R1的80%、输出价格为50%;第二档输入价格是DeepSeek-R1的1.2倍、输出价格相同[9] 行业竞争与定位 - 模型输入长度与闭源模型谷歌Gemini 2.5 Pro一致,是DeepSeek-R1的8倍[4] - 第三档价格是M1的绝对优势区,DeepSeek-R1不支持128k-1M的输入长度[9] - 几乎同时,月之暗面也开源了编程模型Kimi-Dev,编程能力强过DeepSeek-R1[11] - 未来大模型需要"富语言中介"来进行数十到数百轮推理,并集成来自不同来源的长上下文信息[19]

Seek .-MiniMax开源首个推理模型,456B参数,性能超DeepSeek-R1,技术报告公开 - Reportify