Seek .-MiniMax开源首个推理模型，456B参数，性能超DeepSeek-R1，技术报告公开

模型发布与核心特性 - 公司发布全球首个开源大规模混合架构推理模型MiniMax-M1，并宣布为期五天的连更计划[2] - M1模型参数规模为4560亿，每个token激活459亿参数，原生支持100万上下文输入和8万token推理输出[4] - 模型提供两个版本，思考预算分别为40k和80k[4] - 在复杂的软件工程、工具使用和长上下文任务方面，M1表现优于DeepSeek-R1和Qwen3-235B等开源模型[4] 技术架构与创新 - M1基于MiniMax-Text-01模型开发，采用混合专家架构和闪电注意力机制[16] - 闪电注意力机制可高效扩展测试时计算，在10万token生成长度下仅需消耗DeepSeek-R1 25%的FLOP[16] - 公司开发了RL扩展框架并提出CISPO新算法，该算法在AIME实验中比DAPO等强化学习算法收敛速度快一倍[16] - 在相同训练步数下，CISPO性能优于GRPO和DAPO；使用50%训练步数时，CISPO可达到与DAPO相当性能[17] 性能基准测试 - 在软件工程能力测试集SWE-bench Verified中，M1-40k和M1-80k表现略逊于DeepSeek-R1-0528，但优于其他开源模型[14] - 在Agent工具使用测试集TAU-bench中，M1-40k在航空业测试中优于其他开源和闭源模型，在零售业测试中与DeepSeek-R1表现相当[14] - 在OpenAI发布的MRCR测试集中，M1表现略逊于Gemini 2.5 Pro，但优于其他模型[13] - 在数学、编程能力方面，M1得分相比Qwen3-235B-A22B、DeepSeek-R1、Claude 4 Opus等模型较低[14] 训练成本与商业化 - 模型强化学习阶段使用512块H800训练三周，租赁成本为53.74万美元，比预期少一个数量级[7] - M1在MiniMax APP和Web上支持不限量免费使用[7] - API定价采用三档结构：输入长度0-32k时输入0.8元/百万token、输出8元/百万token；32k-128k时输入1.2元/百万token、输出16元/百万token；128k-1M时输入2.4元/百万token、输出24元/百万token[7] - 在标准时段，M1第一档输入价格是DeepSeek-R1的80%、输出价格为50%；第二档输入价格是DeepSeek-R1的1.2倍、输出价格相同[9] 行业竞争与定位 - 模型输入长度与闭源模型谷歌Gemini 2.5 Pro一致，是DeepSeek-R1的8倍[4] - 第三档价格是M1的绝对优势区，DeepSeek-R1不支持128k-1M的输入长度[9] - 几乎同时，月之暗面也开源了编程模型Kimi-Dev，编程能力强过DeepSeek-R1[11] - 未来大模型需要"富语言中介"来进行数十到数百轮推理，并集成来自不同来源的长上下文信息[19]