强化学习算法CISPO - 财报，业绩电话会，研报，新闻 - Reportify

强化学习算法CISPO

搜索文档

MiniMax追着DeepSeek打

经济观察网· 2025-06-18 19:32

模型技术规格 - MiniMax M1模型支持100万个token的上下文长度，是DeepSeek R1（12.8万Token）的8倍，仅次于谷歌Gemini 2.5 Pro [1] - MiniMax M1总参数量为4560亿，每个token激活459亿参数，而DeepSeek R1总参数量6710亿但每个token仅激活370亿参数 [1] - 采用混合专家（MoE）架构，与DeepSeek R1相同 [1] 性能与成本优势 - 生成10万个token时仅消耗25%的浮点运算，64000个token推理任务计算能力需求不到DeepSeek R1一半 [2] - 强化学习阶段仅使用512块H800 GPU，耗时3周，成本53.5万美元，比预期低一个数量级 [2] - 核心技术包括线性注意力机制（Lightning Attention）和强化学习算法CISPO，后者通过裁剪采样权重提升效率 [2] 商业化定价策略 - API服务采用分级计费：0-32k Token档输入0.8元/百万Token，输出8元/百万Token；32k-128k档输入1.2元/百万Token，输出16元/百万Token；128k-1M档输入2.4元/百万Token，输出24元/百万Token [3] - 前两档定价低于DeepSeek R1（输入3.95元/百万Token，输出15.4元/百万Token），第三档为独有超长文本服务 [3] 行业动态与开源计划 - 宣布未来5天内每天发布一项新产品或新技术 [1] - 模型代码和权重已在Hugging Face和GitHub开源，支持透明检查与本地部署 [3] - DeepSeek R1曾以500-600万美元GPU成本训练出对标OpenAI o1的模型，引发行业争议 [2]

Seek .(US:SKLTY)

大语言模型

强化学习算法CISPO

混合专家（MoE）架构

线性注意力机制（Lightning Attention）

MiniMax M1模型

大语言模型

强化学习算法CISPO

混合专家（MoE）架构

线性注意力机制（Lightning Attention）

MiniMax M1模型