混合专家（MoE）架构 - 财报，业绩电话会，研报，新闻

GLM-4.5

智能体应用

GLM-4.5

MiniMax追着DeepSeek打

经济观察网· 2025-06-18 19:32

模型技术规格 - MiniMax M1模型支持100万个token的上下文长度，是DeepSeek R1（12.8万Token）的8倍，仅次于谷歌Gemini 2.5 Pro [1] - MiniMax M1总参数量为4560亿，每个token激活459亿参数，而DeepSeek R1总参数量6710亿但每个token仅激活370亿参数 [1] - 采用混合专家（MoE）架构，与DeepSeek R1相同 [1] 性能与成本优势 - 生成10万个token时仅消耗25%的浮点运算，64000个token推理任务计算能力需求不到DeepSeek R1一半 [2] - 强化学习阶段仅使用512块H800 GPU，耗时3周，成本53.5万美元，比预期低一个数量级 [2] - 核心技术包括线性注意力机制（Lightning Attention）和强化学习算法CISPO，后者通过裁剪采样权重提升效率 [2] 商业化定价策略 - API服务采用分级计费：0-32k Token档输入0.8元/百万Token，输出8元/百万Token；32k-128k档输入1.2元/百万Token，输出16元/百万Token；128k-1M档输入2.4元/百万Token，输出24元/百万Token [3] - 前两档定价低于DeepSeek R1（输入3.95元/百万Token，输出15.4元/百万Token），第三档为独有超长文本服务 [3] 行业动态与开源计划 - 宣布未来5天内每天发布一项新产品或新技术 [1] - 模型代码和权重已在Hugging Face和GitHub开源，支持透明检查与本地部署 [3] - DeepSeek R1曾以500-600万美元GPU成本训练出对标OpenAI o1的模型，引发行业争议 [2]

200亿AI独角兽反击，MiniMax首款推理模型对标DeepSeeK，算力成本仅53万美元

人工智能

MiniMax M1模型

华尔街见闻· 2025-06-17 19:57

核心观点 - 中国AI独角兽MiniMax推出首款推理模型M1，性能接近海外顶尖模型，部分任务超越DeepSeek、阿里、字节及OpenAI等[1][3] - M1采用混合专家架构和线性注意力机制，支持100万Token上下文输入，与谷歌Gemini 2.5 Pro并列业内最高[3] - 训练成本仅53.74万美元（约380万人民币），比预期少一个数量级[1][6] - 在生成64K token时算力消耗不到DeepSeek R1的50%，100K token时仅为其25%[1][7] 模型性能 - 总参数4560亿，每token激活参数459亿[3] - 在17个评测集中，SWE-bench软件工程能力测试超过55%，长上下文理解任务全球第二[4] - 数学测试AIME 2024得分86.0，接近Gemini 2.5 Pro的91.6[5] - 长上下文任务OpenAI-MRCR(128k)得分73.4，超越Claude 4的76.8[5] 技术架构 - 采用混合专家(MoE)架构和线性注意力机制(Lightning Attention)[3] - 开发新型强化学习算法CISPO，比字节DAPO算法训练效率提升2倍[6] - 使用512块英伟达H800 GPU训练三周完成强化学习[6] 商业策略 - 模型已开源并在MiniMax APP/Web端免费升级[8] - API采用区间定价策略，128k-1M区间价格显著低于DeepSeek-R1[8] - 被开发者评价为"性价比新王"，成为继字节豆包后的"价格杀手"[8] 行业定位 - 公司为腾讯和阿里巴巴支持的"AI六小龙"成员[9] - M1是5天发布周的首个产品，后续将推出智能体应用及视频/音乐模型[9] - 创始人称"第一次感觉到大山不是不能翻越"，展现技术突破信心[1][9]

MiniMax-M1

DeepSeek R1