Workflow
200亿AI独角兽反击,MiniMax首款推理模型对标DeepSeeK,算力成本仅53万美元
华尔街见闻·2025-06-17 19:57

核心观点 - 中国AI独角兽MiniMax推出首款推理模型M1,性能接近海外顶尖模型,部分任务超越DeepSeek、阿里、字节及OpenAI等[1][3] - M1采用混合专家架构和线性注意力机制,支持100万Token上下文输入,与谷歌Gemini 2.5 Pro并列业内最高[3] - 训练成本仅53.74万美元(约380万人民币),比预期少一个数量级[1][6] - 在生成64K token时算力消耗不到DeepSeek R1的50%,100K token时仅为其25%[1][7] 模型性能 - 总参数4560亿,每token激活参数459亿[3] - 在17个评测集中,SWE-bench软件工程能力测试超过55%,长上下文理解任务全球第二[4] - 数学测试AIME 2024得分86.0,接近Gemini 2.5 Pro的91.6[5] - 长上下文任务OpenAI-MRCR(128k)得分73.4,超越Claude 4的76.8[5] 技术架构 - 采用混合专家(MoE)架构和线性注意力机制(Lightning Attention)[3] - 开发新型强化学习算法CISPO,比字节DAPO算法训练效率提升2倍[6] - 使用512块英伟达H800 GPU训练三周完成强化学习[6] 商业策略 - 模型已开源并在MiniMax APP/Web端免费升级[8] - API采用区间定价策略,128k-1M区间价格显著低于DeepSeek-R1[8] - 被开发者评价为"性价比新王",成为继字节豆包后的"价格杀手"[8] 行业定位 - 公司为腾讯和阿里巴巴支持的"AI六小龙"成员[9] - M1是5天发布周的首个产品,后续将推出智能体应用及视频/音乐模型[9] - 创始人称"第一次感觉到大山不是不能翻越",展现技术突破信心[1][9]