技术突破 - 公司开源全球首个大规模混合架构推理模型MiniMax-M1,成为全球前二的开源模型[1] - 模型包含4560亿个参数,459亿个激活函数,32层架构,支持100万上下文输入,为业内最高[8] - 模型在17个主流评测集上表现优异,如SWE-bench验证基准取得55.6%和56.0%的成绩[6] - 在长上下文理解任务中全面超越所有开源权重模型,在代理工具使用场景中战胜Gemini-2.5 Pro[6] 架构创新 - 采用独创的Lightning Attention神经网络架构和CISPO强化学习算法[11][17] - 每7个闪电注意力模块搭配1个softmax注意力模块,可将推理长度扩展到数十万token[12] - 计算复杂度从平方级降为线性,64token下FLOP消耗不到DeepSeek R1的50%[15] - 训练内核与推理内核相关性从0.9倍提升至0.99倍,增强执行一致性[20] 成本优势 - 强化训练成本降至53.74万美元,相比传统方法降低一个数量级[22] - 仅需512块H800显卡和三周时间完成训练[22] - CISPO算法用一半训练步数达到DAPO相当性能[18] 应用能力 - 百万级上下文窗口可处理超长合同、科研文献和完整代码库[11] - 在TAU-bench航空和零售场景分别取得60.0%和67.8%的成绩,领跑开源模型[6][24] - 支持XML格式工具描述,自动生成调用代码,降低开发者门槛[24] - 内置UI组件和交互应用能力,可快速生成3D动画、HTML页面和游戏[25] 行业影响 - 技术发布迅速占据VentureBeat、Seekingalpha等海外主流媒体版面[2] - 获得行业KOL深度解读并在TestTM等平台引发跨圈层讨论[2] - 公司技术路线连贯,从年初400万token处理能力迭代至百万级上下文[26] - 以业务为中心的技术策略增强企业对AI应用的信心[27]
53万美金训练出顶级AI?揭秘MiniMax的「省钱」绝招
36氪·2025-06-20 08:11