Workflow
强化学习算法CISPO
icon
搜索文档
MiniMax追着DeepSeek打
经济观察网· 2025-06-18 19:32
2025年2月,DeepSeek火爆出圈,除了免费和好用之外,还因其仅以500万至600万美元的GPU成本,就 训练出了与OpenAI o1能力不相上下的DeepSeek R1模型,引起行业震撼,不过这一成本数据也引发了广 泛争议。 MiniMax称,M1模型的整个强化学习阶段仅使用了512块英伟达H800 GPU,耗时三周,成本仅为53.5万 美元,这一成本"比最初的预期少了一个数量级"。 MiniMax解释,MiniMax M1的强文本处理能力和更低成本,背后是两大核心技术作为支撑,一是线性 注意力机制(Lightning Attention)混合构架和强化学习算法CISPO。例如,CISPO算法通过裁剪重要性 采样权重,而非传统算法中调整Token的更新方式,来提升强化学习的效率和稳定性。 经济观察报 记者 陈月芹 6月17日,MiniMax(稀宇科技)宣布其自主研发的MiniMax M1模型开源,并计划在未来5天内每天发 布一项新产品或新技术。而这款MiniMax M1模型,在关键技术规格、架构设计、上下文处理能力、训 练成本等维度全面对标DeepSeek R1,甚至是谷歌Gemini 2.5 Pro ...