Workflow
MinMax-M1:超越DeepSeek,支持百万级token上下文
自动驾驶之心·2025-06-21 21:15

核心观点 - 高效混合架构设计结合MoE架构与Lightning Attention的模型MiniMax-M1,支持百万级上下文窗口(1M tokens),生成长度达80K tokens时FLOPs仅为传统注意力模型的25%[2] - 超越DAPO的算法CISPO通过剪裁重要性采样权重提升RL效率,相比DAPO实现2倍加速[2] - 可扩展上下文支持从40K到80K Token生成长度的扩展[2] 当前面临的挑战 - 计算精度偏移:训练与推理阶段的计算精度差异导致Token概率偏移,需将LM头部输出精度提升至FP32以对齐概率分布[4] - 长生成稳定性问题:长文本响应容易出现输出不稳定,被截断的问题[5] - 奖励模型不稳定:奖励模型对长文本的偏好可能误导RL训练,需要在线校准机制[5] 核心方法 - 混合注意力架构:采用I/O感知的线性注意力计算,通过分块计算和内存优化,将长序列复杂度降低,每7层Lightning Attention后插入1层Softmax Attention[8] - CISPO算法:通过重要性采样权重裁剪保留所有token梯度,避免PPO/DAPO对关键低概率Token的奖励得分偏低[9][10][11] - 分阶段RL数据混合:从规则验证任务逐步过渡到通用领域任务,避免灾难性遗忘[13] - 持续预训练与SFT优化:在7.5T token上扩展STEM、代码数据占比至70%,采用语义去重和分层上下文扩展(32K→1M token)[13] 性能表现 - AIME 2024准确率86.0%(开源模型第二),MMLU-Pro表现接近闭源模型Seed-Thinking-v1.5[14] - OpenAI-MRCR (128k)表现76.1,OpenAI-MRCR (1M)表现58.6[14] - TAU-bench (airline)表现60.0,TAU-bench (retail)表现67.8[14] 数据与训练 - 预训练增强:在7.5T token上扩展STEM、代码数据占比至70%[13] - 监督微调:注入长链式思考模式,数学/编程数据占SFT数据的60%[13] - 上下文长度渐进扩展:从40K分阶段扩展至80K,根据困惑度与生成长度分布调整窗口[13]