攻克大模型训推差异难题,蚂蚁开源新一代推理模型Ring-flash-2.0
机器之心·2025-09-19 18:43
核心技术创新 - 蚂蚁百灵团队推出Ring-flash-2.0开源模型 采用MoE+长思维链+强化学习技术路线 总参数量100B 激活参数量6.1B [1] - 独创棒冰(icepop)算法实现双向截断和掩码修正 通过冻结训推精度差异过大的token梯度回传 解决强化学习训练稳定性问题 [6] - icepop算法相比GRPO训练方法能避免180-200步后的训练崩溃 并将训推精度差异控制在合理范围内 [8][9][10][12] - 采用两阶段强化学习方案:先通过Long-CoT SFT训练让模型学会思考 再通过RLVR强化推理能力 最后加入RLHF优化格式和安全 [14][16] 性能表现突破 - 模型在数学AIME25测试中获得86.98分 CodeForces elo分数达90.23 性能达到40B以内密集模型的SOTA水平 [1] - 支持128K长上下文处理 在4张H20显卡部署下实现200+ token/s的生成速度 相对加速比最高达7倍以上 [21] - 通过1/32专家激活比和MTP层架构优化 仅激活6.1B参数即可等效撬动40B密集模型性能 [21] - 在数学 代码和逻辑推理等多领域推理榜单取得显著突破 [1] 行业影响意义 - 模型突破2025年行业存在的"死亡曲线"问题 解决长思维链场景下MoE模型RL训练奖励崩溃的难题 [5] - 推动大模型竞争进入"高性价比"时代 核心指标从参数数量转向成本效益 [18][25] - 首次实现Long-CoT+RL技术的工程可落地 同步解决训练稳定性 推理成本和开源生态问题 [26] - 开启MoE长思考高性价比时代 为高并发场景提供低成本推理解决方案 [21][26]