模型发布与市场反响 - 蚂蚁集团在短短十余天内连续开源三款大模型,最新发布的是全球首个开源万亿参数思考模型Ring-1T [3][6] - Ring-1T上线HuggingFace仅四天下载量便突破千次,显示出较高的市场关注度 [3] - 此次正式发布的Ring-1T完成了完整的训练流程,包括通过大规模可验证奖励强化学习和人类反馈强化学习进一步增强能力 [7] 技术性能表现 - 在IMO 2025测试中,Ring-1T首次尝试便解出4题全对,达到IMO银牌水平,成为首个在国际奥数赛题上取得获奖级成绩的开源系统 [7] - 在八个重要基准测试中,Ring-1T性能几乎全面超越其Preview版本,在ARC-AGI-v1、Arena-Hard-v2.0等高难度测试中表现尤为突出 [12][14] - 在逻辑推理任务ARC-AGI-v1上,Ring-1T刷新开源SOTA,显著领先Gemini-2.5-Pro,非常接近GPT-5-Thinking (High) [16] - 在ICPC World Finals 2025中,Ring-1T成功解出5题,表现超越Gemini-2.5-Pro (3题),逼近GPT-5-Thinking (6题) [19] 实际应用演示 - 在代码生成方面,Ring-1T能够快速生成功能完整的游戏代码,如Flappy Bird和贪吃蛇小游戏,实现交互功能与平滑动画 [20][23] - 模型在逻辑推理测试中表现出色,能够准确分析复杂情境并给出合理解答,如三只兔子赛跑问题和俱乐部成员身份推理题 [29][33] - 在创意写作领域,Ring-1T能够生成符合播客口语化风格的历史文案,语言生动且具吸引力 [40] 技术创新与工程突破 - 团队开发了强化学习算法IcePop,通过"双向截断+Masked Clipping"机制解决MoE模型训推不一致问题,显著提升训练稳定性 [45][46] - IcePop让模型在AIME25等复杂推理任务上成绩更优,输出更稳、更具多样性 [48] - 蚂蚁自研了强化学习基础框架ASystem,采用SingleController + SPMD架构,解决万亿规模训练的硬件资源调度与效率瓶颈 [50] - ASystem通过显存透明卸载与跨节点显存池化技术降低OOM风险,并实现权重秒级交换 [51] - 系统集成大规模Serverless Sandbox,支持毫秒级冷启动和10K/s吞吐量的奖励评估 [51] 开源战略与行业影响 - 蚂蚁集团在9-10月密集上线多款新品,平均每4天发布一个新模型,展现出快速迭代能力 [52] - 公司开源的不只是模型,还包括底层能力如强化学习框架AReaL,让社区能复用其在RL工程上的积累 [52] - 蚂蚁将开源视为AI普惠落地的现实路径,旨在让AI能力像电力与支付那样无处不在 [52]
蚂蚁Ring-1T正式登场,万亿参数思考模型,数学能力对标IMO银牌
机器之心·2025-10-14 14:33