Workflow
吴恩达关注的Ling-1T背后,蚂蚁Ling 2.0技术报告解密万亿模型开源配方
机器之心·2025-10-29 15:23

文章核心观点 - AI导师吴恩达关注蚂蚁集团开源的非推理模型Ling-1T,其性能直逼顶尖闭源模型,背后隐藏关键的技术转向[1][2][3] - 蚂蚁集团通过58页技术报告系统性地揭示了其构建强大、统一且可扩展模型基础的方法,核心设计哲学是"Every Activation Boosted"[4][6][7] - 报告的价值在于提供了一套可持续、可规模化、以提升推理能力为核心的高效范式,而不仅仅是展示模型成果[8][9] 模型性能表现 - Ling-1T在多项基准测试中表现卓越:C-Eval得分92.19,超越DeepSeek-V3.1-te的91.76和GPT-5-main的83.59[2] - 在代码生成方面优势明显:LiveCodeBench得分61.68,显著高于其他模型的48.02至48.95范围;CodeForces-rating达1901,高于Gemini 2.5 Pro的1675[2] - 数学推理能力突出:OlympiadBench-stem得分91.3,超过Gemini 2.5 Pro的89.57;AIME 2025得分70.42,接近Gemini 2.5 Pro的70.10[2] - 通用推理能力领先:ARC-AGI-1得分43.81,远高于其他模型的14.06至22.19范围[2] 架构设计与扩展定律 - Ling 2.0系列采用统一的高稀疏、细粒度MoE架构:总专家数256个,每次前向仅激活8个专家和1个共享专家,激活率低至3.5%[11] - 该架构实现近7倍的计算效率杠杆,相较于同等性能的密集模型[11] - Ling Scaling Laws建立了一套"AI风洞"实验系统,能以不到1%的成本通过小规模实验高保真预测万亿参数模型的性能和最优超参数[16][19] - 架构原生集成MTP,从底层设计强化数学与代码两大关键推理能力[19] 预训练与中训练策略 - 基于20T tokens的海量预训练数据,贯彻"推理优先"原则,高质量推理数据集占比从32%提升至46%[22] - 采用多阶段训练策略,将上下文窗口从4K逐步扩展至128K,在训练早期引入推理与链式思维数据[23] - 创新性引入中训练阶段,在预训练和SFT之间使用大量高质量思维链数据,提前激活模型推理潜能[24] - 采用WSM调度器替代传统学习率衰减,通过检查点合并实现收敛,为下游任务带来1-2%的平均性能提升[25] 后训练对齐创新 - SFT阶段采用DFT策略,让模型在同一套权重下学会"即时响应"和"深度推理"两种可控模式[32] - 核心创举是LPO算法,首次将语言单元作为RL策略更新的基础动作单元,在复杂推理任务上带来约10%的性能提升[36][38] - 引入GAR机制处理开放性主观任务,采用循环赛式相对比较降低评估噪声和方差[42] - 构建强大的统一奖励模型系统,可并发处理高达40K的异构奖励请求[45] 基础设施与工程优化 - Ling-1T是目前已知最大规模的完全使用FP8训练的开源模型,在1T参数和900B数据规模上实现与BF16几乎相同的损失表现,同时算力利用率提升15%[48] - 设计异构细粒度管线调度策略,成功将端到端训练吞吐量提升40%以上[52] - 通过一系列工程优化包括节点内DeepEP通信、融合算子等,将模型算力利用率从基线16.9%提升至31.4%[54] - 坦诚分享计算与通信重叠优化的失败教训,指出在万亿规模下必须建立算法与系统的协同优化[55][56] 行业影响与开源价值 - Ling 2.0技术报告提供了一套完整的、经过验证的、可从百亿扩展至万亿的AI基础模型标准作业流程[59] - 展示了不依赖无限算力堆砌的Scaling路线,通过极致工程、精准预测和创新算法实现高效扩展[59] - 为社区探索更高效、更强大、更通用的智能体奠定了坚实基础,体现开放与协作的技术决心[60]