文章核心观点 - Ling-1T作为一款万亿参数的开源大模型,通过高效的MoE架构实现了规模、速度与推理精度的兼顾,标志着大模型竞争正转向效率范式 [2][5][53] - 该模型在多项基准测试中表现亮眼,尤其在编程、数学推理等高推理密度任务上稳居第一梯队,同时实现了“万亿级储备,百亿级开销”的产业级落地 [3][8][53] - 蚂蚁集团通过开源Ling-1T及其底层技术,旨在降低AI应用门槛,推动技术普惠,特别是在金融、医疗等高合规要求的行业场景中 [71][72][74] 模型性能表现 - 在编程能力上,LiveCodeBench得分61.68,CodeForces-rating达1901,显著高于DeepSeek等对比模型 [7][8] - 在数学推理方面,Omni-Math与UGMathBench得分均突破74分,FinanceReasoning达到87.45,展现出强大的逻辑一致性 [7][8] - 知识理解维度表现出色,C-Eval得分92.19,MMLU-Redux得分92.25,OlympiadBench得分91.3,多项指标领先竞争对手1-3个百分点 [7][9][10] - 在AIME-25推理测试中准确率达70.42%,与Gemini-2.5-Pro精度相当,但消耗的token更少,实现了更高的思考效率 [14][15] 技术架构与效率创新 - 模型采用高效MoE架构,总参数规模达1T,但每次推理仅激活约500亿参数,通过“按需思考”机制实现低成本、高效率 [5][55][56] - 支持128K上下文长度,结合分组查询注意力技术,使长文档理解与敏捷响应兼得,推理速度不受长上下文拖累 [62][63] - 训练数据超过20T+ token的高质量、高推理浓度语料,为模型提供了更强的逻辑密度与思维深度 [55][66] - 采用三阶段精英教育训练路径,并自研WSM调度器和LPO优化方法,使模型在综合能力上普遍跑赢旧策略 [67][69][70] 实际应用与场景体验 - 在代码生成任务中能精准理解抽象视觉要求,完成度高,并展现出一定的审美能力 [19][21] - 具备强大的逻辑推理与科普能力,能用通俗比喻解释复杂概念如量子隧穿效应,有效降低理解门槛 [28][34] - 创意写作能力出色,能为播客节目撰写富有张力的开场白和可直接发布的小红书文案 [37][43] - 拥有工具调用能力,能执行复杂任务如推荐真实存在的小众徒步路线,并给出自洽的理由判断 [46][48] 行业影响与开源战略 - 2025年9月全球开源大模型数量较8月翻倍不止,中国力量表现亮眼,蚂蚁集团以“开源风暴”密集上线7款新品 [3] - 开源路线能降低技术迭代成本,加快版本演进,并通过社区的“质量与安全红队”效应降低边际改进成本 [72] - 开源透明性有助于金融、医疗等高合规行业审计决策路径,植入自有知识,在可控的安全边界内释放智能价值 [72] - 蚂蚁集团开源了从模型到训练框架的整套底层能力,旨在让AI能力像电力与支付一样无感却无处不在 [74]
更大,还能更快,更准!蚂蚁开源万亿参数语言模型Ling-1T,刷新多项SOTA
机器之心·2025-10-09 10:24