文章核心观点 蚂蚁集团使用国产AI芯片训练大模型可降低成本,推出两款性能领先的大语言模型,提出创新方法提升AI开发效率与可及性,且持续加码AI应用与人形机器人领域布局 [1][5] 自研大模型成果 - 蚂蚁集团Ling团队发表技术成果论文,推出百灵轻量版(Ling - Lite)与百灵增强版(Ling - Plus)两款MoE大语言模型,前者参数规模168亿(激活参数27.5亿),后者基座模型参数规模高达2900亿(激活参数288亿),性能达行业领先水平 [1] - 论文提出创新方法,3000亿参数的MoE大模型可在使用国产GPU的低性能设备上高效训练,性能与完全使用英伟达芯片、同规模的稠密模型及MoE模型相当 [1] 创新训练策略背景与目标 - MoE模型训练通常依赖高性能计算资源,成本高昂且英伟达高性能芯片短缺,低性能加速器供应充足且单机成本低,凸显构建跨异构计算单元与分布式集群无缝切换技术框架的必要性 [3] - Ling团队目标是“不使用高级GPU”扩展模型,通过创新训练策略突破资源与预算限制,推动AI技术普惠化 [3] 具体创新策略 - 架构与训练策略革新:动态参数分配与混合精度调度技术 [3] - 训练异常处理机制升级:自适应容错恢复系统缩短中断响应时间 [3] - 模型评估流程优化:自动化评测框架压缩验证周期超50% [4] - 工具调用能力突破:基于知识图谱的指令微调提升复杂任务执行精度 [4] 成本与性能优势 - Ling团队在五种不同硬件配置上对9万亿个token进行Ling - Plus预训练,使用高性能硬件配置训练1万亿token预训练成本约635万元,用蚂蚁优化方法后,低规格硬件训练成本降至508万元左右,节省近20%,实现与阿里通义Qwen2.5 - 72B - Instruct和DeepSeek - V2.5 - 1210 - Chat相当的性能 [4] - 若蚂蚁集团技术成果得到验证及推广,国产大模型可寻找成本更低、效率更高的国产芯片或替代方案,降低对英伟达芯片依赖 [4] AI应用布局 - 百灵大模型重点布局生活服务、金融服务、医疗健康等场景应用,基于该模型的生活管家、就医助理及金融助手是蚂蚁当下重点破局方向 [5] - 3月21日,蚂蚁宣布AI医疗领域进展,发布面向医疗机构、医生、用户三端的AI产品体系升级,包括“蚂蚁医疗大模型一体机”全栈式解决方案、AI医生助手系列工具、“AI健康管家”新功能 [5] 人形机器人布局 - 今年2月,蚂蚁集团开放招聘具身智能人形机器人系统和应用等岗位,年薪高达百万元 [5] - 去年12月,蚂蚁集团注册成立上海蚂蚁灵波科技有限公司,聚焦具身智能技术和产品研发 [5] - 3月11日,上海蚂蚁灵波科技有限公司在上海浦东举行揭牌仪式,致力在家庭、养老、医疗健康等领域打造行业领先机器人产品 [6] - 具身智能人形机器人市场前景广阔,蚂蚁集团布局该领域有助于探索新增长点,与现有金融科技业务产生协同效应,推动技术创新和业务升级 [6]
蚂蚁集团使用国产AI芯片训练大模型 成本可进一步降低