文章核心观点 蚂蚁集团发布的百灵系列开源混合专家模型,在不使用高端GPU的情况下将计算成本降低20%,引发市场对英伟达“算力信仰”的质疑,也展现出中国在AI领域朝着技术独立和自给自足方向迈进 [1][2][12] 蚂蚁集团技术成果 - 3月初蚂蚁集团Ling团队发表技术成果论文,开发了百灵系列开源混合专家模型Ling - Lite(总参数16.8B)和Ling - Plus(总参数290B) [1] - 团队在模型预训练阶段使用较低规格硬件系统,将计算成本降低约20%,训练1万亿Token成本从635万元降至508万元,取得与使用高性能芯片模型相当效果 [1][4] - 技术成果论文《每一个FLOP都至关重要:无需高级GPU即可扩展3000亿参数混合专家LING大模型》已发表在预印本平台arXiv上 [4] - 实验表明参数规模300B左右的混合专家模型可在性能较低设备上有效训练,性能与同规模其他模型相当 [4] 模型性能表现 - Ling - Lite在英语理解能力关键基准测试中表现与Qwen2.5 - 7B相当,优于Llama3.1 - 8B和Mistral - 7B - v0.3 [5] - Ling - Lite和Ling - Plus在中文理解能力上明显优于海外模型Llama3.1 - 8B和Mistral - 7B - v0.3,Ling - Plus在部分基准测试中略优于DeepSeek - V2.5,与Qwen2.5 - 7B相当 [5] - 在数学和代码基准测试方面,Ling - Lite表现与Qwen2.5 - 7B - Instruct相当,优于Llama3.1 - 8B和Mistral - 7B - v0.3;Ling - Plus表现优于DeepSeek - V2.5,接近Qwen2.5 - 72B水平 [6] - 在工具使用方面,大多数情况下Ling - Plus和Ling - Lite在基准测试中取得最佳成绩 [8] - 在安全性方面,Ling - Plus和Qwen2.5 - 7B表现突出,Ling - Plus在错误拒绝方面表现更佳,且在安全性和错误拒绝整体平衡性上表现最佳 [8] 行业影响与市场反应 - 百灵系列混合专家模型推出标志蚂蚁集团加入AI领域竞赛,竞争因DeepSeek成果加速升级 [9] - DeepSeek曾引发资本市场恐慌,英伟达CEO认为更高效模型会刺激计算需求增长 [9] - 蚂蚁集团探索无高端GPU扩展模型训练能力路径,引发市场对英伟达“算力信仰”质疑,有工程师称是“做空英伟达的又一理由” [10] - 媒体认为蚂蚁集团技术突破是中国降低对西方技术依赖重要里程碑,展现中国朝着技术独立和AI自给自足方向迈进 [12]
做空英伟达的又一理由?蚂蚁集团发布最新AI成果:无需高端GPU,计算成本降低20%,训练1万亿Token只需508万元