“全球大模型第一股”智谱发布GLM-5技术报告,技术细节全公开
公司技术发布 - 智谱于2月22日发布了最新一代基础模型GLM-5,旨在推动编程范式从“氛围编程”转向“智能体工程” [2] - GLM-5在编程能力与智能体能力上表现出色,是下一代AI Agent更高效、更实用的基础模型 [2][8] 核心技术创新 - 引入DSA稀疏注意力机制,极大降低训练与推理成本,使模型能根据Token重要性动态分配注意力资源 [6] - 模型参数规模扩展至744B(7440亿),训练Token规模提升至28.5T(28.5万亿) [6] - 构建全新的异步RL基础设施,实现“生成与训练”深度解耦,将GPU利用率推向极致,支持大规模智能体轨迹探索 [7] - 提出全新的异步Agent RL算法,使模型能从多样化的长周期交互中持续学习,深度优化动态环境下的规划与自我纠错能力 [7] - 模型原生适配中国GPU生态,已完成从底层内核到上层推理框架的深度优化,全面兼容华为昇腾、摩尔线程等七大主流国产芯片平台 [7] 市场反响与战略意义 - 公司以代号“Pony Alpha”在顶级模型平台OpenRouter社区引发轰动,开发者注意到其在处理复杂代码、Agent任务链路及角色扮演时的卓越能力 [8] - 初步统计显示,25%的用户推测它是Anthropic的Claude Sonnet 5,20%认为是Grok的新版本,10%猜是DeepSeek V4 [8] - 此次匿名测试打破了地缘政治偏见,让社区认可回归技术本质,标志着公司研发重心已深度转向“工程级可靠性” [8] - 公司向社区开源GLM-5,以推动高效的、面向Agent的通用人工智能发展,并强调开源追赶闭源的战役仍在继续 [8][9]