智谱发布GLM-5技术细节:工程级智能,适配国产算力

模型能力与定位的转变 - 模型核心思路从比拼参数规模转向比拼系统工程能力,标志着从“追赶”到搭建自有技术体系的转变 [2] - 模型能力实现从“Vibe Coding”(根据指令生成代码片段)到“Agentic Engineering”(自主规划、拆解、执行并完成复杂系统任务)的概念升级 [3] - 模型重点评估指标从单题得分转向工程级智能,包括处理200K上下文、完成跨文件软件工程、长周期任务规划与修正以及多轮交互一致性等复杂能力 [4] - 在衡量长期决策能力的Vending-Bench 2基准测试中,GLM-5在开源模型中排名第一,性能接近Claude Opus 4.5 [4] 核心技术创新:稀疏注意力与训练效率 - 采用创新的DeepSeek稀疏注意力机制,模型拥有7440亿参数,但激活参数为400亿,训练了28.5万亿个token [6] - DSA机制能动态判断关键token,在200K长上下文下将注意力计算量降低1.5至2倍,且实现了无损的性能,未牺牲精度 [7][8][9] - 对强化学习体系进行彻底改造,采用生成与训练解耦的异步架构,大幅提升训练吞吐量,解决了持续数小时的真实软件工程任务的学习稳定性问题 [11][13] - 技术创新实现了在同等算力下支持更长上下文、同等成本下获得更高推理能力、同等硬件下运行更大模型的效果 [12] 国产算力生态深度适配 - GLM-5实现了对国产GPU生态的原生深度适配,已兼容华为昇腾、摩尔线程、海光、寒武纪、昆仑芯、天数智芯、燧原等芯片 [14] - 适配重点在于解决国产芯片的软件栈难点,是面向多种国产算力平台的系统级优化,而非简单的“能跑” [14] - 通过软硬协同极致优化,GLM-5在单台国产算力节点上的性能可媲美由两台国际主流GPU组成的集群,在长序列处理场景下部署成本大幅降低50% [14] 完整的国产AI工程体系形成 - 技术路径形成完整闭环:从模型架构创新、训练效率优化、内存与通信压缩、低精度对接到国产芯片深度适配 [15] - 标志着中国AI产业优势从应用层开始进入架构创新、算法工程、训练系统、芯片适配、推理框架的全栈优化阶段 [15] - 技术报告详细披露训练流程、工程权衡与消融实验,关注GPU利用率、长尾延迟、KV cache复用等工业级系统问题,体现了技术成熟度 [18] - 此次突破的核心意义在于首次展示了中国AI在“体系能力”上的竞争力,实现了从做大模型到打通自有算力适配的跨越 [15][18]