Workflow
DSA (DeepSeek Sparse Attention)
icon
搜索文档
GLM-5架构细节浮出水面:DeepSeek仍是绕不开的门槛
36氪· 2026-02-11 07:57
智谱AI新模型GLM-5技术架构曝光 - 在春节前约一周,多个技术平台在48小时内接连出现智谱新模型GLM-5的线索,包括OpenRouter、vLLM和Hugging Face,形成了一条完整的信息链 [1] - 2月7日,OpenRouter平台上线代号为"pony-alpha"的模型,其思维链风格与智谱GLM系列高度吻合,在复杂代码生成任务中表现稳健,但缺乏图像等多模态输入支持 [2] - 2月9日,vLLM推理框架的代码提交中首次明确出现"GLM-5"标识,显示其实现逻辑复用了DeepSeek-V3系列模型采用的DSA稀疏注意力机制,并集成了MTP多标记预测技术 [4][5] - Hugging Face transformers仓库的代码提交正式引入了智谱的GlmMoeDsa架构,揭示了GLM-5的具体结构 [6] GLM-5模型架构与技术参数 - GLM-5采用78层Transformer解码器,前3层为稠密结构,第4层及以后采用混合专家架构,共配置256个专家网络,处理单个token时激活其中8个,并辅以1个共享专家以保证基础能力稳定 [6] - 模型上下文窗口扩展至202K,词表规模为154,880,相比前代GLM-4.7提升有限 [6] - 根据社区信息汇总,GLM-5总参数量约为7450亿,每次推理激活的参数量约为440亿 [8] - 模型采用"256专家+8激活"的MoE配置,在维持大规模参数总量的同时,单次推理只需调用约3%的参数,有效控制了计算成本和响应延迟 [9] 关键技术:效率优先的架构选择 - GLM-5集成了已被DeepSeek验证的稀疏注意力机制,其代码显示"GlmMoeDsaForCausalLM"类直接继承自"DeepseekV2ForCausalLM",属于架构复用 [10] - DSA机制用精准筛选代替全文扫描,对于每个词,筛选出与之最相关的一部分词进行深度计算,使用ReLU代替Softmax作为激活函数,此流程仅消耗自注意力机制约5%的计算资源 [12] - 在128K上下文场景中,DSA取k=2048个最相关的历史词进行计算,可使计算量减少98%,实际测试在H800 GPU上处理长文本时能降低约40%至50%的推理成本,而核心任务上的性能损失不到1% [12][13] - 模型集成了多标记预测技术,该技术允许模型在前向计算中一次预测多个连续的词,以减少迭代次数,在代码、JSON、SQL等结构化文本生成任务中,能将token生成速度提升2-3倍 [13][15] 行业趋势与竞争格局 - 智谱创始人认为单纯的模型扩展是提升智能的“人类最轻松的偷懒方式”,GLM-5的技术路线呈现出明显的“效率优先”导向,而非继续堆砌参数 [7][9] - 智谱AI选择直接集成开源技术,体现了对研发效率的重视,也反映出国产大模型研发路径的转变,即“开源+优化”比“闭源+自研”更务实 [16] - AI行业即将告别参数规模的军备竞赛,转向专注于推理效率上的精细化运营,在控制计算成本的前提下,提升垂直表现将成为下一阶段竞争的关键维度 [17] - 基于社区测试,GLM-5在代码生成和逻辑推理场景具有优势和竞争力,有望在软件开发辅助、算法设计等垂直领域形成差异化价值,但其暂无多模态能力,在当前国内主流大模型普遍向多模态演进的背景下,这一缺失会限制其在AIGC创作场景中的适用性 [16]