Scaling Law - 财报，业绩电话会，研报，新闻

Scaling Law

搜索文档

36氪· 2026-02-11 07:57

智谱AI新模型GLM-5技术架构曝光 - 在春节前约一周，多个技术平台在48小时内接连出现智谱新模型GLM-5的线索，包括OpenRouter、vLLM和Hugging Face，形成了一条完整的信息链 [1] - 2月7日，OpenRouter平台上线代号为"pony-alpha"的模型，其思维链风格与智谱GLM系列高度吻合，在复杂代码生成任务中表现稳健，但缺乏图像等多模态输入支持 [2] - 2月9日，vLLM推理框架的代码提交中首次明确出现"GLM-5"标识，显示其实现逻辑复用了DeepSeek-V3系列模型采用的DSA稀疏注意力机制，并集成了MTP多标记预测技术 [4][5] - Hugging Face transformers仓库的代码提交正式引入了智谱的GlmMoeDsa架构，揭示了GLM-5的具体结构 [6] GLM-5模型架构与技术参数 - GLM-5采用78层Transformer解码器，前3层为稠密结构，第4层及以后采用混合专家架构，共配置256个专家网络，处理单个token时激活其中8个，并辅以1个共享专家以保证基础能力稳定 [6] - 模型上下文窗口扩展至202K，词表规模为154,880，相比前代GLM-4.7提升有限 [6] - 根据社区信息汇总，GLM-5总参数量约为7450亿，每次推理激活的参数量约为440亿 [8] - 模型采用"256专家+8激活"的MoE配置，在维持大规模参数总量的同时，单次推理只需调用约3%的参数，有效控制了计算成本和响应延迟 [9] 关键技术：效率优先的架构选择 - GLM-5集成了已被DeepSeek验证的稀疏注意力机制，其代码显示"GlmMoeDsaForCausalLM"类直接继承自"DeepseekV2ForCausalLM"，属于架构复用 [10] - DSA机制用精准筛选代替全文扫描，对于每个词，筛选出与之最相关的一部分词进行深度计算，使用ReLU代替Softmax作为激活函数，此流程仅消耗自注意力机制约5%的计算资源 [12] - 在128K上下文场景中，DSA取k=2048个最相关的历史词进行计算，可使计算量减少98%，实际测试在H800 GPU上处理长文本时能降低约40%至50%的推理成本，而核心任务上的性能损失不到1% [12][13] - 模型集成了多标记预测技术，该技术允许模型在前向计算中一次预测多个连续的词，以减少迭代次数，在代码、JSON、SQL等结构化文本生成任务中，能将token生成速度提升2-3倍 [13][15] 行业趋势与竞争格局 - 智谱创始人认为单纯的模型扩展是提升智能的“人类最轻松的偷懒方式”，GLM-5的技术路线呈现出明显的“效率优先”导向，而非继续堆砌参数 [7][9] - 智谱AI选择直接集成开源技术，体现了对研发效率的重视，也反映出国产大模型研发路径的转变，即“开源+优化”比“闭源+自研”更务实 [16] - AI行业即将告别参数规模的军备竞赛，转向专注于推理效率上的精细化运营，在控制计算成本的前提下，提升垂直表现将成为下一阶段竞争的关键维度 [17] - 基于社区测试，GLM-5在代码生成和逻辑推理场景具有优势和竞争力，有望在软件开发辅助、算法设计等垂直领域形成差异化价值，但其暂无多模态能力，在当前国内主流大模型普遍向多模态演进的背景下，这一缺失会限制其在AIGC创作场景中的适用性 [16]