Workflow
Multi-Token Prediction
icon
搜索文档
GLM-5架构曝光,智谱两日涨60%:采用DeepSeek同款稀疏注意力
36氪· 2026-02-10 21:28
GLM-5模型架构与参数曝光 - 新一代旗舰大模型GLM-5采用了DeepSeek-V3/V3.2架构,包括稀疏注意力机制(DSA)和多Token预测(MTP)[1][2] - 模型总参数量达到745B(7450亿),是上一代GLM-4.7(约355B)的2倍[2][6] - 架构包含78层隐藏层,采用MoE(混合专家)架构,共256个专家,每次推理激活8个,激活参数约44B,稀疏度为5.9%[5] - 上下文窗口支持最高202K token[5] - 复用DeepSeek架构意味着GLM-5可以直接受益于vLLM、SGLang等推理框架已有的优化,部署门槛更低[6] 匿名模型Pony Alpha与GLM-5的关联 - OpenRouter平台上出现的匿名免费模型「Pony Alpha」,被社区91%以上的用户判断为GLM-5测试版[2] - 该模型编程能力突出,能根据单条提示直接生成完整的功能性应用程序,在复杂推理和Agent工作流上表现出色[9] - 其出现的时间节点与智谱首席科学家唐杰多次暗示的GLM-5发布窗口完全吻合[11] - 模型的输出排版习惯也与GLM系列高度一致[13] 技术细节与行业对比 - GLM-5继承的核心技术包括DeepSeek稀疏注意力(DSA)和多Token预测(MTP)[5] - DSA通过两阶段流程提升长文本处理效率,输出质量几乎不受影响[5] - 与同行对比:GLM-5总参数745B,激活参数约44B;DeepSeek V3.2总参数约685B,激活参数约37B;Kimi K2总参数约1T(1万亿),激活参数约32B[6] - 有疑问指出,DeepSeek-V3架构以纯文本为主,GLM-5首发版本可能会因此缺失多模态能力[7] 发布窗口与市场影响 - GLM-5的发布窗口指向2026年2月中旬,即春节前后[15] - 同一时间段,DeepSeek新模型、Qwen 3.5、MiniMax M2.2等模型也都有消息将发布更新,形成异常拥挤的档期[15] - 受GLM-5相关消息影响,智谱AI港股股价在两日内暴涨60%[2]