Multi-Token Prediction - 财报，业绩电话会，研报，新闻

Multi-Token Prediction

搜索文档

36氪· 2026-02-10 21:28

GLM-5模型架构与参数曝光 - 新一代旗舰大模型GLM-5采用了DeepSeek-V3/V3.2架构，包括稀疏注意力机制（DSA）和多Token预测（MTP）[1][2] - 模型总参数量达到745B（7450亿），是上一代GLM-4.7（约355B）的2倍[2][6] - 架构包含78层隐藏层，采用MoE（混合专家）架构，共256个专家，每次推理激活8个，激活参数约44B，稀疏度为5.9%[5] - 上下文窗口支持最高202K token[5] - 复用DeepSeek架构意味着GLM-5可以直接受益于vLLM、SGLang等推理框架已有的优化，部署门槛更低[6] 匿名模型Pony Alpha与GLM-5的关联 - OpenRouter平台上出现的匿名免费模型「Pony Alpha」，被社区91%以上的用户判断为GLM-5测试版[2] - 该模型编程能力突出，能根据单条提示直接生成完整的功能性应用程序，在复杂推理和Agent工作流上表现出色[9] - 其出现的时间节点与智谱首席科学家唐杰多次暗示的GLM-5发布窗口完全吻合[11] - 模型的输出排版习惯也与GLM系列高度一致[13] 技术细节与行业对比 - GLM-5继承的核心技术包括DeepSeek稀疏注意力（DSA）和多Token预测（MTP）[5] - DSA通过两阶段流程提升长文本处理效率，输出质量几乎不受影响[5] - 与同行对比：GLM-5总参数745B，激活参数约44B；DeepSeek V3.2总参数约685B，激活参数约37B；Kimi K2总参数约1T（1万亿），激活参数约32B[6] - 有疑问指出，DeepSeek-V3架构以纯文本为主，GLM-5首发版本可能会因此缺失多模态能力[7] 发布窗口与市场影响 - GLM-5的发布窗口指向2026年2月中旬，即春节前后[15] - 同一时间段，DeepSeek新模型、Qwen 3.5、MiniMax M2.2等模型也都有消息将发布更新，形成异常拥挤的档期[15] - 受GLM-5相关消息影响，智谱AI港股股价在两日内暴涨60%[2]

智谱(HK:02513)

Artificial Intelligence

Sparse Attention

Multi-Token Prediction

Artificial Intelligence

GLM-5

Pony Alpha

Artificial Intelligence

Sparse Attention

Multi-Token Prediction

Artificial Intelligence

GLM-5

Pony Alpha