“大模型第一股”加入“春节AI战”,交出最强旗舰模型GLM-5,从写代码转向写工程
36氪·2026-02-12 09:46

行业趋势:AI Coding能力向系统级与长程Agent任务迁移 - AI Coding正发生深层次能力迁移,开发者角色从“写代码”转向“编排AI Agent”[1] - 顶尖闭源模型如Claude Opus 4.6与GPT-5.2的表现,推动市场对大模型的“系统级能力”重新定价[1] - 开源领域,月之暗面发布的Kimi K2.5是主打超长上下文与多智能体协作的原生多模态模型,能调度上百子智能体完成跨领域复杂任务[1] 公司技术演进路径 - 公司技术路线清晰:从GLM-4开启“All Tools”时代,到GLM-4.5确立ARC原生融合架构,再到GLM-4.7扩展编程与逻辑边界,最新GLM-5是向“长程长时执行者”的跨越[2] GLM-5模型核心规格与架构 - 模型参数量从GLM-4.7的355B扩展至744B,预训练数据从23T token增加至28.5T token[4] - 采用名为“Slime”的强化学习框架,支持异步智能体强化学习,旨在让模型从长程交互中持续学习,以在处理数十步工程任务时保持策略一致性[4] - 集成DeepSeek的稀疏注意力机制,通过只对高相关性token执行完整注意力计算,在保持长文本处理能力的同时降低计算成本[4] - 该机制带来两大收益:维持长文本处理效果无损,同时大幅降低部署成本并显著提升Token Efficiency[5] GLM-5模型性能表现 - 在编程能力上对齐Claude Opus 4.5,在SWE-bench-Verified和Terminal Bench 2.0中分别获得77.8和56.2的开源模型最高分数,超过Gemini 3 Pro[6] - 在公司内部Claude Code评估集合中,其在前端、后端、长程任务等编程开发任务上显著超越GLM-4.7,平均增幅超过20%[8] - 在Agent能力上实现开源SOTA,在BrowseComp、MCP-Atlas和τ²-Bench等多个评测基准中取得开源第一表现[11] - 在Vending Bench 2测试中,模型模拟经营自动售货机公司一年,最终账户余额达到4432美元,经营表现接近Claude Opus 4.5[13] 实际应用案例评估 - Case 1: 一键克隆Web UI:整体完成度较高,可达80分,修改后基本可用,但在UI布局、字体气质、行高节奏、留白比例等细节上与原版存在差距,未达到高度统一的一比一复刻[17][20] - Case 2: 创建macOS Sonoma风格桌面模拟器:整体完成度较高,达到可交互的高质量演示级Demo水平,视觉结构清晰,但在字体精细度、间距统一性、动画流畅度、Dock物理感等细节层面仍有提升空间[21][22] - Case 3: 多智能体世界Pookie World:基于GLM-5构建,通过生物-心理框架为智能体注入叙事动机,能自发产生社交、冲突与协作,形成“非玩家依赖”的社会涌现,并具备角色防崩坏机制以保持人格一致性[23] - Case 4: 沉浸式论文探索工具:基于GLM-5开发,能将论文转化为视觉化动态卡片,支持自动抓取Hugging Face每日TOP10热门论文,该App已提交App Store申请,模型参与了从理解论文到产品构建的全过程[24] - Case 5: 简单常识题:针对“离家50米洗车建议开车还是步行”问题,早期匿名测试版Pony Alpha答错,而正式版GLM-5能够答对,后者克服了模型过度关注表面数值逻辑而忽视物理常识的倾向[25][29] 模型定位与市场价值 - GLM-5定位为面向复杂系统工程与长程Agent任务的基座模型,旨在为懂行的顶尖程序员提供对标顶尖闭源模型的可靠生产力[1] - 实测表明,该模型能帮助专业开发人员提效,但在无使用情景指导的简单提示下,对非专业人员效果差强人意,更适合专业程序员基于真实场景实现复杂、长时、系统级任务[30] - 模型在专业与非专业人员间表现差异明显,标志着大模型正从“玩具”走向真正的生产力工具[30] - 尽管号称能达到Claude Opus 4.6的体感,但在部分案例测试中最终呈现效果仍有肉眼可见的差距[31] - 相比价格昂贵的Claude Opus 4.6,开源的GLM-5展现出显著的性价比优势,在行家手中能发掘出不错的效果[31] - 开放与性价比的结合,构成了其独特的市场竞争力[33]

“大模型第一股”加入“春节AI战”,交出最强旗舰模型GLM-5,从写代码转向写工程 - Reportify