文章核心观点 - 2026年AI领域的核心主航道是Coding(编程)与视频,而Agent(智能体)是构建在这两大基础之上的关键方向 [3] - 智谱AI最新发布的开源大模型GLM-5在编程能力上取得重大突破,其整体能力已能比肩Claude Opus 4.5,标志着国产大模型在AI编程领域已跻身全球一线水平,显著缩小了与顶尖模型的差距 [3][12][71] - GLM-5凭借其接近顶级模型的能力、开源属性及极具竞争力的价格,正在急剧降低国内AI编程的门槛,有望推动AI应用的普及和生态的正向循环 [5][73] 模型性能与基准测试 - 参数规模:GLM-5从上一代的355B参数(32B激活)扩展到744B参数(40B激活),参数量扩大了一倍以上 [7] - 综合排名:在Artificial Analysis的跑分中,GLM-5位列开源模型第一,仅次于GPT-5.3-codex和Claude Opus 4.6等顶级闭源模型 [7] - 关键能力突破: - 在BrowseComp基准(测试Agent网上搜索信息能力)上得分为75.9,超过普通GPT-5.2模型10个百分点,与GPT-5.2 Pro(77.9分)接近 [12] - 在SWE-bench、Terminal-Bench 2.0、τ²-Bench、MCP-Atlas等涉及代码修改、终端操作、工具调用等现实场景的基准测试中,表现已接近Claude Opus 4.5 [12] - 在Long-horizon基准(测试长链条复杂任务规划与执行能力)上表现出色,与实测感受一致,在对标Opus 4.5的长程任务处理上具备竞争力 [12][16] - 效率与成本: - 上下文窗口为200K,输出为128K,与GLM-4.7一致 [16] - 模型非常节省Token,使用效率高,与GPT-5.3-codex类似 [16] - API价格极具竞争力:输入长度在0-32K tokens时,输入单价为4元/百万tokens,输出为18元/百万tokens;输入长度在32K+时,输入单价为6元/百万tokens,输出为22元/百万tokens [17] - 其API价格仅为Claude Opus 4.5/4.6(输入$5/百万tokens,输出$25/百万tokens)的约七分之一 [17][18] 产品化与市场反馈 - Coding Plan套餐:智谱推出了对标Claude Max和ChatGPT Pro的包月套餐,价格是Claude Max套餐的2/3,但提供的Token额度是后者的3倍,市场反响热烈,部分套餐因算力不足已被抢购一空 [19][20] - 开发生态集成:智谱提供了Coding Tool Helper工具,可便捷地将GLM-5集成到Claude Code、OpenCode、Crush、Factory Droid等主流编码工具中,降低了使用门槛 [20][23] - 开发者推荐组合:对于无法使用GPT-5.3-codex的用户,推荐使用“Claude Code + GLM-5”的组合,被视为国内可用、门槛最低的体验AI编程魅力的方案 [5] 实际应用案例评估 - 全平台内容分发Chrome扩展开发: - GLM-5能够根据简单提示词(如“开发一个全平台内容分发Chrome扩展…”)快速生成详细的项目规划和架构设计 [29][30][32] - 成功开发出支持微信公众号、小红书、知乎、掘金、CSDN、微博、今日头条等至少6个平台同步功能的扩展 [38][39] - 在开发过程中遇到一个关于正文提取不全的复杂BUG,GLM-5与Claude Opus 4.5均未能解决,最终由GPT-5.3-codex一轮完成修复,体现了GLM-5与顶尖模型在解决棘手问题上的细微差距 [40][41] - 欢乐斗地主PC模拟器记牌插件开发: - GLM-5能够根据模糊需求(“帮我写一个记牌插件”)主动进行技术咨询,提供包括Python+OCR识别、图像匹配、手动点击等多种实现方案供选择 [42][43][45] - 在自动识别方案遇到OCR识别失败的问题时,GLM-5能自主添加调试功能,定位问题环节,并最终采用图像模板匹配的方案成功实现记牌功能,识别效果良好(除大小王外) [51][53][55][58] - 其针对该复杂场景(涉及屏幕交互、图像处理)提出的技术方案,与Opus 4.6和GPT-5.3-codex给出的方案一致 [58] - 其他案例: - 成功复刻了一个包含作物生长、枯萎、杂草虫子等细节,并使用浏览器LocalStorage存储数据的QQ农场游戏,仅消耗约13万tokens [61][62] - 在封装yt-dlp为可下载视频的Skill时表现优异,一轮对话即成功封装,并能准确指出下载YouTube视频需要Cookies的关键点,优于Opus 4.5过去的表现 [65][66][67] 行业意义与竞争格局 - 竞争态势变化:GLM-5的出现,使得国产大模型在AI编程领域从过去“让人绝望的差距”缩小到“可以追赶的范围”,进入了与OpenAI和Anthropic同一维度的竞争赛道 [70][71][72] - 降低应用门槛:GLM-5“能力接近、开源免费、价格便宜”的特点,使得企业(B端)和个人都能以更低成本使用顶级AI编程能力,将加速AI编程在国内的普及 [73] - 推动生态发展:更低的使用门槛预计将吸引更多用户,从而形成更活跃的社区、更多的反馈,驱动模型更快迭代,形成正向循环 [73] - 持续迭代挑战:尽管差距缩小,但OpenAI和Anthropic仍在快速迭代,下一个版本可能再次拉开差距,竞争将持续 [73]
GLM-5深夜登场,这是国产开源模型首次逼平Claude Opus 4.5。
数字生命卡兹克·2026-02-12 09:25