GLM-5真够顶的：超24小时自己跑代码，700次工具调用、800次切上下文

模型性能突破 - GLM-5具备卓越的长任务处理与工程能力，能够连续运行代码超过24小时，期间稳定完成700次工具调用和800次上下文切换[2] - 模型在无并行、无参考代码、关闭网络搜索的严苛条件下，从零开始手写JavaScript代码，成功创建了一个功能完整的Game Boy Advance模拟器，该任务涉及处理500多条CPU指令集、内存分页、音频子系统和图形渲染时序等复杂工程[7] - 在长任务执行中展现出高度稳定性和可靠性，具体表现为：工具调用在语法、格式和准确度上从第1次到第700次无差异；即使经过800次上下文切换，仍能严格遵守元提示的规范和流程；能自主判断何时进行测试、记录信息或切换策略；每次上下文清空后，能准确从笔记和文件中恢复工作状态[7] 基准测试表现 - 在权威榜单Artificial Analysis的评测中，GLM-5达到了与Claude Opus 4.5比肩的水平[10] - 在业内主流基准测试中，GLM-5的编程能力实现了与Claude Opus 4.5对齐[12] - 在衡量模型经营能力的Vending Bench 2测试中，GLM-5取得了开源模型第一的成绩[18] 实际应用与开发潜力 - 模型能够从零生成复杂的3D游戏，例如3D版大富翁，并能根据更精细的提示实现如“龙虾版3D大富翁”对战等高级功能[22][24] - 已有用户利用GLM-5开发了学术版“抖音”应用，并已提交上架苹果App Store，另有10余款APP准备上架[24] - 模型能精准理解并实现复杂的物理规律描述和视觉效果需求，例如使用three.js创建具有多层玻璃壳和动态外观变化的十二面体[27] - 模型具备全栈开发能力，可以制作完整且有设计感的电商网站，以及手搓3D版可交互的《我的世界》[27] 行业影响与意义 - GLM-5标志着开源大模型完成了一次从“助手”到“独立工程师”的质变，能够接受目标后自主执行长任务，极大减少人工调试[29] - 其开源特性将原本属于闭源巨头的长任务和工程能力交到了所有开发者手中，可能对SaaS行业构成冲击，此前市场已因Claude Opus等闭源模型的长任务能力而出现恐慌，导致金融数据服务商FactSet盘中暴跌10%，以及S&P Global、穆迪等公司股价下跌[29] - 模型的出现可能重塑软件行业，引发投资者对年费软件模式的担忧，因为AI能够现场创建如CRM系统等复杂软件[29] 市场反响与公司动态 - GLM系列模型从4.5版本开始专注于AI编程，其“coding套餐”在国内外市场反响火爆[30] - GLM-5发布后，智谱公司采取了限售策略，导致外国网友出现“求”购状态[30] - 智谱公司大楼已成为一个打卡点，显示出产品的高关注度[30]