GLM-5真够顶的：超24小时自己跑代码，700次工具调用、800次切上下文！

GLM-5模型的技术突破与工程能力 - 模型在无并行、无参考代码、关闭网络搜索的条件下，连续运行超过24小时，完成了700次工具调用和800次上下文切换，成功从零手搓了一个Game Boy Advance模拟器[3][11] - 该模拟器工程任务复杂，涉及500多条CPU指令集、内存分页机制、音频子系统和图形渲染时序，对AI的指令遵循和工程稳定性要求极高[9][10] - 在长任务执行中，模型展现出稳定的工具调用能力，第700次与第一次调用在语法、格式和准确度上无差异，且能稳定进行工作判断和上下文状态恢复[12][17] GLM-5模型的性能与基准测试表现 - 在权威榜单Artificial Analysis中，GLM-5达到了与Claude Opus 4.5比肩的水平[15] - 在衡量模型经营能力的Vending Bench 2基准测试中，GLM-5取得了开源第一的成绩[23] - 在主流基准测试中，其编程能力与Claude Opus 4.5对齐，展现出持久的指令遵循能力，即使在800次上下文切换后仍能遵守规范[17] GLM-5模型的实际应用与产品化案例 - 模型能够从零生成复杂的3D版大富翁游戏，并有人已申请将其上架App Store[26][27] - 用户利用模型制作了学术版“抖音”并提交上架苹果App Store，另有10余款APP计划上架[28] - 模型成功完成了对复杂物理规律描述的理解任务，例如根据详细Prompt使用three.js创建了一个光影交错的玻璃十二面体[33] - 模型能够胜任全栈类型任务，如制作完整且有设计感的电商网站，以及手搓3D版可交互的《我的世界》[34][35] GLM-5模型对行业的影响与意义 - 开源大模型GLM-5的出现，标志着AI从助手到独立工程师的质变，能够独立完成长周期、复杂的目标任务[37] - 其能力可能对SaaS行业构成冲击，此前Claude Opus等闭源模型展现长任务能力时，已引发市场对SaaS软件类股票的抛售担忧[38][39][40] - GLM-5将原本属于闭源巨头的长任务能力开源化，为所有开发者提供了重塑工具和创造的可能性[40] - 智谱公司的GLM系列模型从4.5版本开始专注于AI编程，其“coding套餐”在国内外市场反响热烈，GLM-5发布后甚至出现限售和外国网友“求”购的情况[41]