GLM-5真够顶的:超24小时自己跑代码,700次工具调用、800次切上下文!
量子位·2026-02-12 15:52

GLM-5模型的技术突破与工程能力 - 模型在无并行、无参考代码、关闭网络搜索的条件下,连续运行超过24小时,完成了700次工具调用和800次上下文切换,成功从零手搓了一个Game Boy Advance模拟器[3][11] - 该模拟器工程任务复杂,涉及500多条CPU指令集、内存分页机制、音频子系统和图形渲染时序,对AI的指令遵循和工程稳定性要求极高[9][10] - 在长任务执行中,模型展现出稳定的工具调用能力,第700次与第一次调用在语法、格式和准确度上无差异,且能稳定进行工作判断和上下文状态恢复[12][17] GLM-5模型的性能与基准测试表现 - 在权威榜单Artificial Analysis中,GLM-5达到了与Claude Opus 4.5比肩的水平[15] - 在衡量模型经营能力的Vending Bench 2基准测试中,GLM-5取得了开源第一的成绩[23] - 在主流基准测试中,其编程能力与Claude Opus 4.5对齐,展现出持久的指令遵循能力,即使在800次上下文切换后仍能遵守规范[17] GLM-5模型的实际应用与产品化案例 - 模型能够从零生成复杂的3D版大富翁游戏,并有人已申请将其上架App Store[26][27] - 用户利用模型制作了学术版“抖音”并提交上架苹果App Store,另有10余款APP计划上架[28] - 模型成功完成了对复杂物理规律描述的理解任务,例如根据详细Prompt使用three.js创建了一个光影交错的玻璃十二面体[33] - 模型能够胜任全栈类型任务,如制作完整且有设计感的电商网站,以及手搓3D版可交互的《我的世界》[34][35] GLM-5模型对行业的影响与意义 - 开源大模型GLM-5的出现,标志着AI从助手到独立工程师的质变,能够独立完成长周期、复杂的目标任务[37] - 其能力可能对SaaS行业构成冲击,此前Claude Opus等闭源模型展现长任务能力时,已引发市场对SaaS软件类股票的抛售担忧[38][39][40] - GLM-5将原本属于闭源巨头的长任务能力开源化,为所有开发者提供了重塑工具和创造的可能性[40] - 智谱公司的GLM系列模型从4.5版本开始专注于AI编程,其“coding套餐”在国内外市场反响热烈,GLM-5发布后甚至出现限售和外国网友“求”购的情况[41]

GLM-5真够顶的:超24小时自己跑代码,700次工具调用、800次切上下文! - Reportify