智谱发布最强开源模型GLM-5.1：全球范围内首次突破8小时持续工作能力

在SWE-bench Pro上超越Opus 4.6。本文为IPO早知道原创作者｜ Stone Jin 微信公众号｜ipozaozhidao 据IPO早知道消息，智谱今日正式发布GLM-5.1，这是其迄今最智能的旗舰模型，也是目前全球最强的开源模型。 GLM-5.1大大提高了代码能力，在完成长程任务方面提升尤为显著。和此前分钟级交互的模型不同，它能够在一次任务中独立、持续工作超过8小时，期间自主规划、执行、自我进化，最终交付完整的工程级成果。在最接近真实软件开发的SWE-bench Pro基准测试中，GLM-5.1刷新全球最佳成绩，超过GPT- 5.4、Claude Opus 4.6。 SWE-Bench Pro要求模型在真实GitHub仓库中定位并修复高难度工程 Bug，是衡量模型能否胜任专业软件开发的最硬指标。事实上，过去两年，行业用Benchmark衡量模型有多智能。而在智谱看来，下一阶段的衡量标准应该是"能工作多久"，即模型在Long-Horizon Task中的表现，能独立完成多长时间的人类任务。在长程任务中保持稳定输出，模型面对的不只是更大代码量，而是一连串复杂的工程决策点：主 ...