文章核心观点 - 智谱公司发布了全球首个专为“Agent”(代理,文中以“龙虾”代指)场景优化的模型GLM-5-Turbo,该模型深度优化了工具调用与多智能体协同能力,旨在处理复杂、长流程的任务,并推出了配套的“龙虾套餐”和AutoClaw应用,以降低使用门槛[1][2][9][10][58] 模型发布与定位 - 模型名称为GLM-5-Turbo,是智谱公司内测的Pony-Alpha-2模型的正式身份,被定位为全球首个“龙虾特供”模型[1][2] - 该模型在智谱自有的“龙虾测试”ZClawBench中,获得了国产模型综合成绩第一[11] 核心能力与优化 - GLM-5-Turbo深度优化了复杂工作流中的工具调用与多智能体协同能力,在处理高吞吐量的极限场景时表现出极强的稳定性[9] - 其优化重点完全面向Agent场景,能够将需求拆解成详细步骤,并指挥多个Agent助手分工合作,环节衔接顺滑[10][59][60] - 模型对时间维度的理解到位,能够稳定执行定点定时或长达数小时的任务而不中断[61] - 在编程方面,模型实现了从“Vibe Coding”到“智能体工程”的跨越,能够在极少人工干预下自主完成长程规划和系统交付[62] 产品套餐与接入方式 - 公司推出了“龙虾套餐”,包含个人版和Team版,39元可获得4000万Token[4] - 企业付费逻辑从“购买Token”转变为“雇佣一个数字员工”[63] - 企业用户可通过智谱开放平台BigModel.cn直接调用API,或通过“龙虾套餐”接入[64] - 在GLM Coding Plan中,Max版已纳入GLM-5-Turbo,Pro套餐将在本月支持,Lite套餐将在4月支持接入[65] - 用户可通过AutoClaw(澳龙)应用零门槛直接调用该模型,该应用能一键搞定环境安装并内置多种Skills(如图像、视频生成模型),使用积分即可调用,无需额外配置[14][16][29] 实测任务表现 任务一:小红书文案连载策划 - 用户要求以“AI每天帮我过沙雕生活”为主题,生成一套7天的小红书连载笔记,包含标题、正文、配图建议、话题标签和评论区引导话术[21] - 模型迅速生成了全部7天的文案,并给出了发布节奏建议,文案内容完整无废话[22] - 生成的每篇笔记结尾都设置了“未完待续”的钩子以引导关注,最后一篇还建议用投票预热第二季,旨在形成系列IP[23] - 文案风格抓住了AI的“冷幽默”与人类操作的反差感,符合平台调性[24][25][26] - 模型能根据指令将长文案拆分到独立文档,并调用内置Skills生成7篇文章的封面图及其他配图,将图片链接整理在README.md文件中[28][30][31] - 模型还能仿照小红书UI生成高度还原的HTML效果页[32][33] 任务二:全栈应用开发 - 用户要求开发一个本地运行的实用个人记账全栈应用,需支持记录支出、查看列表、删除记录、显示本月总支出和分类统计,并实现前后端分离[37] - 模型最初使用Node.js + Express + SQLite技术栈搭建程序[38] - 当发现用户电脑未安装Node.js时,模型未慌乱,转而检查可用环境并改用Python重写了后端,体现了环境适应能力[40] - 完成后,模型对代码进行了API测试,删除了之前的Node.js版本,并提供了启动脚本[41][42] - 启动后的应用在浏览器中运行正常,可实现数据的跨端(电脑端与手机端)同步与持久化存储,后台日志也证实了程序完整运行了前后端与数据库[44][45][46][48] 任务三:本地环境操纵与数据分析 - 用户扮演电商运营,提供了三个虚构平台(SkyTrade、GlobalHub、OceanMall)格式混乱(JSON、表格、纯文本)且包含脏数据的销售数据,要求进行数据清洗、汇总,并找出“退货黑洞”商品和顶级客户[50][51][52] - 模型通过编写Python程序,一次性完成了多平台数据对齐、清洗、结合成本配置计算净利润等复杂任务[54] - 程序运行后,不仅生成了Markdown格式的月度经营分析报告和财务汇总表,还在对话框直接汇报了整理结果,并回答了关于“退货黑洞”商品和“五大金主”客户的具体问题[53][55][56]
一手实测首个龙虾模型:长路径任务不失误,一人包揽全栈开发
量子位·2026-03-16 15:14