Workflow
智谱GLM系列
icon
搜索文档
从“龙虾”到“爱马仕”,Agent越能干Token越费钱
第一财经· 2026-04-17 21:35
文章核心观点 - 2026年,AI智能体(Agent)赛道热度因大厂跟进达到新高度,行业共识认为模型能力需要落地执行,而智能体是目前的最佳载体 [3] - 智能体的核心发展逻辑已从“一问一答”的单轮交互,进化为“全链路端到端自主执行”的生产力工具,关键词是“全链路”与“自主性” [8] - 智能体自主能力的持续“沸腾”与成本控制之间的双向博弈,正推动行业从追求能力上限向平衡能力与成本转型 [14] Agent技术持续迭代 - 初代Agent因易失忆、易中断等稳定性问题未能大规模应用 [6] - OpenClaw阶段引入混合记忆,初步解决上下文丢失;Hermes构建分层持久记忆与主动检索,实现长期记忆不丢失;Harness进一步强化状态持久化与错误恢复机制,并补齐任务拆解、执行、校验、修正全流程闭环,共同解决了“上下文焦虑”与执行稳定性问题 [6] - OpenAI对Codex平台进行升级,新功能包括根据提示生成图像、学习用户偏好的记忆功能以及来自Slack等应用程序的主动建议,并使其能在后台控制MacOS应用程序,运行多个Agent以执行测试和前端开发等任务,集成了超过90个插件 [3][6] - Codex每周为超过300万用户提供服务,需求已远超编程范畴,此次升级首先在MacOS推出,Windows版本即将推出 [8] - 从OpenClaw到Hermes的迭代,本质是一条大模型、智能、自主、可信的完整AGI发展路径,智能体现已能自主完成编程、跨工具协作等复杂任务 [9] Token暴增背后的算力压力 - Agent需求带动Token调用量大幅提升,但亏损是大模型厂商面临的主要挑战,规模化后单条请求可能仍是负利润 [12] - 厂商通过提价、优化工程等方式应对Token需求暴增,以智谱GLM为例,其同模型、同配额的海外订阅/API价格几乎是国内版本的2至3.5倍 [12][13] - 智谱CEO张鹏解释,复杂任务的推理链路更长,完成任务的Token用量是简单问答的十至百倍,价格调整是成本变化的自然结果 [13] - Agent需求带动下的Token暴增存在资源浪费,部分被戏称为“代码垃圾”,业内无法精准计算高额AI Coding的实际ROI,有观点指出产品在完成任务时存在大量无效尝试 [13] - 行业正探索成本控制路径,例如Hermes通过工具集拆分、按需加载降低消耗;未来核心路径将是“云边端协同+大小模型编排”,用云端大模型规划任务,边缘/终端轻量化模型执行特定任务,避免大模型全程介入;企业OS、Token网关配额管理等方式也在落地,以实现成本透明化管控 [14]