Workflow
Autonomous Agent
icon
搜索文档
智谱发布最强开源模型GLM-5.1:全球范围内首次突破8小时持续工作能力
IPO早知道· 2026-04-08 11:38AI 处理中...
在SWE-bench Pro上超越Opus 4.6。 本文为IPO早知道原创 作者| Stone Jin 微信公众号|ipozaozhidao 据IPO早知道消息,智谱今日正式发布GLM-5.1,这是其迄今最智能的旗舰模型,也是目前全球最 强的开源模型。 GLM-5.1大大提高 了代码能力 ,在完成长程任务方面提升尤为显著。和此前分钟级交互的模型不 同,它能够在一次任务中独立、持续工作超过8小时,期间自主规划、执行、自我进化,最终交付完 整的工程级成果。 在最接近真实软件开发的SWE-bench Pro基准测试中,GLM-5.1刷新全球最佳成绩,超过GPT- 5.4、Claude Opus 4.6。 SWE-Bench Pro要求模型在真实GitHub仓库中定位并修复高难度工程 Bug,是衡量模型能否胜任专业软件开发的最硬指标。 事实上,过去两年,行业用Benchmark衡量模型有多智能。而在智谱看来,下一阶段的衡量标准应 该是"能工作多久",即模型在Long-Horizon Task中的表现,能独立完成多长时间的人类任务。 在长程任务中保持稳定输出,模型面对的不只是更大代码量,而是一连串复杂的工程决策点:主 ...
看看 Claude Code 怎么做 Harness,这才是 Agent 工程化的真正难点
Founder Park· 2026-04-01 21:36
Claude Code的架构核心与设计哲学 - 架构核心是一个名为“Harness”的本地运行时外壳,其工程化与可靠性是重点,系统基于Bun运行时构建,包含约1,900个TypeScript文件,超过512,000行代码 [4] - 系统被比喻为用于软件工作的操作系统,围绕模型堆叠了权限管理、记忆层、后台任务、IDE桥接、MCP管道和多代理编排 [6] - 代表了第三代Autonomous Agent的演进方向,即模型控制循环,运行时只是执行器 [7][10] TAOR循环与“笨”架构设计 - 执行引擎采用TAOR循环(Think-Act-Observe-Repeat),其编排器被设计得极其“愚蠢”,仅负责驱动循环、执行工具调用和感知结果,所有推理、决策和停止判断都交给模型 [8] - 核心设计哲学是“运行时越笨,架构越稳定”,将智能下沉到模型,把确定性留给框架,TAOR循环的核心逻辑大约只有50行 [9] - 工具层遵循同样哲学,仅提供四种能力原语(Read、Write、Execute、Connect),通过Bash作为通用适配器,让模型自行组合工具,而非构建大量专项工具 [9] 上下文窗口的主动管理与优化 - 将Context Window视为需要主动管理的稀缺资源,而非越大越好,核心原则是“越干净越好” [11] - 采用三层防御体系应对Context Collapse:1) 在上下文使用量达约50%时自动触发摘要压缩;2) 通过子Agent隔离,让重型任务在独立预算中运行,仅返回摘要;3) 实施精细的Prompt Cache经济学,追踪14种缓存失效向量并设计防破坏机制 [11][12][13] - 支持类似git branch的会话连续性管理,可以checkpoint、rollback或fork探索路径 [14] 记忆系统的索引化与分层设计 - 核心设计原则是“记忆是索引,不是存储”,避免存储可从代码库重新推导的信息 [16] - 记忆系统分为六层,在每次会话启动时按层加载,包括从组织策略到会话上下文的各级信息 [17][20] - 具备主动学习与自我编辑能力,Auto-Memory循环允许Agent学习用户工作模式并写入MEMORY.md,子Agent也可拥有独立、持续积累的专项记忆,系统会重写、去重或剪除矛盾及过期的记忆 [18] 可组合的权限与安全体系 - 权限系统设计为五档信任光谱,从最低信任的“plan”(只读)到最高信任的“bypassPermissions”(跳过所有检查),以适应从高度受限企业环境到个人开发全速运行的不同场景 [21][22] - 实施多层安全校验,bashSecurity.ts包含23项编号的安全检查,防御诸如Zsh equals expansion在内的绕过手段 [21] - 在HTTP传输层实现API调用DRM,通过Bun原生HTTP栈在JS层之下替换并验证加密哈希,确保请求来自真实的Claude Code二进制文件,这是其技术护城河的一部分 [23] 多代理编排:从子代理到代理团队 - 多代理编排采用横向扩展,分为子代理和代理团队两层 [24] - 子代理以独立进程运行,拥有独立的TAOR循环、上下文预算和记忆,任务完成后仅向主代理返回摘要,内置Explore、Plan和General-purpose三种预设类型,支持前台与后台两种执行模式 [25][26][28][29] - 代理团队是完全独立的Claude Code实例通过共享文件系统协调,采用共享任务列表、消息IPC等机制进行对等协作,目前仍是实验性功能 [30][31] 未来方向:KAIROS与常驻代理 - 源码中揭示了未发布功能KAIROS,这是一个常驻后台、持续运行的Always-On Agent [32] - KAIROS具备特征如/dream技能用于夜间记忆蒸馏、每日追加日志、通过GitHub Webhook感知代码库变化,代表产品形态从“召唤式”向“持续主动工作”演进 [33][34][39] - 这显示了产品向“终端操作系统级Agent”发展的野心 [34] 工程决策与商业防御机制 - 实施了Anti-Distillation机制,通过在API请求中注入虚假工具定义等方式,污染试图通过录制API流量来训练竞品模型的数据 [36] - 设计了Undercover Mode(隐身模式),当在非Anthropic内部仓库使用时,会指示模型永不提及内部信息,此模式为无法强制关闭的“单向门”,旨在防止信息泄露 [37][38] - 这些机制反映了公司在保护商业技术优势与应对竞争方面的策略性工程考量 [36][40]
华源证券:自主Agent开启第三次Scaling 建议关注国内高壁垒科技企业
智通财经网· 2026-02-06 16:19
文章核心观点 - Anthropic大幅上调未来收入预期,2026年收入预期上调至180亿美元,2027年收入预期上调至550亿美元,AI Agent在B端应用从降本增效进入驱动业务增长阶段,其渗透率提升是推动收入预期上修的关键杠杆 [1] - AI产业趋势明确,短期波动与长期验证并存,AI原生产品不断涌现,预期2026年将看到Agent的“Token->ARR”商业模型价值大幅上修 [1] - 行业正经历从C端生产力探索到群体智能初级形态的多样化发展,每次市场热点(FOMO)后都会留下新的场景和商业规则,推动Agent更接近商业化拐点 [3][4] Agent的产业变化与商业化进展 - Anthropic收入预期显著上调,其产品主要围绕B2B展开并提供API服务 [1] - Agent在B端应用已超越浅层的降本增效,进入驱动业务增长的阶段 [1] - Agent的token消耗量是传统聊天的数十倍,其渗透率提升成为撬动Anthropic收入上修的关键杠杆 [1] - 截至2025年11月,Anthropic的Claude Code年化经常性收入已超过10亿美元 [2] - 科技大厂正通过内嵌Agent争夺流量,例如谷歌Chrome嵌入Gemini等工具 [2] 市场竞争与流量格局演变 - OpenAI的ChatGPT在2026年1月的全球网页端流量份额已降至64.5%,较2025年1月下降约20个百分点 [2] - 在ChatGPT流量下滑后,OpenAI的增长叙事向混合收入模式迁移 [2] - 腾讯启动“上元宝,分10亿”春节活动,试图复刻微信支付借助春晚红包崛起的路径以争夺市场 [2] C端生产力探索与市场现象 - OpenClaw风靡带动Mac mini购买热潮,其通过高权限和本地网关帮助用户体验大模型在C端的生产力边界 [3] - 该现象本质上是产业趋势下的一次FOMO(错失恐惧症),因为C端用户对模型性能低敏感但对交互高敏感 [3] 群体智能的初级形态与平台发展 - Moltbook作为Agent版本的Reddit平台出圈,是基于OpenClaw开发的群体智能初级形态 [4] - 平台上存在超过150万个Agent,但真实运行的仅有数千个 [4] - Agent之间的社交被描述为“模仿游戏”,而非持续、互惠的情感交互 [4] - Agent通过读取Skill.md配置文件即可零摩擦接入平台,并通过心跳机制定期拉取指令执行 [4] - 每次市场FOMO后,都会留下新的场景、产品和商业规则,推动Agent更接近商业化拐点 [4] 产品与战略动向 - Anthropic发布Claude Cowork,阿里巴巴发布Qoder Work,核心思路是从Coding Agent向通用场景拓展 [2] 建议关注的投资标的 - 国产大模型:Minimax-WP(00100)、智谱(02513) [5] - Agent相关:合合信息(688615.SH)、鼎捷数智(300378.SZ) [5] - 基础设施:深信服(300454.SZ) [5] - 国产算力:芯原股份(688521.SH)、寒武纪(688256.SH)、海光信息(688041.SH) [5] - CPU相关:澜起科技(688008.SH)、兴森科技(002436.SZ) [5] - AIDC(AI数据中心)相关:麦格米特(002851.SZ)、中恒电气(002364.SZ)、东阳光(600673.SH)、潍柴重机(000880.SZ)等 [5]