智能体外壳
搜索文档
同一个模型,换个Harness排名跳了25位:智能体基础设施完全解剖
深思SenseAI· 2026-04-12 20:27
Agent Harness 概念与重要性 - 智能体表现不佳的核心原因通常不是底层大模型的问题,而是包裹模型的外部软件基础设施——Agent Harness(智能体外壳)——存在问题[2][3] - Harness 被正式定义为包裹在大模型外部的全部软件基础设施,包括编排循环、工具调用、记忆系统、上下文管理、状态持久化、错误处理和安全护栏等,其复杂度可能远超业务逻辑本身[6] - 一个类比是,裸模型如同没有操作系统的 CPU,而 Harness 就是操作系统,上下文窗口是内存,外部数据库是磁盘,工具集成是设备驱动[8][9] Harness 的核心组件与架构 - 生产级 Harness 包含 12 个独立组件,其中最关键的包括编排循环、工具系统、记忆系统、上下文管理、错误处理和验证循环[10] - 编排循环是 Harness 的心跳,执行 Thought-Action-Observation 循环,本质上是一个管理轮次的 while 循环,但管理着复杂的终止条件和长任务连续性[11][12] - 工具系统是智能体的手,以 schema 形式注入上下文,例如 Claude Code 提供六类工具,OpenAI SDK 支持函数工具、托管工具和 MCP 服务器工具[12] - 记忆系统在多个时间尺度上运作,包括短期记忆和跨会话的长期记忆,Claude Code 实现了三层层级结构,关键设计原则是行动前先验证记忆[14] - 上下文管理的核心挑战是“上下文腐烂”,即使百万级长上下文窗口也无法免疫性能退化,生产环境策略包括压缩、观察遮蔽、按需检索和子智能体委派[18][19] - 错误处理至关重要,一个 10 步流程若每步成功率 99%,端到端成功率仅约 90.4%,错误被分为瞬态、模型可恢复、用户可修复和意外错误四类[22][23] - 验证循环是将玩具 demo 与生产级智能体区分开的关键,包括规则验证、视觉验证和“模型即裁判”三种方式,可将输出质量提升 2 到 3 倍[25][26][27] 行业实践与框架对比 - 主要框架的设计哲学各异:Anthropic 的 Claude Agent SDK 采用“傻循环”理念,将智能全放在模型端;OpenAI Agents SDK 强调代码优先;LangGraph 基于显式状态图;CrewAI 采用角色分工的三层结构[32] - 模型和 Harness 正在共同进化,例如 Codex 模型在特定 Harness 上表现更好,更换 Harness 可能导致性能下降,选择 Harness 就是选择了生态[34] - AutoGen 开创了对话驱动的编排,其三层架构支持顺序、并发、群聊、交接和 Magentic 五种编排模式,覆盖了几乎所有的多智能体协作场景[35] - LangChain 从 AgentExecutor 演进到 LangGraph,其 Deep Agents 明确使用了“Agent Harness”术语,说明行业正趋向统一的概念[34] 设计原则与发展趋势 - Harness 设计面临七个关键抉择,包括单智能体 vs 多智能体、工具范围策略和 Harness 厚度等,行业建议是先将单智能体做到极致,工具并非越多越好[29] - Harness 就像建筑工地的脚手架,随着模型能力增强,其复杂度应该降低,存在“共同进化原则”,好的设计应能在换上更强模型后自动提升性能而不增加 Harness 复杂度[36][37] - 对于 AI 产品团队,Harness 才是真正的产品,将 80% 的精力放在 Harness 优化上可能比换模型更有效,行业数据显示仅靠 Harness 优化就能在基准测试中提升 20 多名[39] - “少即是多”是重要原则,Vercel 砍掉 80% 的工具后表现反而更好,这与软件工程的古老直觉一致[40] - 未来的竞争是“模型 + Harness”组合的系统之战,行业正走向更薄的 Harness,但 Harness 作为管理上下文、执行工具、持久化状态和验证工作的结构性需求不会消失[40][42]