智能体外壳 - 财报，业绩电话会，研报，新闻

智能体外壳

搜索文档

深思SenseAI· 2026-04-12 20:27

Agent Harness 概念与重要性 - 智能体表现不佳的核心原因通常不是底层大模型的问题，而是包裹模型的外部软件基础设施——Agent Harness（智能体外壳）——存在问题[2][3] - Harness 被正式定义为包裹在大模型外部的全部软件基础设施，包括编排循环、工具调用、记忆系统、上下文管理、状态持久化、错误处理和安全护栏等，其复杂度可能远超业务逻辑本身[6] - 一个类比是，裸模型如同没有操作系统的 CPU，而 Harness 就是操作系统，上下文窗口是内存，外部数据库是磁盘，工具集成是设备驱动[8][9] Harness 的核心组件与架构 - 生产级 Harness 包含 12 个独立组件，其中最关键的包括编排循环、工具系统、记忆系统、上下文管理、错误处理和验证循环[10] - 编排循环是 Harness 的心跳，执行 Thought-Action-Observation 循环，本质上是一个管理轮次的 while 循环，但管理着复杂的终止条件和长任务连续性[11][12] - 工具系统是智能体的手，以 schema 形式注入上下文，例如 Claude Code 提供六类工具，OpenAI SDK 支持函数工具、托管工具和 MCP 服务器工具[12] - 记忆系统在多个时间尺度上运作，包括短期记忆和跨会话的长期记忆，Claude Code 实现了三层层级结构，关键设计原则是行动前先验证记忆[14] - 上下文管理的核心挑战是“上下文腐烂”，即使百万级长上下文窗口也无法免疫性能退化，生产环境策略包括压缩、观察遮蔽、按需检索和子智能体委派[18][19] - 错误处理至关重要，一个 10 步流程若每步成功率 99%，端到端成功率仅约 90.4%，错误被分为瞬态、模型可恢复、用户可修复和意外错误四类[22][23] - 验证循环是将玩具 demo 与生产级智能体区分开的关键，包括规则验证、视觉验证和“模型即裁判”三种方式，可将输出质量提升 2 到 3 倍[25][26][27] 行业实践与框架对比 - 主要框架的设计哲学各异：Anthropic 的 Claude Agent SDK 采用“傻循环”理念，将智能全放在模型端；OpenAI Agents SDK 强调代码优先；LangGraph 基于显式状态图；CrewAI 采用角色分工的三层结构[32] - 模型和 Harness 正在共同进化，例如 Codex 模型在特定 Harness 上表现更好，更换 Harness 可能导致性能下降，选择 Harness 就是选择了生态[34] - AutoGen 开创了对话驱动的编排，其三层架构支持顺序、并发、群聊、交接和 Magentic 五种编排模式，覆盖了几乎所有的多智能体协作场景[35] - LangChain 从 AgentExecutor 演进到 LangGraph，其 Deep Agents 明确使用了“Agent Harness”术语，说明行业正趋向统一的概念[34] 设计原则与发展趋势 - Harness 设计面临七个关键抉择，包括单智能体 vs 多智能体、工具范围策略和 Harness 厚度等，行业建议是先将单智能体做到极致，工具并非越多越好[29] - Harness 就像建筑工地的脚手架，随着模型能力增强，其复杂度应该降低，存在“共同进化原则”，好的设计应能在换上更强模型后自动提升性能而不增加 Harness 复杂度[36][37] - 对于 AI 产品团队，Harness 才是真正的产品，将 80% 的精力放在 Harness 优化上可能比换模型更有效，行业数据显示仅靠 Harness 优化就能在基准测试中提升 20 多名[39] - “少即是多”是重要原则，Vercel 砍掉 80% 的工具后表现反而更好，这与软件工程的古老直觉一致[40] - 未来的竞争是“模型 + Harness”组合的系统之战，行业正走向更薄的 Harness，但 Harness 作为管理上下文、执行工具、持久化状态和验证工作的结构性需求不会消失[40][42]

智能体基础设施

智能体外壳

模型与Harness共同进化

Artificial Intelligence

Artificial Intelligence

Agent Harness

Claude Code