Workflow
一个任务50次调用,成本狂砍90%?Manus首次公开上下文工程秘诀,一堆反复重写换来的教训
AI前线·2025-07-21 15:04

核心观点 - 公司选择押注于上下文工程而非端到端训练模型 使产品迭代周期从几周缩短至几小时 并与底层模型进步保持正交关系 [1][2] - 上下文工程是实验科学 已四次重建Agent框架 通过"随机梯度下降"方法实现局部最优解 [2] - KV缓存命中率是生产阶段AI Agent最重要的单一指标 直接影响延迟和成本 缓存与非缓存token成本相差10倍 [4][5] - 文件系统被视为最终上下文 解决长上下文窗口痛点 实现无限大小、持久化存储和结构化外部记忆 [18][21] - 通过"背诵"机制操纵模型注意力 典型任务需50次工具调用 持续更新待办事项列表保持目标聚焦 [26][30] - 保留错误回合是改进Agent行为的有效方法 错误恢复是真正Agent行为的清晰指标 [32][35] - 少样本提示在Agent系统中可能适得其反 需增加多样性打破行为模式 [36][37] KV缓存设计 - 平均输入输出token比例达100:1 缓存显著降低生成第一个token时间和推理成本 [4][5] - 提高KV缓存命中率三原则:保持提示前缀稳定、上下文只追加内容、明确标记缓存断点 [8][9] - 时间戳等动态元素会破坏缓存 序列化稳定性是关键 某些框架需手动插入缓存断点 [9] 工具管理策略 - 工具数量激增导致模型选择低效 应避免迭代中动态添加/移除工具 [11] - 采用上下文感知状态机管理工具可用性 通过屏蔽token对数而非修改定义来约束动作选择 [11] - 工具定义位于上下文前端 变更会导致后续KV缓存失效 可能引发模式违规或幻觉动作 [14] - 设计一致前缀的动作名称(如browser_/shell_) 实现无状态对数处理器的工具组选择 [15] 文件系统应用 - 128K token上下文窗口在现实场景仍不足 存在观察数据过大、性能下降和成本高三大痛点 [18][20] - 压缩策略需保持可恢复性 如保留URL可恢复网页内容 文档路径可恢复文档内容 [24] - 文件系统操作实现结构化外部记忆 可能为状态空间模型(SSM)解锁新Agent类型 [24] 注意力管理 - 创建并持续更新todo.md文件是故意设计的注意力操纵机制 [26][27] - 通过重写待办事项将全局计划推入模型近期注意力范围 避免50次工具调用中的目标偏离 [30] 错误处理机制 - 保留错误回合使模型能隐式更新内部信念 减少重复错误概率 [35] - 错误恢复能力是真实Agent行为的指标 但被学术基准低估 [35] 少样本提示优化 - 语言模型会模仿上下文中行为模式 重复动作可能导致漂移和幻觉 [36] - 引入结构化变化(序列化模板/措辞/格式噪声)打破模式 增加多样性提升鲁棒性 [37][38]