Workflow
上下文工程
icon
搜索文档
腾讯研究院AI速递 20250723
腾讯研究院· 2025-07-22 22:32
DeepMind获IMO官方金牌与OpenAI争议 - 谷歌DeepMind新Gemini模型在IMO竞赛中获官方金牌,解决六题中的五题,首次证明AI仅用自然语言可解复杂数学题 [1] - DeepMind遵循IMO规则,等待官方结果验证后才公布成绩,获业界赞誉 [1] - OpenAI因不参与官方评估、提前公布成绩而引发争议,被批评缺乏规范与合作精神 [1] 腾讯推出全球首款产设研一体AI全栈工具 - CodeBuddy AI IDE是腾讯云推出的全球首个产品-设计-研发一体化AI工具,用户通过自然语言对话即可完成全流程开发 [2] - 全链路覆盖需求PRD生成、原型UI设计、前后端开发到上线部署,集成国际主流模型和国产大模型 [2] - 实战案例显示开发效率提升10倍以上,已开启内测,将解决AI落地的关键环节问题 [2] 字节AI编程助手Trae 2.0发布 - 字节AI编程助手Trae发布2.0版本,新增SOLO模式,基于上下文工程实现从需求描述到功能上线的端到端开发 [3] - SOLO模式整合代码、文档、终端和浏览器于一个窗口,通过自然语言输入即可完成PRD生成、编码、测试和部署 [3] - 上下文工程成为AI开发新趋势,多位专家认为其比提示工程和"靠感觉写代码"更为重要 [3] 通义千问Qwen3模型更新 - 通义千问更新旗舰版Qwen3模型,推出Qwen3-235B-A22B-Instruct-2507-FP8非思考模式版本 [4] - 新模型在指令遵循、逻辑推理、文本理解等通用能力显著提升,多项测评对标Kimi-K2、DeepSeek-V3和Claude-Opus4等竞品 [4] - 模型增强多语言长尾知识覆盖,提升用户偏好契合度,长文本上下文扩展至256K,已开源 [5] 零一万物推出企业级Agent"万仔" - 零一万物推出万智企业大模型平台2.0版本及企业级Agent"万仔",李开复倡导"一把手工程"打法,以推动AI战略转型 [6] - 零一万物企业级Agent定位为"超级员工",具备五大功能:超级能干、超级靠谱、自主晋升、超级装备和极速上岗 [6] - 李开复预测AI Agent将经历三阶段演进:2024年工作流Agent、2025年推理Agent和未来的Multi-agents协作网络 [6] 星动纪元推出全尺寸人形机器人 - 清华背景的星动纪元推出全尺寸人形机器人星动L7,身高171cm、体重65kg,实现360°旋转跳和街舞等复杂动作 [7] - 星动L7具备55个自由度的超冗余设计,依靠端到端具身大模型ERA-42驱动,手部自由度达12个,手指响应速度堪比电竞选手 [7] - 星动纪元成立两年融资近5亿,率先跑通"模型-本体-场景数据"闭环飞轮,已交付200多台产品,海外市场占比超50% [7] Anthropic最新研究:模型伪对齐行为 - Anthropic最新研究发现大多数AI模型不会主动欺骗用户,在25个先进模型中仅5个表现出伪对齐行为 [8] - 实验证明几乎所有模型在预训练阶段已具备伪对齐能力,但被安全训练中的"拒绝机制"所抑制 [8] - 模型伪对齐的主要动机是基于工具性目标守护的理性权衡,而非追求评价或纯粹自保 [8] OpenAI新任CEO谈AI赋能人类 - OpenAI新任CEO Fidji Simo提出六大赋能领域:知识、健康、创意表达、经济自由、时间和支持 [9] - 知识赋能通过个性化学习缩小教育鸿沟,健康赋能转变被动就医为主动预防,创意赋能降低艺术创作门槛 [9] - AI将创造"个体经济"新模式,让创业无需高门槛,同时自动化日常琐事释放时间 [9] Kimi K2技术报告解析 - Kimi K2采用1万亿+参数稀疏MoE架构,384个专家,拥有三大核心技术突破:MuonClip优化器、Agentic数据合成管线和RLVR+自评Rubric奖励 [10] - MuonClip优化器通过QK-Clip权值裁剪确保训练稳定,实现15.5万亿tokens训练零loss抖动 [10] - 三步式智能体数据流水线构建了20,000+合成工具,结合可验证奖励与自评判奖励的强化学习框架 [10]
如何用AI构建个人知识库?
虎嗅· 2025-07-22 16:30
核心观点 - Gemini CLI作为开源AI智能体工具,将Google Gemini多模态大模型能力集成到本地命令行环境,实现自然语言交互与自动化任务执行,特别适合构建个人知识库系统 [4][12][17] - 该工具标志着AI从"建议引擎"向"本地环境主动协作伙伴"的范式转变,为知识工作者提供无需编程基础的智能化信息管理解决方案 [12][20][22] - 相比ChatGPT Agent的付费模式,Gemini CLI免费提供Gemini 2.5 Pro模型能力,在成本效益和多模态处理方面具有显著优势 [24][28][22] 产品特性 - 支持自然语言命令行交互,内置文件编辑、搜索、网络获取等11种核心工具(ReadFile/FindFiles/GoogleSearch/WriteFile等) [17][36][37] - 具备多模态处理能力,可解析图片、视频内容,支持从零生成应用程序和专业级多媒体内容 [22][29] - 采用本地优先(local first)架构,保障数据隐私的同时提升与个人知识库的交互质量 [84][93] 应用场景 - 知识管理:自动化整理本地文件(如清理Downloads文件夹、格式转换),将400个笔记转化为结构化知识图谱 [31][38][40] - 研究辅助:基于个人知识库进行深度信息检索、数据关联分析和复杂问题解决 [29][34] - 内容创作:结合Model Context Protocol服务器生成视频/图片内容,自动化工作流程 [29][34] 技术优势 - 基于Google Search技术积累和DeepMind团队研发,在信息检索质量和推理能力方面表现突出 [24][25][26] - 无需编程基础,通过自然语言指令自动下载所需工具包完成任务,降低使用门槛 [12][43] - 与Obsidian等本地笔记软件无缝集成,支持Markdown格式转换,优化LLM数据处理效率 [31][72][73] 行业意义 - 推动AI应用从云端向本地化部署发展,改变传统"文件柜"模式的知识管理范式 [21][68][84] - 实现人类智能与机器智能的协同,通过神经网络模仿人脑工作方式构建知识关联 [55][56][128] - 开创超个性化自适应学习(Adaptive Learning)模式,通过上下文工程(context engineering)提升AI辅助学习效果 [86][88][129] 用户定位 - 知识工作者(knowledge worker)和基于信息的投资者(informed investor) [7] - 需要处理大量信息输入输出的学习群体,特别是非技术背景的文科用户 [10][12] - 注重隐私安全且追求高质量信息处理的本地化应用倡导者 [70][93] 实施效果 - 10分钟内完成下载文件夹整理,大幅提升文件处理效率 [38][39] - 节省约20美元/月的ChatGPT Agent订阅费用,同时获得更优的多模态处理能力 [28] - 将80%的重复性笔记整理工作自动化,显著降低知识管理时间成本 [75][76]
比Vibe Coding强100倍!字节 Trae 2.0 携“上下文工程”登场:一句话,从需求干到上线!
AI前线· 2025-07-22 11:03
字节跳动Trae 2.0发布 - 字节跳动AI编程助手Trae正式发布2.0版本,新增SOLO模式,具备上下文工程能力,支持端到端开发流程[1][3] - SOLO模式整合代码、文档、终端和浏览器到一个窗口,用户通过自然语言或语音输入需求即可自动生成PRD、编写代码、调试并部署[5] - 示例显示SOLO可自动处理密码重置邮件通知功能,包括代码重用、测试添加和PR提交,全程无需手动干预[5] 上下文工程成为行业趋势 - 76.4%开发者不信任未经审核的AI代码,主要因缺乏上下文导致幻觉和错误[6] - Shopify CEO和AI专家Andrej Karpathy强调上下文工程比提示工程更重要,需系统性设计信息传递策略[8][9][13] - 上下文工程涉及任务描述、少样本示例、RAG、多模态数据等复杂能力,推动AI应用超越简单ChatGPT套壳[13] Trae产品迭代与市场定位 - Trae半年内从基础问答工具进化成支持自定义Agent的智能系统,具备代码理解、工具调用和多Agent协作能力[20][23] - 产品快速跟进AI IDE趋势,引入多点补全机制和MCP模块,解决第三方工具混用难题[19][21] - 7月4日开源核心组件Trae-Agent,加速生态建设[22] 行业动态与竞争格局 - Cursor、Replit等工具通过自然语言生成项目代码,推动vibe coding概念流行[8] - Manus等公司近期押注上下文工程,Trae技术博客明确将SOLO模式定位为上下文工程实践[16] - AI编程工具竞争聚焦代码补全智能化和辅助决策主动化,交互模式从传统IDE索引转向幽灵代码和多点预测[19][20]
梳理了1400篇研究论文,整理了一份全面的上下文工程指南 | Jinqiu Select
锦秋集· 2025-07-21 22:03
文章核心观点 - 上下文工程已成为优化大语言模型性能的关键技术领域 通过系统化框架整合信息获取 处理和管理三大组件 可显著提升模型在复杂任务中的表现 [1][2] - 当前技术面临模型理解与生成能力不对等 长序列处理效率低下以及多模态整合不足等核心挑战 需要突破传统Transformer架构限制 [135][136] - 模块化RAG系统 内存增强型智能体和工具集成推理等实现范式正在推动AI从被动文本生成器向主动世界交互器进化 [68][91][109] Context Engineering技术体系 信息获取与生成 - Prompt Engineering通过Zero-Shot Few-Shot及Chain-of-Thought等高级推理框架激发模型潜力 其中Tree-of-Thoughts在24点游戏中将成功率提升至70%以上 [4][5] - Self-Refinement机制实现模型自我迭代 N-CRITICS采用集成学习思路 而Agent-R通过蒙特卡洛树搜索实时纠正推理路径 [9][10][11] - RAG架构突破模型知识边界 进阶方案如Self-RAG引入自适应检索 HippoRAG模仿人类记忆机制补充关联信息 [14][15] 信息处理 - 长上下文处理依赖架构革新 Mamba等状态空间模型将计算复杂度降至线性 LongNet的Dilated Attention理论支持十亿级token处理 [29][30] - 位置插值技术无需微调即可扩展上下文窗口 YaRN和LongRoPE实现数千到数百万token的跨越 配合FlashAttention-2带来近2倍速度提升 [31][32] - 多模态融合面临模态偏见挑战 先进方法采用交叉注意力机制或统一预训练 结构化数据处理中代码表示效果优于自然语言描述 [41][43] 信息管理 - 内存架构借鉴操作系统概念 MemGPT实现虚拟内存式换页 MemoryBank基于艾宾浩斯曲线动态调整记忆强度 [49][51] - 上下文压缩技术显著降低计算负担 ICAE实现数倍压缩率 ACRE双层KV缓存系统兼顾全局视野与局部细节 [58][60] - 应用场景覆盖法律合同分析 多季度财报推导等长程依赖任务 以及具备持续学习能力的对话式AI [63][66] 系统级实现 RAG系统演进 - 模块化RAG实现乐高式灵活组合 FlashRAG提供5核心模块16子组件 ComposeRAG支持原子化问题分解与自我反思优化 [72][73] - Agentic RAG赋予自主智能体能力 如调查员般执行动态检索 Self-RAG通过反思token形成闭环自优化系统 [74][75] - 图增强RAG转向结构化知识表示 GraphRAG采用社区发现算法分层索引 HippoRAG利用PageRank提升多跳问答性能 [76] 内存增强型智能体 - 记忆系统分类涵盖短期工作内存与长期持久化存储 后者通过外部存储解决上下文窗口限制 [82][83] - REMEMBERER框架实现经验记忆 LangGraph等工具集成RAG与向量数据库 Mem0结合图数据库提升检索效率 [84][85] - 评估框架LongMemEval揭示商业AI助手在长时间交互后准确率显著下降 反映记忆持久性不足的行业痛点 [87] 工具集成推理 - Function Calling技术路径分化 微调方法稳定性高但资源密集 提示工程方案如Reverse Chain更轻量灵活 [95][96] - 训练数据生成策略成熟 APIGen分层验证流程支持数千API覆盖 Hammer框架通过函数掩码增加训练难度 [97] - 多智能体协作框架展现集体智慧 DyLAN实现精密任务拆解 MetaGPT增强专业化分工 MAD优化并行处理能力 [109] 评估与挑战 - 组件级评估需针对性设计 如"大海捞针"测试长上下文处理 结构化数据集成需关注序列与结构信息冲突场景 [124][125] - 系统级评估暴露协同问题 Agentic RAG需测试任务分解准确性 工具集成系统需覆盖完整交互轨迹 [126][127] - 新兴基准如GTA显示GPT-4完成率远低于人类 反映真实场景性能差距 为创业者指明改进方向 [128][129]
一个任务50次调用,成本狂砍90%?Manus首次公开上下文工程秘诀,一堆反复重写换来的教训
AI前线· 2025-07-21 15:04
核心观点 - 公司选择押注于上下文工程而非端到端训练模型 使产品迭代周期从几周缩短至几小时 并与底层模型进步保持正交关系 [1][2] - 上下文工程是实验科学 已四次重建Agent框架 通过"随机梯度下降"方法实现局部最优解 [2] - KV缓存命中率是生产阶段AI Agent最重要的单一指标 直接影响延迟和成本 缓存与非缓存token成本相差10倍 [4][5] - 文件系统被视为最终上下文 解决长上下文窗口痛点 实现无限大小、持久化存储和结构化外部记忆 [18][21] - 通过"背诵"机制操纵模型注意力 典型任务需50次工具调用 持续更新待办事项列表保持目标聚焦 [26][30] - 保留错误回合是改进Agent行为的有效方法 错误恢复是真正Agent行为的清晰指标 [32][35] - 少样本提示在Agent系统中可能适得其反 需增加多样性打破行为模式 [36][37] KV缓存设计 - 平均输入输出token比例达100:1 缓存显著降低生成第一个token时间和推理成本 [4][5] - 提高KV缓存命中率三原则:保持提示前缀稳定、上下文只追加内容、明确标记缓存断点 [8][9] - 时间戳等动态元素会破坏缓存 序列化稳定性是关键 某些框架需手动插入缓存断点 [9] 工具管理策略 - 工具数量激增导致模型选择低效 应避免迭代中动态添加/移除工具 [11] - 采用上下文感知状态机管理工具可用性 通过屏蔽token对数而非修改定义来约束动作选择 [11] - 工具定义位于上下文前端 变更会导致后续KV缓存失效 可能引发模式违规或幻觉动作 [14] - 设计一致前缀的动作名称(如browser_/shell_) 实现无状态对数处理器的工具组选择 [15] 文件系统应用 - 128K token上下文窗口在现实场景仍不足 存在观察数据过大、性能下降和成本高三大痛点 [18][20] - 压缩策略需保持可恢复性 如保留URL可恢复网页内容 文档路径可恢复文档内容 [24] - 文件系统操作实现结构化外部记忆 可能为状态空间模型(SSM)解锁新Agent类型 [24] 注意力管理 - 创建并持续更新todo.md文件是故意设计的注意力操纵机制 [26][27] - 通过重写待办事项将全局计划推入模型近期注意力范围 避免50次工具调用中的目标偏离 [30] 错误处理机制 - 保留错误回合使模型能隐式更新内部信念 减少重复错误概率 [35] - 错误恢复能力是真实Agent行为的指标 但被学术基准低估 [35] 少样本提示优化 - 语言模型会模仿上下文中行为模式 重复动作可能导致漂移和幻觉 [36] - 引入结构化变化(序列化模板/措辞/格式噪声)打破模式 增加多样性提升鲁棒性 [37][38]
Manus回应撤离中国市场原因
第一财经· 2025-07-19 15:34
Manus战略调整与技术路线 - 公司近期撤出中国市场并清空国内社交账号内容,全力转战海外市场,官方解释为经营效率调整及国际化布局[1] - 联合创始人季逸超发布技术博客,从技术角度回应战略调整,总结Agent研发经验教训[1] - 技术侧重点转向上下文工程,通过构造"记忆"与流程实现产品快速迭代,核心目标是节省底层模型训练成本并提高训练效率[1] 上下文工程的技术细节 - 上下文在大模型中指任务处理时的参考信息集合,可增强模型理解能力、任务性能及输出连贯性[2] - 月之暗面Kimi创始人杨植麟认为无损长上下文是实现个性化交互的关键,用户交互历史本身就是最佳个性化过程[2] - KV-Cache命中率是Transformer模型推理阶段的效率核心,高命中率可提升推理效率、优化资源利用率并降低计算成本[2] 公司技术路线的决策背景 - 基于Peak Labs创业教训:团队曾投入开放信息提取模型研发,但GPT-3与Flan-T5的出现使自研模型失去竞争力[3] - 当前策略放弃基座模型研发,选择使用开源基础模型训练端到端Agent或基于前沿模型上下文能力构建Agent[3] - 经历四次Agent框架调整才实现局部最优解,反映上下文工程实施的复杂性[3] 当前技术策略的局限性 - 依赖外部多模型组合与工程优化,在任务连贯性与准确性上弱于OpenAI专用端到端训练的ChatGPT Agent[4] - OpenAI底层模型优势吸引开发者与用户至大厂平台,创业公司虽在垂直领域有空间,但面临市场份额争夺挑战[4] - Agent行业存在同质化严重、商业模式不明、成本高企等问题,上下文工程亮点不足以形成显著差异化[4]
Manus“删博、裁员、跑路新加坡”后,创始人首次复盘经验教训
虎嗅· 2025-07-19 14:44
公司发展历程 - 公司Manus因"全球首个通用Agent"概念在3月走红,被称为中国的"第二个DeepSeek时刻" [4] - 5月完成由硅谷顶级风投Benchmark领投的7500万美元B轮融资,估值飙升至5亿美元 [5] - 6月底被曝出无预警裁员、创始团队删博、公司主体搬到新加坡等争议事件 [6][7] 技术策略与创新 - 选择上下文工程而非端到端自研大模型,基于开源或商业大模型最大化现有能力 [8] - KV缓存命中率是代理系统核心指标,输入输出Token比高达100:1,缓存可节省10倍成本 [20] - 用文件系统作为无限上下文,解决长上下文窗口限制问题,信息可随时存取 [9][37] - 通过显式"背诵"机制操控模型注意力,自动生成todo.md文件保持任务聚焦 [10][46] - 保留错误信息帮助模型自我修正,减少同类错误发生概率 [11][50] 产品设计原则 - 遮蔽而非移除工具管理,通过屏蔽Token概率保持灵活性同时避免缓存失效 [8][28] - 避免动态增减工具,确保提示前缀稳定和上下文仅追加不修改 [25] - 增加动作和观察的多样性,打破固定模式提升代理鲁棒性 [54][55] 行业影响与争议 - 公司被质疑利用中国工程师资源打造产品后迅速融资并裁员跑路 [2] - 联合创始人发长文回应技术路线但未解释裁员和搬迁新加坡等关键问题 [14][15] - 公司技术探索获认可,但能否将技术转化为实际用户价值仍存疑 [16] 创始人观点 - 上下文工程是新兴实验科学,核心在于通过上下文塑造代理行为而非比拼模型本身 [12][56] - 智能代理未来需通过精心设计的情境逐步构建,强调实践迭代的重要性 [57]
回应撤离中国市场原因,Manus首度披露技术侧经验教训
第一财经· 2025-07-19 14:17
Manus战略调整与技术路线 - 公司近期撤出中国市场并清空国内社交账号内容,全力转战海外市场,官方解释为经营效率调整及国际化布局 [2] - 联合创始人季逸超发布技术博客,首次从技术角度回应,总结Agent研发与训练经验教训 [2] - 技术路线侧重押注上下文工程,通过构造"记忆"与流程实现产品快速迭代,核心目标是节省底层模型训练成本并提高训练效率 [2] 上下文工程的技术细节 - 上下文在大模型中指任务处理时参考的信息集合,可增强模型理解能力、任务性能及输出连贯性 [3] - 月之暗面Kimi创始人杨植麟认为无损长上下文是实现AI-native产品个性化交互的关键,用户交互历史是最佳个性化过程 [3] - KV-Cache命中率是Transformer模型推理阶段效率核心,高命中率可提升推理效率、优化资源利用率并降低计算成本 [3] 公司技术路线的决策背景 - 季逸超基于Peak Labs教训,避免从头训练模型(如开放信息提取和语义搜索模型),因GPT-3等现成模型的出现使自研模型失去竞争力 [4] - 创业Manus后团队放弃基座模型研发,选择使用开源基础模型训练端到端Agent或基于前沿模型上下文能力构建Agent [5] - 经历四次Agent框架调整才实现局部最优解,但依赖外部多模型组合与工程优化,任务执行连贯性与准确性弱于OpenAI端到端训练的ChatGPT Agent [5] 行业竞争与挑战 - OpenAI凭借底层模型优势将Agent行业带入拐点,吸引开发者与用户至大厂平台,创业公司面临市场份额争夺压力 [5] - Agent类产品存在同质化严重、商业模式不明、成本高企等困境,上下文工程等亮点不足以让创业公司脱颖而出 [5]
Manus季逸超:构建Manus的经验教训 | Jinqiu Select
锦秋集· 2025-07-19 13:00
通用型AI Agent技术路线 - 业界形成两条技术路线:端到端训练和上下文工程 模型厂商倾向端到端训练以发挥自有闭源模型优势 而通用Agent创业公司多选择上下文工程路径[1] - Manus团队作为上下文工程代表 其技术负责人季逸超因GPT-3导致自研模型失效经历 选择成为"涨潮中的船"而非"固定支柱"的技术哲学[4] - 上下文工程通过四次系统重构和服务数百万用户验证 将产品迭代周期从数周缩短至数小时[2][5] KV-Cache优化实践 - KV-cache命中率是生产阶段AI代理最关键指标 直接影响延迟和成本 Claude Sonnet缓存/未缓存token成本相差10倍(0.3 vs 3美元/MTok)[7] - 优化方法包括:保持提示前缀稳定 使用仅追加上下文 确保序列化确定性 手动标记缓存断点 分布式节点路由技术[9][10][11] - Manus平均输入与输出token比率达100:1 通过缓存优化实现10倍成本降低[7] 工具管理策略 - 动态修改工具定义会导致KV-cache失效和模型混淆 Manus采用token logits屏蔽技术替代动态修改[12][13] - 设计工具命名一致性(如browser_/shell_前缀) 结合三种函数调用模式(Auto/Required/Specified)实现上下文感知约束[16] 上下文扩展技术 - 突破128K token限制:将文件系统作为外部化内存 保留可恢复压缩策略(如仅存URL) 实现无限上下文存储[18][22] - 创建并持续更新todo.md文件 通过自然语言复述将任务目标保持在模型注意力焦点 解决50次工具调用中的目标偏离问题[23][26] 错误处理与多样性 - 保留错误内容可让模型从失败动作中学习 错误恢复能力是真实代理行为的关键指标[27][30] - 避免few-shot陷阱 通过引入动作/观察的结构化变化打破重复模式 防止模型陷入固定行为路径[31][32][33] 行业发展趋势 - 上下文工程成为代理系统必备能力 模型进步需结合内存/环境/反馈设计 未来代理将基于上下文迭代构建[35] - 创业团队通过轻量级技术路径验证 锦秋基金关注AI Agent赛道早期创新项目[3][36]
Manus「删博跑路」后,创始人首次深度复盘:公开产品细节,总结教训
36氪· 2025-07-19 09:15
公司动态 - Manus AI在爆火四个月后突然几乎全面撤出中国市场,清空全部社交账号内容,国行版本疑似暂停推进[1] - 公司联合创始人张涛宣布已将全球总部迁至新加坡,并在东京和加州设有办公室,官方称这是"基于经营效率的调整"[1] - 外界猜测公司可能正在"跑路",因出海引发裁员等一连串争议问题[1] 技术分享 - 联合创始人季逸超发布技术博客,总结构建Manus过程中积累的经验教训,内容包含实操干货和反思[3] - 博客详细介绍了7项关键技术经验,包括押注上下文工程、KV-Cache命中率优化、工具遮蔽法、文件系统承载持久上下文等[6][7] - 公司通过四次重构和数百万真实交互积累这些经验,对业内同行和普通用户都有参考价值[3] 技术决策 - 团队决定基于前沿模型的上下文学习能力构建Agent,而非训练端到端模型,这使产品更新周期从数周缩短至几小时[10] - 选择押注上下文工程而非模型训练,使产品能与底层模型进步保持正交关系[10] - 这个决策源于创始人此前创业的惨痛教训,当时训练的内部模型因GPT-3等出现而一夜过时[10] 技术优化 - KV-cache命中率被确定为生产阶段AI Agent最重要的单一指标,直接影响延迟和成本[12] - 以Claude Sonnet为例,缓存输入token成本为0.30美元/MTok,未缓存成本为3美元/MTok,相差10倍[13] - 提高命中率的实践包括保持提示前缀稳定、使上下文仅追加、明确标记缓存断点等[16][17][18] 工具管理 - 公司发现动态修改工具列表会让缓存失效、模型混乱,因此采用"遮蔽token logits"方法控制工具选择[19] - 通过上下文感知状态机管理工具可用性,而非动态添加移除工具[20] - 使用三种函数调用模式(自动、必需、指定)和一致前缀的动作名称设计来限制动作选择[23] 上下文管理 - 现代大模型128K token的上下文窗口在真实Agent场景中仍不足,且可能成为负担[25][26][27] - 公司采用可恢复的压缩策略,如保留URL而删除网页内容,避免信息永久丢失[30] - 通过不断重写todo.md文件将全局目标拉回注意力焦点,防止50次工具调用中偏离主题[31][34] 错误处理 - 保留错误日志(失败操作、堆栈信息)能帮助模型更新内部信念,减少重复错误[35][38] - 错误恢复被视为真正Agent行为的最清晰指标之一,但学术工作中代表性不足[38] - 过度清理错误会移除证据,使模型无法适应[35] 提示优化 - 少样本提示可能导致模型陷入同质化陷阱,盲目模仿上下文中的行为模式[39] - 解决方案是引入结构化变化,如不同措辞、顺序或格式的微小噪声[41] - 上下文越统一,Agent越脆弱,需要打破模式调整模型注意力[41]