上下文工程(Context Engineering)

搜索文档
晚点播客丨IMO 金牌、Kimi 翻盘、抢人大战,与真格戴雨森复盘 2025 AI 中场战事
晚点LatePost· 2025-07-31 13:37
AI模型能力突破 - OpenAI通用大语言模型首次达到IMO金牌水准,六道题做对五道,未针对数学优化且未联网[7][8] - Google DeepMind的Gemini DeepThink模型同样取得IMO金牌,使用纯自然语言解题[14] - 数学证明题属于"hard to produce, hard to verify"任务,突破意义大于编程和围棋[16][18] - 模型推理能力提升验证inference scaling law,优化空间来自post-training而非底层架构[9][10] 技术演进趋势 - 解锁AI生产力的三大主线:推理(reasoning)、编程(coding)、工具使用(tool use)[56][68] - 模型架构仍处Transformer范式内演进,但能力从1到10提升显著[57] - 工具使用呈现两条路径:API接口调用和视觉模拟操作现有软件[68] - 上下文工程(Context Engineering)成为关键,分通用信息、组织层面、个性化记忆三层[26][61] 应用层发展 - Agent产品进入Early Adopter阶段,Manus/Genspark等完成模糊目标到任务执行的闭环[34] - 应用价值被低估,优秀产品设计能形成护城河,如Kimi长文本技术方向的前瞻布局[49][51] - 生产力场景token消耗呈10-100倍增长,远超聊天场景,如分析师可同时覆盖50家财报[83] - 订阅制商业模式验证成功,高端用户月均AI产品支出达1000美元[79] 行业竞争格局 - 中美模型差距缩小,Kimi K2开源模型在coding/Agent工作流等表现优于Claude[40][41] - Google强势回归,Gemini 2.5在多模态和云服务表现突出,TPU优势明显[58][59] - 人才争夺白热化,硅谷出现百万美元年薪挖角,创业公司面临人才保留压力[86][89] - 资源分配策略分化:字节全栈布局vs DeepSeek选择性突破[46][47] 团队与创新 - 稳定团队+技术前瞻性是突破关键,如Kimi核心成员合作超10年[48][49] - 优秀团队价值被低估,实际创新能力常超市场预期,如Kimi逆风翻盘[40][41] - 早期采用者(Early Adopter)社区生态活跃,开源项目获得积极反馈[5][53] - 产品设计需为未来模型预留空间,如Cursor等待Claude 3.5实现完整愿景[41][98]
忘掉《Her》吧,《记忆碎片》才是 LLM Agent 的必修课
Founder Park· 2025-07-29 16:05
言午 . 贩卖你想要的人生 以下文章来源于言午 ,作者yan5xu 然而,进入 2025 年,风向几乎在一夜之间改变。 一款现象级 Agent 的横空出世,让 Agent(智能体) 迅速取代 Chatbot,成为行业叙事绝对的主流。大 家讨论的不再是「意图识别」和「多轮对话」,而是 任务分解 、 工具调用 和 自主规划 。从硅谷到北京,「第一个通用 Agent」、「第一个 AI 程序 员」的发布会此起彼伏,这股火热的浪潮,让人感觉仿佛重回了那个移动互联网大爆发的 2016 年。 在这个全新的 Agent 时代,又有那部电影,阐述了什么是 agent。我心里有一个未被认可的答案,它和 AI 毫无干系,却可能是最好的 Agent 入门电影。它 不探讨 AI 的灵魂,只展示一个系统如何在信息不完整的残酷现实中,为了一个目标去 「思考」 和 「行动」 。它,就是克里斯托弗·诺兰的第一部长篇电 影——Memento(《记忆碎片》)。 主角莱纳德不是一个被动的聊天伙伴。他是一个有明确目标(复仇)、会使用工具(相机、笔)、并试图在复杂的真实世界中执行任务的 自主系统 (Agent) 。他关心的是 「完成任务」 ,而不是「取 ...
季逸超亲述 Manus 构建之谜,一文读懂 AI 智能体的上下文工程
AI科技大本营· 2025-07-21 18:08
上下文工程的核心观点 - Manus团队选择基于上下文工程而非端到端训练构建AI Agent,将产品迭代周期从数周缩短至几小时,保持与底层模型发展的正交性[2][3] - 上下文工程是实验科学,团队通过四次重构Agent框架总结出"随机研究生下降"方法论,即通过手动调试提示词和经验猜测寻找局部最优解[3] - KV缓存命中率是生产级AI Agent最关键指标,直接影响延迟和成本,优化后可使Claude Sonnet模型输入token成本从3美元/百万降至0.3美元/百万[5][8] KV缓存优化策略 - 保持提示词前缀稳定性,避免在系统提示开头插入时间戳等可变元素导致后续缓存失效[13] - 采用只增不减的上下文管理策略,确保序列化过程确定性,避免JSON键顺序变化破坏缓存[13] - 明确标记缓存断点,在系统提示后设置断点以适配不支持自动增量缓存的推理框架[13] 操作空间管理 - 避免动态增删工具定义,工具变更会导致后续所有动作和观察结果的KV缓存失效[12] - 采用感知上下文的状态机进行logits掩码,而非直接移除工具,防止模型产生格式错误输出[15] - 设计统一工具名前缀(如browser_/shell_),便于在特定状态下强制选择某类工具[18] 外部上下文设计 - 将文件系统作为无限容量的外部记忆,训练模型按需读写文件实现结构化存储[23] - 采用可恢复的压缩策略,保留URL或文件路径等关键信息而非永久删除内容[26] - 状态空间模型若掌握基于文件的记忆能力,可能催生新型高效Agent架构[26] 注意力与错误管理 - 通过复述机制(如todo.md文件)将核心目标持续写入上下文末端,防止50次工具调用链中的目标漂移[27][31] - 保留失败尝试和错误信息在上下文中,使模型能隐式更新内部认知降低重复错误概率[35] - 错误恢复能力是衡量Agent智能的关键指标,但被多数基准测试低估[35] 少样本提示优化 - 少样本提示可能导致行为定式,如在简历审查任务中机械重复相似操作[36] - 通过引入序列化模板变体、调整措辞等增加多样性打破思维定式[37] - 上下文同质化会加剧Agent脆弱性,需保持受控随机性激活模型注意力[38]