Workflow
上下文工程(Context Engineering)
icon
搜索文档
超越 Prompt 和 RAG,「上下文工程」成了 Agent 核心胜负手
海外独角兽· 2025-09-17 20:08
编译:Haozhen 编辑:Cage 最近这段时间,context engineering(上下文工程)是 agent 开发者中的 buzzword。这个概念由 Andrej Karpathy 提出,引起了很多开发者的共鸣,直指当下 agent 开发的核心痛点:搭建流程看似简单,但在实际运行中,由海量工具调用和 long horizon reasoning 产生的冗长上下文,正成为 agent 性能和成本的巨大 瓶颈,甚至会导致模型能力的下降。 Context engineering 指的就是在正确时间为 agent 提供正确信息的方法论,这个概念覆盖并超越了 prompt engineering 和 RAG,成为了 agent 开发的核心胜负 手。如果把 LLM 类比为计算机的 CPU,那么 context window 就是计算机的 RAM,它处理信息的信噪比直接决定了产品的效果,因为在构建 agent 的过程 中,输入的 context 不仅来自人类指令,还来自 agent 运行中的工具调用和思维链,把内存空间压缩到最关键的信息上就至关重要。 为了深入探讨这一挑战,我们系统梳理了 LangChain 工 ...
Manus披露预测性年度收入为9000万美元
36氪· 2025-08-20 18:16
沉寂一段时间后,在年初掀起一轮AI Agent热潮的Manus终于又有新动向。 现在,无论看起来是否仍有"不够ambitious"的成分,Manus的确需要适时输出一些信息,为自己建立一 定的坐标轴,以支撑公司更长期的目标。 作为一家定位全球化市场的中国AI初创企业,Manus的出海之路一度备受质疑。7月9日,有媒体报道 Manus已将全球总部从北京迁至新加坡,这背后有国际化加速、应对跨境合规等多方面考量。结合此前 Manus所受到Benchmark投资等新闻,一些声音认为其正在背离中国市场。 8月20日消息,在一场由Stripe于新加坡举办的活动上,Manus首席科学家季逸超(Peak)表示,"公司收 入运行率(RRR/Revenue Run Rate)为9000万美元"。 收入运行率(RRR)是一种财务指标,通常被初创或处于快速增长阶段的公司用来预测年度收入。计算 RRR的方法取决于可用的收入数据类型,一种常见的方式是根据已有月度收入数据,将一个月的总收入 乘以12来得到预测性年度收入。 | Manus's Computer | | | | | | --- | --- | --- | --- | --- ...
Manus“跑路”后的4个启示
混沌学园· 2025-08-18 20:05
Manus的战略选择 - 公司放弃自研底层模型,选择基于前沿模型的上下文学习能力构建智能体,以验证产品与市场契合度(PMF) [4][5] - 决策源于自研模型效率低(每次微调需数周)且面临技术锁定风险(新模型迁移成本高) [5] - 战略聚焦单点突破,集中资源实现阈值效应[6] 上下文工程的技术定位 - 该技术是LLM应用领域继提示词工程后的新热点,通过系统化输入文本引导模型生成预期输出[8] - 本质是为LLM构建包含数据/环境的完整运行系统,类比职业场景中的多维度信息整合[8][9] - 解决大模型从通用助手到行业专家的落地问题,推动技术向生产力跃迁[9] Manus的六大技术优化原则 1. KV-cache设计:稳定提示前缀/追加上下文/明确缓存断点以降低成本[14] 2. 工具遮蔽机制:通过logits屏蔽控制模型可见工具,避免动态修改导致混乱[14] 3. 外部化记忆系统:虚拟文件系统实现长期记忆按需读写[14] 4. 动态注意力管理:复述更新todo.md文件防止任务偏离[14] 5. 错误记录保留:从失败尝试中调整学习提升长期表现[14] 6. 打破少样本模式:引入格式变化避免模型行为僵化[11][14] 退出中国市场的商业考量 - 直接原因可能涉及投资安排与双市场研发资源不足[16] - 国内付费转化率不佳:定价偏高且与本土产品差异化不足[16] - 中美市场差异:国内C端创新领先但B端企业软件付费成熟度低于北美[16] - 基础模型厂商入局加剧竞争,迫使纯Agent公司寻求更高商业回报区域[17] 行业启示 - AI Agent商业化早期阶段的核心壁垒不在模型本身,而在于构建支持系统[18] - 行业趋势显示通用大模型需结合专业工作流系统才能形成竞争力[19] - 垂直Agent创业潮印证需在正确时间提供正确信息支撑模型推理决策[19]
晚点播客丨IMO 金牌、Kimi 翻盘、抢人大战,与真格戴雨森复盘 2025 AI 中场战事
晚点LatePost· 2025-07-31 13:37
AI模型能力突破 - OpenAI通用大语言模型首次达到IMO金牌水准,六道题做对五道,未针对数学优化且未联网[7][8] - Google DeepMind的Gemini DeepThink模型同样取得IMO金牌,使用纯自然语言解题[14] - 数学证明题属于"hard to produce, hard to verify"任务,突破意义大于编程和围棋[16][18] - 模型推理能力提升验证inference scaling law,优化空间来自post-training而非底层架构[9][10] 技术演进趋势 - 解锁AI生产力的三大主线:推理(reasoning)、编程(coding)、工具使用(tool use)[56][68] - 模型架构仍处Transformer范式内演进,但能力从1到10提升显著[57] - 工具使用呈现两条路径:API接口调用和视觉模拟操作现有软件[68] - 上下文工程(Context Engineering)成为关键,分通用信息、组织层面、个性化记忆三层[26][61] 应用层发展 - Agent产品进入Early Adopter阶段,Manus/Genspark等完成模糊目标到任务执行的闭环[34] - 应用价值被低估,优秀产品设计能形成护城河,如Kimi长文本技术方向的前瞻布局[49][51] - 生产力场景token消耗呈10-100倍增长,远超聊天场景,如分析师可同时覆盖50家财报[83] - 订阅制商业模式验证成功,高端用户月均AI产品支出达1000美元[79] 行业竞争格局 - 中美模型差距缩小,Kimi K2开源模型在coding/Agent工作流等表现优于Claude[40][41] - Google强势回归,Gemini 2.5在多模态和云服务表现突出,TPU优势明显[58][59] - 人才争夺白热化,硅谷出现百万美元年薪挖角,创业公司面临人才保留压力[86][89] - 资源分配策略分化:字节全栈布局vs DeepSeek选择性突破[46][47] 团队与创新 - 稳定团队+技术前瞻性是突破关键,如Kimi核心成员合作超10年[48][49] - 优秀团队价值被低估,实际创新能力常超市场预期,如Kimi逆风翻盘[40][41] - 早期采用者(Early Adopter)社区生态活跃,开源项目获得积极反馈[5][53] - 产品设计需为未来模型预留空间,如Cursor等待Claude 3.5实现完整愿景[41][98]
忘掉《Her》吧,《记忆碎片》才是 LLM Agent 的必修课
Founder Park· 2025-07-29 16:05
行业趋势演变 - AI行业叙事从Chatbot(聊天机器人)转向Agent(智能体)成为主流 讨论焦点从"意图识别"和"多轮对话"变为"任务分解"、"工具调用"和"自主规划" 行业热度堪比2016年移动互联网爆发期 [4] - 电影《Her》定义了Chatbot范式的终极形态 而《记忆碎片》的主角莱纳德被视为Agent的完美隐喻 展示系统如何在信息不完整环境下为目标思考与行动 [5] Agent系统架构 - 上下文工程是围绕LLM有限注意力窗口设计的信息管理技术栈 目标是为每个决策点提供恰到好处的信息 决定Agent成败 [5] - 莱纳德的记忆系统对应LLM三大特征:长期记忆如同训练数据(静态知识库) 短期记忆如同上下文窗口(15分钟记忆限制) 行动驱动类似Agent任务导向 [9] 上下文工程三大支柱 外部知识管理 - 拍立得照片系统对应RAG技术 实现知识管理闭环:选择性记录任务关键信息 而非存储所有数据 避免检索时信息过载 [17][20] - 完整流程包括信息采集固化(拍照)、上下文标注(背面笔记)、按需调用(匹配检索) 体现RAG核心价值 [23] 上下文提炼结构化 - 将信息从照片升级到纹身 代表信息提炼压缩过程 只保留经过验证的核心断言(如"事实5") 并物理结构化确保读取优先级 [22][29] - Agent需成为信息炼金术士 对冗长信息进行压缩总结 在有限Token预算内最大化信息密度 避免"大海捞针"困境 [25] 分层记忆管理 - 三层架构:核心任务层(不可变纹身)、情景工作层(可读写照片)、瞬时处理层(易失性大脑记忆) 实现高效记忆调度 [30] - 需明确定义信息层级 区分宪法级指令、任务日志和临时缓存 防止Agent迷失在海量操作日志中 [28] Agent系统风险 - 上下文投毒风险:外部恶意输入可能导致Agent将错误信息当作真理输出 呈现"垃圾进真理出"现象 [32] - 自我强化认知牢笼:Agent在多步任务中可能将前序错误结论当作事实 缺乏独立审查机制导致偏差放大 [33][34] 系统优化方向 - 缺失反思模块是当前Agent核心缺陷 需建立验证机制比对行动结果与预期差距 生成误差报告指导后续行动 [35] - 构建可靠行动系统比单纯追求自主性更重要 需防止创造高效但永不怀疑的"莱纳德军队" [36]
季逸超亲述 Manus 构建之谜,一文读懂 AI 智能体的上下文工程
AI科技大本营· 2025-07-21 18:08
上下文工程的核心观点 - Manus团队选择基于上下文工程而非端到端训练构建AI Agent,将产品迭代周期从数周缩短至几小时,保持与底层模型发展的正交性[2][3] - 上下文工程是实验科学,团队通过四次重构Agent框架总结出"随机研究生下降"方法论,即通过手动调试提示词和经验猜测寻找局部最优解[3] - KV缓存命中率是生产级AI Agent最关键指标,直接影响延迟和成本,优化后可使Claude Sonnet模型输入token成本从3美元/百万降至0.3美元/百万[5][8] KV缓存优化策略 - 保持提示词前缀稳定性,避免在系统提示开头插入时间戳等可变元素导致后续缓存失效[13] - 采用只增不减的上下文管理策略,确保序列化过程确定性,避免JSON键顺序变化破坏缓存[13] - 明确标记缓存断点,在系统提示后设置断点以适配不支持自动增量缓存的推理框架[13] 操作空间管理 - 避免动态增删工具定义,工具变更会导致后续所有动作和观察结果的KV缓存失效[12] - 采用感知上下文的状态机进行logits掩码,而非直接移除工具,防止模型产生格式错误输出[15] - 设计统一工具名前缀(如browser_/shell_),便于在特定状态下强制选择某类工具[18] 外部上下文设计 - 将文件系统作为无限容量的外部记忆,训练模型按需读写文件实现结构化存储[23] - 采用可恢复的压缩策略,保留URL或文件路径等关键信息而非永久删除内容[26] - 状态空间模型若掌握基于文件的记忆能力,可能催生新型高效Agent架构[26] 注意力与错误管理 - 通过复述机制(如todo.md文件)将核心目标持续写入上下文末端,防止50次工具调用链中的目标漂移[27][31] - 保留失败尝试和错误信息在上下文中,使模型能隐式更新内部认知降低重复错误概率[35] - 错误恢复能力是衡量Agent智能的关键指标,但被多数基准测试低估[35] 少样本提示优化 - 少样本提示可能导致行为定式,如在简历审查任务中机械重复相似操作[36] - 通过引入序列化模板变体、调整措辞等增加多样性打破思维定式[37] - 上下文同质化会加剧Agent脆弱性,需保持受控随机性激活模型注意力[38]