上下文工程

搜索文档
Manus“删博、裁员、跑路新加坡”后,创始人首次复盘经验教训
虎嗅· 2025-07-19 14:44
公司发展历程 - 公司Manus因"全球首个通用Agent"概念在3月走红,被称为中国的"第二个DeepSeek时刻" [4] - 5月完成由硅谷顶级风投Benchmark领投的7500万美元B轮融资,估值飙升至5亿美元 [5] - 6月底被曝出无预警裁员、创始团队删博、公司主体搬到新加坡等争议事件 [6][7] 技术策略与创新 - 选择上下文工程而非端到端自研大模型,基于开源或商业大模型最大化现有能力 [8] - KV缓存命中率是代理系统核心指标,输入输出Token比高达100:1,缓存可节省10倍成本 [20] - 用文件系统作为无限上下文,解决长上下文窗口限制问题,信息可随时存取 [9][37] - 通过显式"背诵"机制操控模型注意力,自动生成todo.md文件保持任务聚焦 [10][46] - 保留错误信息帮助模型自我修正,减少同类错误发生概率 [11][50] 产品设计原则 - 遮蔽而非移除工具管理,通过屏蔽Token概率保持灵活性同时避免缓存失效 [8][28] - 避免动态增减工具,确保提示前缀稳定和上下文仅追加不修改 [25] - 增加动作和观察的多样性,打破固定模式提升代理鲁棒性 [54][55] 行业影响与争议 - 公司被质疑利用中国工程师资源打造产品后迅速融资并裁员跑路 [2] - 联合创始人发长文回应技术路线但未解释裁员和搬迁新加坡等关键问题 [14][15] - 公司技术探索获认可,但能否将技术转化为实际用户价值仍存疑 [16] 创始人观点 - 上下文工程是新兴实验科学,核心在于通过上下文塑造代理行为而非比拼模型本身 [12][56] - 智能代理未来需通过精心设计的情境逐步构建,强调实践迭代的重要性 [57]
回应撤离中国市场原因,Manus首度披露技术侧经验教训
第一财经· 2025-07-19 14:17
Manus战略调整与技术路线 - 公司近期撤出中国市场并清空国内社交账号内容,全力转战海外市场,官方解释为经营效率调整及国际化布局 [2] - 联合创始人季逸超发布技术博客,首次从技术角度回应,总结Agent研发与训练经验教训 [2] - 技术路线侧重押注上下文工程,通过构造"记忆"与流程实现产品快速迭代,核心目标是节省底层模型训练成本并提高训练效率 [2] 上下文工程的技术细节 - 上下文在大模型中指任务处理时参考的信息集合,可增强模型理解能力、任务性能及输出连贯性 [3] - 月之暗面Kimi创始人杨植麟认为无损长上下文是实现AI-native产品个性化交互的关键,用户交互历史是最佳个性化过程 [3] - KV-Cache命中率是Transformer模型推理阶段效率核心,高命中率可提升推理效率、优化资源利用率并降低计算成本 [3] 公司技术路线的决策背景 - 季逸超基于Peak Labs教训,避免从头训练模型(如开放信息提取和语义搜索模型),因GPT-3等现成模型的出现使自研模型失去竞争力 [4] - 创业Manus后团队放弃基座模型研发,选择使用开源基础模型训练端到端Agent或基于前沿模型上下文能力构建Agent [5] - 经历四次Agent框架调整才实现局部最优解,但依赖外部多模型组合与工程优化,任务执行连贯性与准确性弱于OpenAI端到端训练的ChatGPT Agent [5] 行业竞争与挑战 - OpenAI凭借底层模型优势将Agent行业带入拐点,吸引开发者与用户至大厂平台,创业公司面临市场份额争夺压力 [5] - Agent类产品存在同质化严重、商业模式不明、成本高企等困境,上下文工程等亮点不足以让创业公司脱颖而出 [5]
Manus季逸超:构建Manus的经验教训 | Jinqiu Select
锦秋集· 2025-07-19 13:00
通用型AI Agent技术路线 - 业界形成两条技术路线:端到端训练和上下文工程 模型厂商倾向端到端训练以发挥自有闭源模型优势 而通用Agent创业公司多选择上下文工程路径[1] - Manus团队作为上下文工程代表 其技术负责人季逸超因GPT-3导致自研模型失效经历 选择成为"涨潮中的船"而非"固定支柱"的技术哲学[4] - 上下文工程通过四次系统重构和服务数百万用户验证 将产品迭代周期从数周缩短至数小时[2][5] KV-Cache优化实践 - KV-cache命中率是生产阶段AI代理最关键指标 直接影响延迟和成本 Claude Sonnet缓存/未缓存token成本相差10倍(0.3 vs 3美元/MTok)[7] - 优化方法包括:保持提示前缀稳定 使用仅追加上下文 确保序列化确定性 手动标记缓存断点 分布式节点路由技术[9][10][11] - Manus平均输入与输出token比率达100:1 通过缓存优化实现10倍成本降低[7] 工具管理策略 - 动态修改工具定义会导致KV-cache失效和模型混淆 Manus采用token logits屏蔽技术替代动态修改[12][13] - 设计工具命名一致性(如browser_/shell_前缀) 结合三种函数调用模式(Auto/Required/Specified)实现上下文感知约束[16] 上下文扩展技术 - 突破128K token限制:将文件系统作为外部化内存 保留可恢复压缩策略(如仅存URL) 实现无限上下文存储[18][22] - 创建并持续更新todo.md文件 通过自然语言复述将任务目标保持在模型注意力焦点 解决50次工具调用中的目标偏离问题[23][26] 错误处理与多样性 - 保留错误内容可让模型从失败动作中学习 错误恢复能力是真实代理行为的关键指标[27][30] - 避免few-shot陷阱 通过引入动作/观察的结构化变化打破重复模式 防止模型陷入固定行为路径[31][32][33] 行业发展趋势 - 上下文工程成为代理系统必备能力 模型进步需结合内存/环境/反馈设计 未来代理将基于上下文迭代构建[35] - 创业团队通过轻量级技术路径验证 锦秋基金关注AI Agent赛道早期创新项目[3][36]
Manus「删博跑路」后,创始人首次深度复盘:公开产品细节,总结教训
36氪· 2025-07-19 09:15
公司动态 - Manus AI在爆火四个月后突然几乎全面撤出中国市场,清空全部社交账号内容,国行版本疑似暂停推进[1] - 公司联合创始人张涛宣布已将全球总部迁至新加坡,并在东京和加州设有办公室,官方称这是"基于经营效率的调整"[1] - 外界猜测公司可能正在"跑路",因出海引发裁员等一连串争议问题[1] 技术分享 - 联合创始人季逸超发布技术博客,总结构建Manus过程中积累的经验教训,内容包含实操干货和反思[3] - 博客详细介绍了7项关键技术经验,包括押注上下文工程、KV-Cache命中率优化、工具遮蔽法、文件系统承载持久上下文等[6][7] - 公司通过四次重构和数百万真实交互积累这些经验,对业内同行和普通用户都有参考价值[3] 技术决策 - 团队决定基于前沿模型的上下文学习能力构建Agent,而非训练端到端模型,这使产品更新周期从数周缩短至几小时[10] - 选择押注上下文工程而非模型训练,使产品能与底层模型进步保持正交关系[10] - 这个决策源于创始人此前创业的惨痛教训,当时训练的内部模型因GPT-3等出现而一夜过时[10] 技术优化 - KV-cache命中率被确定为生产阶段AI Agent最重要的单一指标,直接影响延迟和成本[12] - 以Claude Sonnet为例,缓存输入token成本为0.30美元/MTok,未缓存成本为3美元/MTok,相差10倍[13] - 提高命中率的实践包括保持提示前缀稳定、使上下文仅追加、明确标记缓存断点等[16][17][18] 工具管理 - 公司发现动态修改工具列表会让缓存失效、模型混乱,因此采用"遮蔽token logits"方法控制工具选择[19] - 通过上下文感知状态机管理工具可用性,而非动态添加移除工具[20] - 使用三种函数调用模式(自动、必需、指定)和一致前缀的动作名称设计来限制动作选择[23] 上下文管理 - 现代大模型128K token的上下文窗口在真实Agent场景中仍不足,且可能成为负担[25][26][27] - 公司采用可恢复的压缩策略,如保留URL而删除网页内容,避免信息永久丢失[30] - 通过不断重写todo.md文件将全局目标拉回注意力焦点,防止50次工具调用中偏离主题[31][34] 错误处理 - 保留错误日志(失败操作、堆栈信息)能帮助模型更新内部信念,减少重复错误[35][38] - 错误恢复被视为真正Agent行为的最清晰指标之一,但学术工作中代表性不足[38] - 过度清理错误会移除证据,使模型无法适应[35] 提示优化 - 少样本提示可能导致模型陷入同质化陷阱,盲目模仿上下文中的行为模式[39] - 解决方案是引入结构化变化,如不同措辞、顺序或格式的微小噪声[41] - 上下文越统一,Agent越脆弱,需要打破模式调整模型注意力[41]
来自 Manus 的一手分享:如何构建 AI Agent 的上下文工程?
Founder Park· 2025-07-19 02:51
技术路线选择 - 公司选择基于上下文工程而非端到端模型训练,实现几小时内发布改进而非数周迭代[3] - 历史教训显示自研模型易被前沿技术颠覆,如GPT-3与Flan-T5使早期开放信息抽取模型失效[3] - 采用"随机梯度下降"方法四次重构智能体框架,通过手动架构搜索优化上下文塑造[4] KV缓存优化 - KV缓存命中率是核心指标,Claude Sonnet缓存/未缓存的token成本相差10倍(0.3 vs 3美元/百万token)[6][7] - 智能体输入输出token比例达100:1,需保持提示前缀稳定、上下文追加式更新、标记缓存断点提升效率[6][11] - 动态增删工具会破坏KV缓存,应通过上下文感知状态机屏蔽logits而非移除工具[10][12] 上下文管理策略 - 将文件系统作为外化记忆,支持按需读写解决128K上下文窗口限制,保留URL/路径实现可还原压缩[17][19][23] - 通过复述机制(如todo.md文件)操控模型注意力,50次工具调用任务中避免目标偏离[24][27] - 保留错误内容可提升智能体适应性,失败行动记录能降低重复错误概率[28][31] 提示工程实践 - 少样本提示需引入结构化变化防止模式固化,动作/观察序列采用不同模板打破重复性[32] - 函数调用支持Auto/Required/Specified三种模式,通过统一工具前缀实现状态无关约束[15][20] - 上下文工程决定智能体行为边界,需平衡模型原生能力与环境反馈[33][34]
当 LLM 编程陷入“幻觉陷阱”,字节工程师如何用 ABCoder 精准控场
AI科技大本营· 2025-07-16 14:19
AI编程工具的挑战与突破 - 当前大语言模型在复杂企业级编程任务中存在"幻象"问题,常生成不准确或不符合实际的代码 [1] - METR研究显示:16名资深工程师完成246项任务时,使用AI编程助手使开发时间平均增加19%,因审核调试成本过高 [1] - 核心问题在于大模型缺乏对代码语境和业务逻辑的深度理解,即"上下文工程"缺失 [1] ABCoder的技术创新 - 通过抽象语法树(AST)深度解析和结构化表示,构建无歧义的代码"世界观" [2] - 技术突破点在于对代码结构的精准理解,而非直接提升模型智商 [2] - 解决方案有效降低大模型幻象,推动AI编程从"玩具"代码向企业级应用进化 [2] ABCoder的工程实践 - 采用UniAST实现语言中立的代码抽象,具备多维度架构理解能力 [3] - 动态编码上下文补充和领域知识定制化扩展是其核心特性 [3] - 在CloudWeGo项目中验证了后端服务模块开发效率提升效果 [3] 产品生态与开发者资源 - 提供代码理解、代码转换等工具链解决复杂编程痛点 [3] - 开源项目包含解析器和MCP Server,支持通过Trae调用MCP功能 [3] - 直播将展示Trae调用ABCoder的MCP功能实现代码智能理解 [3] 行业应用前景 - 针对后端开发者设计,重点突破效率瓶颈 [5] - 技术方案可优化编程体验,简化后端开发流程 [5] - 代表AI辅助编程在企业级开发场景的落地实践方向 [5]
DeepSeek流量暴跌,全球AI霸主地位遇滑铁卢;90后开发者6个月狂赚8000万;人形机器人A轮5亿融资|混沌AI一周焦点
混沌学园· 2025-07-11 15:55
混沌AI商业实战全国巡讲 - 混沌AI商业实战全国巡讲正式启程,计划覆盖全国20座城市,已成功举办长沙、南昌、福州站,接下来将前往广州和苏州 [1] - 巡讲邀请商学院顶尖教授和AI实战专家组成"混沌AI领教天团",聚焦实战经验分享 [1] - 巡讲为混沌AI创新院二期开幕拉开帷幕,吸引大量"躬身入局者"参与 [2] 具身智能赛道融资热潮 - 星海图完成超1亿美元A4/A5轮融资,Pre-A轮及A轮总融资规模近15亿元,估值较年初增长超3倍 [5][6] - 它石智航完成1.22亿美元天使+轮融资,由美团战投领投,专注于Human-Centric具身数据引擎和空间感知与推理决策大模型 [13] - 云深处完成近5亿元融资,四足机器人产品覆盖电力、消防等高价值场景,海外市场加速扩张 [14] - 星动纪元完成近5亿元A轮融资,人形机器人产品批量交付全球TOP10科技巨头中的9家,海外订单占比超50% [16] AI应用与产品升级 - 飞书发布并升级知识问答、AI会议等多款AI产品,推出业界首个AI应用成熟度标准,加速企业智能化转型 [3] - 百度开源文心大模型4.5系列,涵盖10个模型及配套工具,性能达SOTA水平,降低大模型开发门槛 [21] - 星流Agent上线,专为中文设计师打造,具备全流程自动化设计和多模态内容创作能力 [24] AI技术商业化案例 - Wix以8000万美元收购AI公司Base44,其平台允许用户通过自然语言生成全栈应用代码,大幅降低开发门槛 [7] - 硅基智能完成数亿元D轮融资,数字人业务服务超50万用户,企业成本降低80% [17][19] - 咔皮记账半年内用户超百万,登顶AI记账领域TOP1,解决"想记账但坚持不了"的增量市场 [22] AI技术突破与行业趋势 - 谷歌DeepMind分拆公司Isomorphic Labs首款AI抗癌药启动人体试验,采用AlphaFold3技术精准预测生物分子结构 [12] - "上下文工程"取代提示工程成为硅谷新热点,提升AI智能体效率,重构LLM应用开发范式 [18] - DeepSeek平台用户留存率骤降,但第三方托管模型使用量激增20倍,反映AI模型分发价值链变革 [23]
7月19日,相聚北京!一起聊聊ACL 2025爆点研究
机器之心· 2025-07-10 16:35
AI领域发展动态 - 2025年AI领域持续高速发展,技术更新节奏极快,每隔几周甚至几天就有新突破[1][3][4] - 行业呈现"跟不上就会掉队"的竞争态势,从业者需频繁跟踪arXiv、GitHub等平台的前沿研究[5] - ACL 2025总投稿数达8000多篇创历史新高,反映NLP领域研究热度持续攀升[6] ACL 2025会议亮点 - 会议设置Keynote、论文分享、圆桌对话、Poster交流及企业展位等丰富环节[6] - 上午Keynote由哈工大车万翔教授主讲ACL 2025趋势及展望,分析NLP研究重点与演化方向[9][15][17] - 下午Keynote由上海交大刘鹏飞副教授探讨大模型强化学习与复杂推理的突破与应用[11][19] - 圆桌对话聚焦"上下文工程"的价值探讨,吸引行业高度关注[11] 重要研究成果 - 清华大学邱寒团队研究LLMs内在自我修正机制的潜在问题[9] - 北京大学团队探索语言模型对齐抵抗现象的数据证据[9] - 南京大学程紫峰提出无需训练的Token Prepending方法提升句子嵌入质量[12] - 哈工大团队开发Token Recycling技术加速大模型推理[12] - 清华团队研发APB技术通过跨GPU传递压缩上下文块加速长上下文推理[12] 行业活动与合作 - 机器之心联合举办多场顶级学术会议活动,包括ICLR、CVPR、NeurIPS等[25] - 活动提供企业展台等合作形式,助力合作伙伴吸纳人才和品牌建设[26] - 会议通过机器之心视频号和黄大年茶思屋科技网站进行双平台直播[21][23]
苹果开发者自曝用Claude完成95%开发,开发应用已上架
量子位· 2025-07-07 17:35
核心观点 - 苹果开发者使用Claude Code成功构建了一款20,000行代码的macOS应用Context,其中95%的代码由Claude生成,开发者仅手动编写不到1,000行代码[4][10] - Claude Code在SwiftUI开发中表现优异,能生成准确但需迭代优化的UI代码,同时能处理测试、编译、修复错误等全流程开发任务[12][14][26] - 开发者通过"预设Agent"和"上下文工程"方法显著提升Claude输出质量,包括创建CLAUDE.md文件指导API选择,并利用200k tokens上下文窗口优化性能[19][20][21] - Claude Code已累计被11.5万开发者使用,单周处理1.95亿行代码,相当于1.3亿美元年薪的初级工程师产能[35][36] 开发流程优化 - **Agent循环取代传统IDE**:Claude通过文本框输入提示词直接定位源代码、理解设计模式、生成测试并迭代修复,替代传统开发环境[12] - **扩展思考模式**:使用"think"到"ultrathink"分级提示词激活深度思考,消耗更多token但产出更优解决方案[25] - **自动化反馈循环**:Claude自主驱动构建-测试-修复循环,配合XcodeBuildMCP工具实现高效迭代,仅交互式BUG需人工介入[26][27] 技术能力边界 - **SwiftUI优势**:在Swift 5.5及之前版本表现突出,能生成功能准确的基础UI代码,但美学设计需多次迭代优化[13][14] - **现代API挑战**:对Swift Concurrency等新特性存在理解偏差,需通过CLAUDE.md文件补充规范说明[18][19] - **上下文限制**:200k tokens窗口下性能随用量增加下降,采用预设Agent预先加载关键文档可缓解信息丢失问题[20][21] 生产力变革 - **开发效率跃升**:开发者6年来首次成功发布副项目,相当于每日获得5小时额外开发时间,月成本仅200美元[9][34] - **多任务处理能力**:除编码外可完成文案编辑、功能规划、生成模拟数据等任务,加速UI原型开发[28][29] - **自动化脚本构建**:成功创建2,000行Python发布脚本实现全流程部署,CLI输出美化仅需单行提示词[30][31] 行业影响 - **IDE形态重构**:未来开发环境将转向以Agent上下文预设和反馈循环为核心,弱化传统源代码编辑器地位[33] - **开发者生态数据**:Claude Code上线后快速覆盖11.5万开发者,单周代码处理量达1.95亿行,展现规模化应用潜力[35]
Karpathy最新脑洞「细菌编程」:优秀的代码应该具备细菌的三大特质
量子位· 2025-07-07 12:02
细菌编程概念 - 大神Karpathy提出"细菌编程"新概念 其核心特点是代码块小而精 模块化 自包含且易于复制粘贴[1] - 细菌编程灵感来源于生物演化策略 通过"水平基因转移"机制促进开源社区发展[2][6] - 该理念被网友评价为"近十年来最有趣的帖子" 引发广泛讨论[3][4] 细菌编程三大法则 - **小**:每行代码需消耗能量 类似细菌DNA的自我精简机制[8] - **模块化**:代码应组织成类似细菌"操纵子"的功能簇 实现高内聚低耦合的即插即用[11] - **自包含**:代码需支持"水平基因转移" 不依赖复杂配置即可被直接复用[12][13] 软件3.0时代 - Karpathy提出软件发展三阶段:1 0传统编程 2 0神经网络权重参数 3 0自然语言编程大模型[23][24][25] - 软件3 0标志性特征是用提示词(prompt)作为程序 实现英语等自然语言编程[24] - 未来十年需重构海量代码 形成"人类+大模型"协同模式 逐步实现企业级工作流智能化[27][28][29] 其他创新概念 - **氛围编程(Vibe coding)**:基于大模型理解自然语言的能力 使任何人都有可能编程[32] - **上下文工程**:需精准控制LLM上下文窗口信息 整合任务说明 示例演示 RAG等多要素[36][37][39] - 基础设施需适配AI agent 现有软件交互界面应增加机器可读的LLM txt指引[34][35]