上下文工程

搜索文档
Manus「删博跑路」后,创始人首次深度复盘:公开产品细节,总结教训
36氪· 2025-07-19 09:15
公司动态 - Manus AI在爆火四个月后突然几乎全面撤出中国市场,清空全部社交账号内容,国行版本疑似暂停推进[1] - 公司联合创始人张涛宣布已将全球总部迁至新加坡,并在东京和加州设有办公室,官方称这是"基于经营效率的调整"[1] - 外界猜测公司可能正在"跑路",因出海引发裁员等一连串争议问题[1] 技术分享 - 联合创始人季逸超发布技术博客,总结构建Manus过程中积累的经验教训,内容包含实操干货和反思[3] - 博客详细介绍了7项关键技术经验,包括押注上下文工程、KV-Cache命中率优化、工具遮蔽法、文件系统承载持久上下文等[6][7] - 公司通过四次重构和数百万真实交互积累这些经验,对业内同行和普通用户都有参考价值[3] 技术决策 - 团队决定基于前沿模型的上下文学习能力构建Agent,而非训练端到端模型,这使产品更新周期从数周缩短至几小时[10] - 选择押注上下文工程而非模型训练,使产品能与底层模型进步保持正交关系[10] - 这个决策源于创始人此前创业的惨痛教训,当时训练的内部模型因GPT-3等出现而一夜过时[10] 技术优化 - KV-cache命中率被确定为生产阶段AI Agent最重要的单一指标,直接影响延迟和成本[12] - 以Claude Sonnet为例,缓存输入token成本为0.30美元/MTok,未缓存成本为3美元/MTok,相差10倍[13] - 提高命中率的实践包括保持提示前缀稳定、使上下文仅追加、明确标记缓存断点等[16][17][18] 工具管理 - 公司发现动态修改工具列表会让缓存失效、模型混乱,因此采用"遮蔽token logits"方法控制工具选择[19] - 通过上下文感知状态机管理工具可用性,而非动态添加移除工具[20] - 使用三种函数调用模式(自动、必需、指定)和一致前缀的动作名称设计来限制动作选择[23] 上下文管理 - 现代大模型128K token的上下文窗口在真实Agent场景中仍不足,且可能成为负担[25][26][27] - 公司采用可恢复的压缩策略,如保留URL而删除网页内容,避免信息永久丢失[30] - 通过不断重写todo.md文件将全局目标拉回注意力焦点,防止50次工具调用中偏离主题[31][34] 错误处理 - 保留错误日志(失败操作、堆栈信息)能帮助模型更新内部信念,减少重复错误[35][38] - 错误恢复被视为真正Agent行为的最清晰指标之一,但学术工作中代表性不足[38] - 过度清理错误会移除证据,使模型无法适应[35] 提示优化 - 少样本提示可能导致模型陷入同质化陷阱,盲目模仿上下文中的行为模式[39] - 解决方案是引入结构化变化,如不同措辞、顺序或格式的微小噪声[41] - 上下文越统一,Agent越脆弱,需要打破模式调整模型注意力[41]
来自 Manus 的一手分享:如何构建 AI Agent 的上下文工程?
Founder Park· 2025-07-19 02:51
技术路线选择 - 公司选择基于上下文工程而非端到端模型训练,实现几小时内发布改进而非数周迭代[3] - 历史教训显示自研模型易被前沿技术颠覆,如GPT-3与Flan-T5使早期开放信息抽取模型失效[3] - 采用"随机梯度下降"方法四次重构智能体框架,通过手动架构搜索优化上下文塑造[4] KV缓存优化 - KV缓存命中率是核心指标,Claude Sonnet缓存/未缓存的token成本相差10倍(0.3 vs 3美元/百万token)[6][7] - 智能体输入输出token比例达100:1,需保持提示前缀稳定、上下文追加式更新、标记缓存断点提升效率[6][11] - 动态增删工具会破坏KV缓存,应通过上下文感知状态机屏蔽logits而非移除工具[10][12] 上下文管理策略 - 将文件系统作为外化记忆,支持按需读写解决128K上下文窗口限制,保留URL/路径实现可还原压缩[17][19][23] - 通过复述机制(如todo.md文件)操控模型注意力,50次工具调用任务中避免目标偏离[24][27] - 保留错误内容可提升智能体适应性,失败行动记录能降低重复错误概率[28][31] 提示工程实践 - 少样本提示需引入结构化变化防止模式固化,动作/观察序列采用不同模板打破重复性[32] - 函数调用支持Auto/Required/Specified三种模式,通过统一工具前缀实现状态无关约束[15][20] - 上下文工程决定智能体行为边界,需平衡模型原生能力与环境反馈[33][34]
当 LLM 编程陷入“幻觉陷阱”,字节工程师如何用 ABCoder 精准控场
AI科技大本营· 2025-07-16 14:19
AI编程工具的挑战与突破 - 当前大语言模型在复杂企业级编程任务中存在"幻象"问题,常生成不准确或不符合实际的代码 [1] - METR研究显示:16名资深工程师完成246项任务时,使用AI编程助手使开发时间平均增加19%,因审核调试成本过高 [1] - 核心问题在于大模型缺乏对代码语境和业务逻辑的深度理解,即"上下文工程"缺失 [1] ABCoder的技术创新 - 通过抽象语法树(AST)深度解析和结构化表示,构建无歧义的代码"世界观" [2] - 技术突破点在于对代码结构的精准理解,而非直接提升模型智商 [2] - 解决方案有效降低大模型幻象,推动AI编程从"玩具"代码向企业级应用进化 [2] ABCoder的工程实践 - 采用UniAST实现语言中立的代码抽象,具备多维度架构理解能力 [3] - 动态编码上下文补充和领域知识定制化扩展是其核心特性 [3] - 在CloudWeGo项目中验证了后端服务模块开发效率提升效果 [3] 产品生态与开发者资源 - 提供代码理解、代码转换等工具链解决复杂编程痛点 [3] - 开源项目包含解析器和MCP Server,支持通过Trae调用MCP功能 [3] - 直播将展示Trae调用ABCoder的MCP功能实现代码智能理解 [3] 行业应用前景 - 针对后端开发者设计,重点突破效率瓶颈 [5] - 技术方案可优化编程体验,简化后端开发流程 [5] - 代表AI辅助编程在企业级开发场景的落地实践方向 [5]
DeepSeek流量暴跌,全球AI霸主地位遇滑铁卢;90后开发者6个月狂赚8000万;人形机器人A轮5亿融资|混沌AI一周焦点
混沌学园· 2025-07-11 15:55
混沌AI商业实战全国巡讲 - 混沌AI商业实战全国巡讲正式启程,计划覆盖全国20座城市,已成功举办长沙、南昌、福州站,接下来将前往广州和苏州 [1] - 巡讲邀请商学院顶尖教授和AI实战专家组成"混沌AI领教天团",聚焦实战经验分享 [1] - 巡讲为混沌AI创新院二期开幕拉开帷幕,吸引大量"躬身入局者"参与 [2] 具身智能赛道融资热潮 - 星海图完成超1亿美元A4/A5轮融资,Pre-A轮及A轮总融资规模近15亿元,估值较年初增长超3倍 [5][6] - 它石智航完成1.22亿美元天使+轮融资,由美团战投领投,专注于Human-Centric具身数据引擎和空间感知与推理决策大模型 [13] - 云深处完成近5亿元融资,四足机器人产品覆盖电力、消防等高价值场景,海外市场加速扩张 [14] - 星动纪元完成近5亿元A轮融资,人形机器人产品批量交付全球TOP10科技巨头中的9家,海外订单占比超50% [16] AI应用与产品升级 - 飞书发布并升级知识问答、AI会议等多款AI产品,推出业界首个AI应用成熟度标准,加速企业智能化转型 [3] - 百度开源文心大模型4.5系列,涵盖10个模型及配套工具,性能达SOTA水平,降低大模型开发门槛 [21] - 星流Agent上线,专为中文设计师打造,具备全流程自动化设计和多模态内容创作能力 [24] AI技术商业化案例 - Wix以8000万美元收购AI公司Base44,其平台允许用户通过自然语言生成全栈应用代码,大幅降低开发门槛 [7] - 硅基智能完成数亿元D轮融资,数字人业务服务超50万用户,企业成本降低80% [17][19] - 咔皮记账半年内用户超百万,登顶AI记账领域TOP1,解决"想记账但坚持不了"的增量市场 [22] AI技术突破与行业趋势 - 谷歌DeepMind分拆公司Isomorphic Labs首款AI抗癌药启动人体试验,采用AlphaFold3技术精准预测生物分子结构 [12] - "上下文工程"取代提示工程成为硅谷新热点,提升AI智能体效率,重构LLM应用开发范式 [18] - DeepSeek平台用户留存率骤降,但第三方托管模型使用量激增20倍,反映AI模型分发价值链变革 [23]
7月19日,相聚北京!一起聊聊ACL 2025爆点研究
机器之心· 2025-07-10 16:35
AI领域发展动态 - 2025年AI领域持续高速发展,技术更新节奏极快,每隔几周甚至几天就有新突破[1][3][4] - 行业呈现"跟不上就会掉队"的竞争态势,从业者需频繁跟踪arXiv、GitHub等平台的前沿研究[5] - ACL 2025总投稿数达8000多篇创历史新高,反映NLP领域研究热度持续攀升[6] ACL 2025会议亮点 - 会议设置Keynote、论文分享、圆桌对话、Poster交流及企业展位等丰富环节[6] - 上午Keynote由哈工大车万翔教授主讲ACL 2025趋势及展望,分析NLP研究重点与演化方向[9][15][17] - 下午Keynote由上海交大刘鹏飞副教授探讨大模型强化学习与复杂推理的突破与应用[11][19] - 圆桌对话聚焦"上下文工程"的价值探讨,吸引行业高度关注[11] 重要研究成果 - 清华大学邱寒团队研究LLMs内在自我修正机制的潜在问题[9] - 北京大学团队探索语言模型对齐抵抗现象的数据证据[9] - 南京大学程紫峰提出无需训练的Token Prepending方法提升句子嵌入质量[12] - 哈工大团队开发Token Recycling技术加速大模型推理[12] - 清华团队研发APB技术通过跨GPU传递压缩上下文块加速长上下文推理[12] 行业活动与合作 - 机器之心联合举办多场顶级学术会议活动,包括ICLR、CVPR、NeurIPS等[25] - 活动提供企业展台等合作形式,助力合作伙伴吸纳人才和品牌建设[26] - 会议通过机器之心视频号和黄大年茶思屋科技网站进行双平台直播[21][23]
苹果开发者自曝用Claude完成95%开发,开发应用已上架
量子位· 2025-07-07 17:35
核心观点 - 苹果开发者使用Claude Code成功构建了一款20,000行代码的macOS应用Context,其中95%的代码由Claude生成,开发者仅手动编写不到1,000行代码[4][10] - Claude Code在SwiftUI开发中表现优异,能生成准确但需迭代优化的UI代码,同时能处理测试、编译、修复错误等全流程开发任务[12][14][26] - 开发者通过"预设Agent"和"上下文工程"方法显著提升Claude输出质量,包括创建CLAUDE.md文件指导API选择,并利用200k tokens上下文窗口优化性能[19][20][21] - Claude Code已累计被11.5万开发者使用,单周处理1.95亿行代码,相当于1.3亿美元年薪的初级工程师产能[35][36] 开发流程优化 - **Agent循环取代传统IDE**:Claude通过文本框输入提示词直接定位源代码、理解设计模式、生成测试并迭代修复,替代传统开发环境[12] - **扩展思考模式**:使用"think"到"ultrathink"分级提示词激活深度思考,消耗更多token但产出更优解决方案[25] - **自动化反馈循环**:Claude自主驱动构建-测试-修复循环,配合XcodeBuildMCP工具实现高效迭代,仅交互式BUG需人工介入[26][27] 技术能力边界 - **SwiftUI优势**:在Swift 5.5及之前版本表现突出,能生成功能准确的基础UI代码,但美学设计需多次迭代优化[13][14] - **现代API挑战**:对Swift Concurrency等新特性存在理解偏差,需通过CLAUDE.md文件补充规范说明[18][19] - **上下文限制**:200k tokens窗口下性能随用量增加下降,采用预设Agent预先加载关键文档可缓解信息丢失问题[20][21] 生产力变革 - **开发效率跃升**:开发者6年来首次成功发布副项目,相当于每日获得5小时额外开发时间,月成本仅200美元[9][34] - **多任务处理能力**:除编码外可完成文案编辑、功能规划、生成模拟数据等任务,加速UI原型开发[28][29] - **自动化脚本构建**:成功创建2,000行Python发布脚本实现全流程部署,CLI输出美化仅需单行提示词[30][31] 行业影响 - **IDE形态重构**:未来开发环境将转向以Agent上下文预设和反馈循环为核心,弱化传统源代码编辑器地位[33] - **开发者生态数据**:Claude Code上线后快速覆盖11.5万开发者,单周代码处理量达1.95亿行,展现规模化应用潜力[35]
Karpathy最新脑洞「细菌编程」:优秀的代码应该具备细菌的三大特质
量子位· 2025-07-07 12:02
细菌编程概念 - 大神Karpathy提出"细菌编程"新概念 其核心特点是代码块小而精 模块化 自包含且易于复制粘贴[1] - 细菌编程灵感来源于生物演化策略 通过"水平基因转移"机制促进开源社区发展[2][6] - 该理念被网友评价为"近十年来最有趣的帖子" 引发广泛讨论[3][4] 细菌编程三大法则 - **小**:每行代码需消耗能量 类似细菌DNA的自我精简机制[8] - **模块化**:代码应组织成类似细菌"操纵子"的功能簇 实现高内聚低耦合的即插即用[11] - **自包含**:代码需支持"水平基因转移" 不依赖复杂配置即可被直接复用[12][13] 软件3.0时代 - Karpathy提出软件发展三阶段:1 0传统编程 2 0神经网络权重参数 3 0自然语言编程大模型[23][24][25] - 软件3 0标志性特征是用提示词(prompt)作为程序 实现英语等自然语言编程[24] - 未来十年需重构海量代码 形成"人类+大模型"协同模式 逐步实现企业级工作流智能化[27][28][29] 其他创新概念 - **氛围编程(Vibe coding)**:基于大模型理解自然语言的能力 使任何人都有可能编程[32] - **上下文工程**:需精准控制LLM上下文窗口信息 整合任务说明 示例演示 RAG等多要素[36][37][39] - 基础设施需适配AI agent 现有软件交互界面应增加机器可读的LLM txt指引[34][35]
腾讯研究院AI速递 20250707
腾讯研究院· 2025-07-06 22:05
Grok 4性能突破 - Grok 4在HLE测试中得分45%,超越Gemini 2.5 Pro和Claude 4 Opus [1] - 采用"第一性原理"构建推理机制,从基本公理层面分析问题 [1] - 将分Grok 4和Grok 4 Code两个版本,强化编码能力,预计7月4日后发布 [1] Gemini CLI功能升级 - 新增音视频输入功能扩展多模态交互能力,目前支持文本/图片/PDF处理 [2] - 增强Markdown功能并集成VSCodium/Neovim编辑器,提升开发体验 [2] - 技术栈升级至Ink 6和React 19,优化历史记录压缩算法提高性能 [2] 昆仑万维奖励模型 - Skywork-Reward-V2系列刷新七大评测榜单,参数规模6亿至80亿 [3] - 采用两阶段迭代数据甄选流水线,从4000万样本筛选2600万高质量数据 [3] - 1.7B小参数模型性能接近70B大模型,证明高质量数据可抵消参数限制 [3] DeepSeek R1开源进展 - 德国TNG开源DeepSeek-TNG-R1T2-Chimera模型,基于三大模型混合开发 [4] - 推理效率比R1-0528提升200%,降低推理成本且主流测试表现更优 [5] - 创新AoE架构利用MoE细粒度结构,通过权重插值优化子模型性能 [5] Excel Agent技术突破 - Shortcut成为首个超越人类的Excel Agent,10分钟解决世锦赛难题 [6] - 功能兼容性近乎完美,可处理金融建模/数据分析/像素艺术等复杂任务 [6] - 早期预览阶段存在格式化弱/长对话不佳/复杂数据易宕机等局限 [6] Sekai视频数据集 - 上海AI Lab开源5000+小时第一人称视频,覆盖101国750城 [7] - 分为真实世界Sekai-Real和虚拟场景Sekai-Game,含多维标签 [7] - 基于数据训练Yume模型支持键鼠控制视频生成,助力视频研究 [7] 医疗AI突破 - ChatGPT识别MTHFR A1298C基因突变,被称为医疗界AlphaGo时刻 [8] - 微软MAI-DxO系统诊断NEJM病例准确率85%,是医生的四倍 [8] - 医疗AI正成为全流程解决方案,开启AI+医生共治模式 [8] 上下文工程兴起 - 上下文工程取代提示工程成为AI智能体成功关键因素 [9] - 关注为LLM提供完整系统包括指令/历史/工具等全方位信息 [9] - 智能体失败多因上下文问题而非模型本身 [9] AI重塑市场调研 - 生成式AI将1400亿美元传统调研转变为持续动态竞争优势 [10] - AI原生公司构建"虚拟社会"模拟用户行为,实现实时低成本调研 [10] - CMO认为70%准确率+实时更新比传统方式更具商业价值 [10] 企业AI创业趋势 - 企业级AI需解决真实环境中用户行为不可预测等"最后一公里"问题 [11] - 顶尖AI公司年增长率达10倍以上,受益于采购行为变革 [11] - 通过数据权威/工作流锁定/垂直整合等方式构建竞争壁垒 [11]
Karpathy:我不是要造新词,是「上下文工程」对 Agent 来说太重要了
Founder Park· 2025-07-04 21:10
上下文工程概念 - 决定AI应用效果的关键在于提供完整且恰当的上下文而非单纯优化提示词[3] - 上下文工程是一门精妙的艺术与科学需精准填充信息包括任务描述示例RAG多模态数据工具等[7] - 上下文窗口需平衡信息量与相关性过量或不足均影响性能[7] 与提示词工程的区别 - 提示词仅为用户输入的文本指令如让ChatGPT总结文本[16] - 提示词工程是系统化设计测试优化提示词的方法论类似软件工程[17] - 上下文工程是动态系统设计在正确时间以正确格式提供信息与工具[19] - 三者关系:提示词是输入文本提示词工程优化过程上下文工程构建动态系统[20] 重要性体现 - AI Agent效能核心取决于上下文质量而非代码复杂度[24] - 案例对比:普通Agent仅处理简单请求而优质Agent整合日历历史邮件等上下文实现高效响应[25] 落地策略分类 写入上下文 - 草稿板机制持久化保存任务计划避免token截断[31] - 长期记忆跨会话存储如ChatGPT的生成式记忆[32][35] 筛选上下文 - 从草稿板或记忆中提取相关片段如少样本示例或指令[37][38] - 工具选择采用RAG技术提升3倍准确率[41] - RAG挑战包括代码索引与语义分块需结合知识图谱检索[42] 压缩上下文 - 自动摘要技术处理长交互如Claude Code的95%窗口压缩[43] - 修剪策略包括硬编码规则或训练专用裁剪模型[46] 隔离上下文 - 多Agent架构分配独立上下文窗口专注子任务[48][50] - 沙盒环境隔离消耗性资源如HuggingFace的CodeAgent[53][54] - 运行时状态对象选择性暴露字段实现隔离[55] 行业动态 - Andrej Karpathy强调工业级LLM应用中上下文组件复杂性被低估[10] - LangChain与DeepMind工程师推动上下文工程方法论标准化[3][56]
登上热搜!Prompt不再是AI重点,新热点是Context Engineering
机器之心· 2025-07-03 16:01
上下文工程的核心概念 - 将LLM视为通用的、不确定的文本生成函数而非拟人化实体 强调其无状态特性 需通过输入文本来控制输出[4][5][8] - 上下文工程的核心在于构建有效输入文本系统 而非依赖单句"魔法咒语"式的提示词工程[9][11] - LLM被类比为新型操作系统 需要为其准备完整运行环境而非零散指令[13] 上下文工程的技术要素 - 采用自动化系统构建"信息流水线" 从多源自动抓取整合数据形成完整上下文[15][17] - 工具箱包含四大核心工具:指令下达、知识记忆管理、检索增强生成(RAG)、智能体自主查资料[19][21] - RAG技术通过知识库检索防止模型幻觉 确保回答基于事实[19] - 智能体技术实现动态信息获取 自主判断需求并整合多源数据[21] 工程实践方法论 - 采用科学实验式流程 分"从后往前规划"和"从前往后构建"两阶段实施[23][24][25] - 实施路径:明确输出目标→倒推所需输入→设计自动化生产系统[26] - 模块化开发流程:依次测试数据接口、搜索功能、打包程序 最终进行端到端系统测试[30] - LangChain生态提供实践支持 包括LangGraph和LangSmith等工具[29][31]