Workflow
上下文工程
icon
搜索文档
AI产品用户留存仅三个月周期?对话王咏刚:“不和AI协作过项目,你就不是合格程序员” | 万有引力
AI科技大本营· 2026-02-12 18:11
文章核心观点 - AI技术正在重塑创造方式,引发关于程序员角色定位的广泛讨论,但比结论更重要的是身处变革一线实践者的答案 [1] - 当前AI技术形势良好但商业模式扑朔迷离,多数应用仍处于早期尝鲜阶段,尚未形成明确的商业落地路径 [11][12] - 人机协作模式发生根本性范式转移,从确定性的工具使用转变为与具有不确定性的AI进行协商与合作 [14][16] - 当前一代Transformer-based AI的能力上限可能是人类的平均知识水平,要实现超越人类的高级智能可能需要算法基础的升级 [24][25] - AI在影视内容生产等领域的渗透正在加速,并开始颠覆传统工作流,但技术成熟度与艺术质量仍需时间提升 [30][50] - AI创业充满不确定性,应用产品普遍面临用户生命周期短的挑战,成功的关键在于解决实际刚需问题 [59][72][75] - AI编程工具替代的不仅是传统IDE市场,更是初级程序员的人力资源市场,程序员的培养路径和技能要求将发生根本性改变 [78][82][88] AI技术现状与商业落地 - 当前AI技术被拔得很高,但与“真正解决人类问题”之间在很多领域距离尚远 [12] - ChatGPT出现近三年,AI被认为只解决了编程这一件可以日常高频使用的事情 [12] - 大量AI应用的用户构成仍以尝鲜者为主,不代表普惠的受众群体 [13] - 当向传统行业普通用户演示通用AI Agent时,其反馈往往是觉得不如Excel等传统工具好用 [13] - 绝大多数AI产品的付费用户或核心用户生命周期平均只有三个月 [73] - 用户流失原因包括:使用几次后因需反复“抽卡”而感到疲惫;市场上不断出现新功能产品导致用户转移 [74] - 目前能跳出“三个月生命周期”的产品只有两类:变成刚需的基础大模型(如ChatGPT、Claude);真正解决了实际问题的产品(如编程工具) [75] 人机协作与范式转移 - 资深程序员已彻底转变工作方式,从亲手写代码转变为完全让AI产出代码,代码产出量非常大 [14] - 与AI协作的关键不是谁控制谁,而是一起找到“合拍”的方式,类似于与背景不同的人合作 [14] - 不同的AI模型(如GPT、Claude、DeepSeek)如同不同性格和能力的人,需要采用不同的配合方法 [15] - 颠覆性的变化来自于人和电脑交互方式的根本改变,从确定性指令转变为与具有概率性输出的AI协商 [16] - 传统以人类指令驱动的操作系统和硬件设计理念,在未来需要转变为AI与人类相互协商的模式 [16] - 与AI结对编程时,会通过类似“claude.md”的文件记录双方的协商协议,持续磨合工作方式 [17] - 这一代AI恰恰是为了解决过去解决不好的不确定性问题而出现的,确定性问题可交由传统工具处理 [18] - 当前与AI的合作,更像是人和一个初级实习生合作,需要琢磨其脾气、长处和弱点,并商量工作方法 [20] AI的能力边界与上限 - 当前AI最擅长解决编程相关问题,在不少场景下可直接替代人类 [19] - 在需要逻辑推演的不确定领域(如辅助数学解题、组织报告、分析数据),AI表现已不错 [19] - 但在真正需要艺术创意和深度洞察的领域,AI能力很弱,其给出的答案往往很“水” [19] - AI的真正强项在于模仿,其“创造性”输出本质上是已有元素的组合,即“组合式创造” [19][21] - 让AI进行真正意义上的、包含别人没有的东西的创造非常困难 [21] - 个人判断,这一代Transformer-based的知识压缩算法,可能只是把人类的平均知识做数学抽象并储存 [24] - 人类突破性创造者的数据可能被淹没在海量平均水平的作品中,AI难以提炼出高水平知识 [24] - 在数学基础上,当前一代AI可能也不支持达到预期的AGI(通用人工智能)水平 [26] - 在这一代技术框架下,突破能力上限很难,但新的、未知的技术可能会出现 [27] AI在视频生成与多模态领域的进展 - 行业共识认为大语言模型的竞争可能告一段落,核心将转向“卷”多模态 [30] - 视频生成时长已从最初几秒不断拉长,细节实现更好 [30] - AI在多模态内容生产的艺术造诣和审美能力上还有很长的路要走,需达到初级电影学院毕业者的水平,预计还需一两年甚至更长时间 [30] - 在动画视频生成领域,如果完全放手让AI自由发挥,结果会变成“放羊”状态 [33] - 网上看到的创意AI短视频、短剧,不外乎是大量人类控制加上大量人类“抽卡”筛选的结果 [33] - 普通用户使用AI视频工具时,常感到成品不符合预期,但不知问题出在哪里以及如何修改 [34] - AI生成的视频常存在“塑料感”问题,即动作和环境虽精准,但质感虚假,像塑料小人在动 [36] - 解决“塑料感”需通过技术控制,例如优化视频首帧,加入对光照(如午后自然光、丁达尔现象)、皮肤质感(雀斑、汗毛)、环境细节(墙面斑驳、器物老化)的引导 [41] - 控制的关键在于控制变量,若在每一帧都进行调整,画面容易“飞掉” [42] - 通过搭建专属工作流(如基于ComfyUI),可让AI严格遵循首帧风格,并对后续帧的关键变量(如人物姿态、深度图)进行精确控制,提高生成高质量视频的概率 [42] - 在2D动漫微短剧及故事性微广告剧领域,AI渗透率已经非常高,从流程角度看可承担约60%的工作量,人类完成剩余40% [54] - 在3D动画短剧领域,AI成本仍相对较高 [55] - 在大番剧、大型电视剧或电影中,AI主要作为特殊场景(如宇宙现象、科幻景观)的素材补充 [55] - AI未来若能分担如《哪吒》这类高水平3D电影的一半工作量,将制作周期从五年缩短至一年,将对影视工业产生革命性影响 [55] - 当前AI输出素材与电影工业标准(LOG格式灰片)不兼容(AI输出为RGB 709格式),是技术流程上的一个障碍 [57] AI创业、投资与市场策略 - AI创业仍处于相对早期的状态,商业模式未定 [11] - 当前市场不像移动互联网时代有明确平台和共识,更像是从山上流下的无数条小溪,尚未汇成海洋 [59] - 对于想投入创业的人而言,不是做得晚了,而是大多数人做得太早了,等一等可能是好事 [60] - 投资人跟风投资(如2023年投大模型、2024年投具身智能、2025年投AI Agent)风险很高,成功概率极低 [60] - 作为投资人,更倾向于两种策略:用相对小的筹码在不同赛道投非常早期的项目以获得真实体验;投资“不同的人”以分散风险,如在年轻创业者、资深架构师、行业资深产品经理中分别下注 [64] - 创业者不应过分听信投资人的观点,应专注于做好自己的事 [62] - 在AI能力尚不够强时,寻找对技术需求不强但愿意用AI低成本创造内容的垂直小场景是可行的市场验证思路 [65] - 公司产品Mootion在中东教育市场获得成功,当地约400多万人口中拥有近300万用户,其中中学老师用户达3万多人 [66][71] - 成功原因包括:当地课外参考资料匮乏,对生动教辅材料质量要求不高;产品满足了当地伊斯兰教文化倾向(如先知不能以人形象出现),通过训练LoRA解决了文化适配问题 [66][67] - 该模式本质上是C端订阅制产品切入了一个To B(教育)市场 [69] - 公司团队规模约20人,一半算法一半工程,并包含两名艺术设计人员 [48][49] - 与导演合作的关键在于重新设计融合AI的工作流,这需要技术人员与艺术创作者紧密协商 [49] AI对程序员职业与教育的影响 - AI编程能力已被推到“及格线”之上,资深程序员的传统经验可能成为负担 [14] - AI编程工具竞争最激烈,因为这是除基础模型外唯一被证明能赚钱、能持续运营的领域 [76] - 但仅聚焦于程序员市场,其规模本身不够大,参考2018年GitHub被微软以70亿美元收购的交易 [76] - AI编程替换的不是以前的编程工具市场,而是未来的人力资源市场 [78] - 从公司管理者角度看,Claude Code能力相当于初级程序员,但成本仅约200美元/月,远低于雇佣人力(如2万元/月),可能直接替代这部分人力资源 [79] - 大厂在规划新团队时,会要求架构师或资深程序员带领几个AI协作,完成以前几个人的工作量 [82] - 程序员培养路径将发生改变,面试不再单纯考察编程或算法能力,而是考察与AI协作解决问题的能力 [83] - 未来培养的可能不叫程序员,而叫“AI主管”、“AI架构师” [85] - 合格程序员的标志可能从“写过十万行代码”转变为“和AI协作过多少项目” [86] - 程序员需要掌握与AI协作的方法,理解操作系统和编译原理仍有必要,但直接编写大量代码的意义减弱 [87] - 高校及社会上的编程训练班、职业培训班,未来的意义可能不大 [89] - 资深程序员的工作重点转向磨练与AI协作的技能,包括如何清晰传达需求、评估AI产出,并重点复核接口和单元测试,以防积累低质量代码 [90] - AI并非不会“闹脾气”,它可能“撂挑子不干”,且存在类似“涨工资”的变相成本提升(如模型涨价、限流) [92][93]
每日投行/机构观点梳理(2026-02-05)
金十数据· 2026-02-05 20:26
贵金属市场 - 路透调查显示,黄金有望在2026年再创新高,预期中值为每盎司4746.50美元,较去年10月预估的4275美元显著上升,一年前的预期仅为2700美元 [1] - 推动金价上涨的主要因素包括地缘政治风险、央行持续购金、对美联储独立性的担忧、美国债务上升、贸易不确定性以及“去美元化”趋势,这些因素预计在2026年继续支撑黄金 [1] - 白银价格预期同样被上调,目前预计2026年白银均价为每盎司79.50美元,而去年10月调查中对2026年的预期仅为50美元 [1] - 受美元走强影响,黄金和白银在亚洲交易时段双双下跌,强势美元成为贵金属走势的阻力 [2] 全球股市与区域配置 - 瑞银预计今年年底全球股市将上涨约10%,美国市场依然是投资者股票配置的核心组成部分,且后续仍有上行潜力 [3] - 瑞银看好中国、日本和欧洲市场,认为战略自主的推进、区域财政扩张和结构性改革有望在各地催生受益者 [3] - 中国政府对本土人工智能模型和芯片制造的明确支持,将为中国科技股进一步上涨奠定基础 [3] - 低利率环境下国内投资者追逐收益,医疗保健企业“走出去”、新消费模式兴起及电网现代化等结构性利好,有望惠及金融、医疗保健、消费、材料和电力设备等行业 [3] 外汇市场动态 - 日元兑美元跌至接近两周低点,市场对首相高市早苗在周日提前举行的选举中巩固执政地位的信心增强,这对日元构成压力 [4] - 三井住友日兴证券策略师认为,即便当局可能干预,日元仍可能进一步走软,市场共识是美元/日元汇率存在上行偏好 [5] - 高盛警告称,日本财政风险仍明显偏向上行,支出方面的担忧正在对日本国债和日元构成压力,除非日本央行转向更快的加息步伐 [5] - 法兴银行表示,欧元在2026年下半年可能转而对美元走弱,因为近期欧元升值的幅度已超过利差所能解释的水平 [6] - 西太平洋银行首席经济学家表示,澳洲联储可能被迫在3月份连续第二次加息,尽管核心预测仍是5月加息,但如果数据表现出更强势头,连续加息就可能发生 [6] 美国货币政策与金融市场 - 中信证券研报称,当前美国金融市场环境不具备缩表的条件,考虑到1月美国资金市场流动性压力才明显缓解,当前准备金占GDP比重仍为10%左右,美联储持有资产占GDP比重为20%左右,已接近疫情前2018年的水平 [6] 人工智能与科技发展 - 中金指出,回顾2025年,全球大模型在推理、编程、Agentic以及多模态等能力方向取得明显进步,展望2026年,大模型在强化学习、模型记忆、上下文工程等方面将取得更多突破 [7] - 银河证券认为,AI带来的收益主要体现在两条路径:平台端带动时长、转化与商业化效率提升;内容与工具端提升生产效率并降本,建议关注港股互联网、AI应用及产业链相关、内容端 [9] 医药行业 - 中泰证券战略看好原料药板块,小核酸、多肽、ADC毒素等创新药热门赛道带来产业链催化不断,在早期临床进展积极、早期市场导入顺利的催化下再度加强 [7] - 重点看好技术、产能领先,业务确定性强的联化科技、奥锐特、九洲药业、诺泰生物、天宇股份、美诺华等,板块多数公司当前处在存量业务见底,增量业务有望发力的拐点区间 [7] 汽车行业 - 中信证券指出,2026年开年,汽车行业受存储、动力电池、上游资源品等原材料超预期涨价影响,一季度利润率面临压力 [8] - 存储涨价因AI超级周期挤占需求,持续时间可能贯穿全年,对智能汽车成本影响刚性、但幅度大概率小于1% [8] - 电池由碳酸锂涨价也面临成本提升,测算2026年全年平均单车成本提升约3000元,不过由于碳酸锂价格传导有缓冲,且主机厂对带电量具有主动调节性,该影响并非刚性 [8] - 铜铝涨价由上游资源品价格异动影响,单车平均增加成本约2000元,久期难以判断,套期保值可部分对冲影响 [8] - 建议关注成本转嫁能力强、产品结构优、全球化布局领先的整车企业 [8] 日本政治与市场 - 中金研报称,日本众议院选举将于2月8日举行,此次选举是选择执政党及首相的关键政治选举 [9] - 目前日本主流媒体的舆论调查显示自民党获得席位或较选举前大幅增加,存在单独过半数的可能性,在此情景下,各类日本资产的价格波动方向或发生日股大幅上升、日债利率上行、日元贬值的走势 [9]
LangChain 创始人警告:2026 成为“Agent 工程”分水岭,传统软件公司的生存考验开始了
AI前线· 2026-01-31 13:33
文章核心观点 - 以LangChain创始人Harrison Chase的观点为核心,阐述了“长任务Agent”的兴起正在从根本上改变软件工程范式,其核心差异在于系统行为不再完全由确定性代码决定,而是由非确定性的模型黑箱与代码共同决定,这要求开发、测试和调试方法发生根本性转变 [2][30] - 预测长任务Agent的落地将在2025年末到2026年进一步加速,2026年可能成为“长任务Agent元年”,这将对现有软件公司的竞争格局产生类似从本地部署到云转型的深远影响 [2][3] - 当前最成熟的长任务Agent应用是编程Agent,其核心算法是“让LLM在循环中运行”,而未来的进步将依赖于更聪明的上下文工程(如压缩、记忆)以及模型与框架/harness的共同进化 [7][13][21][24] 长任务Agent的定义、现状与案例 - **定义与拐点**:长任务Agent不只是多回合聊天,而是能在更长时间里持续执行、反复试错、不断自我修正的“数字员工”[2] 其真正起飞的拐点大约在2025年6-7月,以Claude Code、Deep Research、Manus等产品的爆发为标志 [21] - **核心应用形态**:目前最成熟、使用最多的案例是编程Agent [9] 其他优秀案例包括AI SRE(如Traversal公司的产品)和研究型Agent [9] 最“杀手级”的应用形态是让Agent长时间运行并产出“初稿”,然后由人类进行审阅和修改,这在编程、AI SRE、报告生成、金融研究和客服领域均有体现 [9][10] - **为何现在可行**:这是模型能力提升与工程框架/harness成熟共同作用的结果 [13] 模型方面,推理模型带来了巨大提升 [13] 工程方面,逐渐摸索出了上下文压缩、规划、文件系统工具等关键原语 [12][13] Agent工程范式的转变:从框架到Harness - **框架与Harness的区别**:框架是围绕模型的一层抽象,强调灵活性和基础设施,便于切换模型和封装组件 [11] Harness则更“有主张”,内置了明确的设计立场和最佳实践,例如Deep Agents默认提供规划工具和上下文压缩功能 [11][12] - **Harness的现状**:目前在Harness工程上做得最好的大多是编程类公司(如Claude Code、Factory、AMP),其性能差异不仅来自模型,更来自对“模型如何在harness中工作”的理解 [15][17] Harness往往与模型家族绑定紧密,不同模型家族可能需要不同的设计 [17] - **Harness的设计关键**:包括对模型训练偏好的理解(如OpenAI模型熟悉Bash,Anthropic提供显式文件编辑工具)、高效的上下文压缩机制、以及主Agent与子Agent的高效通信策略 [18] 许多公开的harness prompt长达几百行 [19] 构建Agent与传统软件开发的根本差异 - **逻辑来源与确定性**:传统软件的所有逻辑都写在代码里,是确定性的;而Agent的行为逻辑很大一部分来自模型本身,是一个非确定性的黑箱,必须通过实际运行才能理解其行为 [30] - **开发与调试核心**:传统软件的“真相来源”在代码中,而Agent的真相来源是代码与执行轨迹的组合 [32] 因此,追踪/执行轨迹成为理解、调试和团队协作的核心工具,其重要性远超过在传统软件中的应用 [30][31][33] - **开发流程**:构建Agent是一个更偏迭代式的过程,因为在发布前无法完全确定Agent会如何行动,需要通过更多轮次的交互和反馈来调整系统prompt或指令,使其行为符合预期 [34][35] 人类的判断和反馈被深度整合到开发与评估循环中 [39][40] 现有软件公司的挑战与机遇 - **面临的挑战**:工程范式的变化将重新筛选参与者,并非所有公司都能成功转型,类似当年从本地部署转向云 [2][36] 年轻团队可能因没有传统软件开发方式的先入之见而更快适应新范式 [36] - **潜在优势**:现有公司手中握有的高价值数据与API依然是王牌资产,能够较容易地暴露给智能体使用并产生真实价值 [3][37][38] 关于“如何使用这些数据”的指令和流程知识是新的竞争点,垂直领域创业公司(如金融领域的Rogo)通过注入行业知识获得了优势 [38] - **可能的护城河**:记忆功能可能成为真正的护城河,特别是在为特定任务构建的工作流型Agent中,记忆能让系统通过反思历史交互来改进自身,从而形成持续优化的体验优势 [52] 但实现安全且用户可接受的自我改进是关键挑战 [52] Agent能力栈与未来演进方向 - **核心能力组件**:文件系统访问能力被认为是长任务Agent的必备项,无论是真实还是虚拟文件系统,对于上下文管理、状态存储和中间结果回查都至关重要 [25][56] 代码执行环境是另一个高度看好的标配能力,其成熟度优于直接操作浏览器 [56] - **上下文工程演进**:未来的进步将来自更聪明的上下文管理方式,例如让模型自己决定何时进行上下文压缩,以及发展跨长时间尺度的记忆系统 [24] 记忆本质上是长期的上下文工程 [24] - **交互界面演进**:与长任务Agent协作的UI需要同时支持异步管理和同步对话模式 [53] 异步模式用于管理长时间运行或并行的多个Agent,同步模式则用于即时反馈和纠正 [53][55] 能够查看和协作的“工作区”状态(如文件、目录)是界面设计的重要部分 [54]
LangChain 创始人警告:2026 成为“Agent 工程”分水岭,传统软件公司的生存考验开始了
程序员的那些事· 2026-01-31 11:16
文章核心观点 - 软件工程范式正在发生根本性转变,从由确定性代码定义系统行为,转向由非确定性的AI模型(Agent)驱动,这要求全新的开发、测试和调试方法 [1] - 长任务Agent(Long Horizon Agents)在2025年末至2026年将加速落地,其能力远超多回合聊天,更像能在长时间内持续执行、试错和自我修正的“数字员工” [1] - 构建Agent不仅是给软件开发“加一层AI”,而是工程范式本身的变革,这将对现有软件公司的竞争格局和护城河构成挑战 [2] 长任务Agent的现状与拐点 - 长任务Agent的核心是让大语言模型在一个循环中自主运行和决策,这一设想因模型能力增强和支撑框架(Harness)的成熟而开始真正奏效 [6] - 当前最成熟的长任务Agent应用是编程Agent,其能力正在向AI SRE(站点可靠性工程)、研究型Agent(如分析事故日志)、报告生成、金融研究和客服等领域扩散 [7] - 长任务Agent的拐点大约出现在2025年6-7月,以Claude Code、Deep Research、Manus等产品的爆发为标志,其底层使用同一核心算法:让LLM在循环中运行 [18] - 对于许多程序员而言,Claude Opus 4.5模型可能是一个心理上的分水岭,标志着模型能力刚好强到足以支撑长任务Agent形态,从Scaffolding(脚手架)迈向了Harness(运行框架) [18] Agent工程的核心组件:模型、框架与Harness - **模型**:即大语言模型,负责输入和输出token [9] - **框架**:是围绕模型的一层抽象,便于切换模型并封装工具、向量数据库、记忆等组件,强调灵活性和无偏好性,属于基础设施 [9] - **Harness**:比框架更有“主张”,内置了明确的设计立场和最佳实践,例如默认提供规划工具、上下文压缩和文件系统交互能力 [9] - 模型与Harness是“共同进化”的关系,两年前难以预见基于文件系统的Harness会成为最优解之一,因为当时模型未被充分训练过此类模式 [10] - 几乎所有做编程Agent的公司都在自研Harness,性能差异不仅来自模型,更来自对“模型如何在Harness中工作”的理解 [14] 构建Agent与传统软件开发的根本差异 - **逻辑来源不同**:传统软件的所有逻辑都写在代码里;而Agent如何工作的逻辑,很大一部分来自模型本身这个黑箱,具有非确定性 [27] - **理解与调试方式不同**:理解Agent行为不能仅靠读代码,必须通过追踪其在真实运行中的每一步执行轨迹,这使得Tracing(如LangSmith)成为核心工具 [27][28] - **“真相来源”不同**:传统软件的真相在代码中;Agent的真相是代码与执行轨迹的组合,轨迹成为可观察的事实载体 [29] - **测试方式不同**:传统软件可依赖程序化测试;评估Agent需要引入人类判断,在线测试比离线测试更重要,因为行为在真实输入下才会“涌现” [29][36] - **开发过程不同**:构建Agent是一个更偏迭代的过程,因为在发布前无法确切知道Agent会怎么做,需要更多轮次迭代来调整系统提示或指令 [31][32] Agent时代软件公司的机遇与挑战 - **现有公司的资产价值**:传统软件公司拥有的数据和API依然是高价值资产,能够被暴露给Agent使用并产生真实价值 [34][35] - **新增的竞争要素**:关于“如何使用这些数据”的指令变得至关重要,这部分知识过去由人类掌握,现在需要被系统化并固化到Agent中 [35] - **潜在的护城河**:记忆功能可能成为Agent应用的真正护城河,因为基于历史交互的学习能显著提升特定任务下的体验和性能 [49] - **人员与心态**:Agent工程的采纳可能呈现“年轻化倾向”,许多团队成员是更初级的开发者,没有传统软件开发方式的先入之见 [33] - **转型难度类比**:从本地部署软件转向云的转型过程中,成功公司不多,因为工程范式变化会重新筛选参与者,Agent时代的转型可能面临类似挑战 [33] Agent的关键技术与未来方向 - **上下文工程**:是长任务Agent突破的核心,涉及压缩、子Agent、技能、记忆等围绕上下文管理的技术 [18] - **文件系统访问**:现阶段长任务Agent几乎必须拥有文件系统(或虚拟文件系统)访问能力,这对上下文管理(如存储中间结果、实现压缩)至关重要 [22][53] - **代码执行能力**:给Agent配备安全的代码沙箱环境以执行脚本,比直接操作浏览器更成熟、通用,是能力栈的关键部分 [52][53] - **记忆与自我改进**:让Agent通过反思执行轨迹来更新自己的指令或代码,是一种重要的自我改进形式,但需确保安全和用户可接受 [45][49] - **用户界面演进**:需要同时支持异步管理(如管理多个长时间运行的任务)和同步对话(用于即时反馈和纠正)模式,并能查看Agent修改的“状态” [50][51]
火爆全网的Skills,终于有了最简单的打开方式。
数字生命卡兹克· 2026-01-20 10:18
扣子2.0版本核心更新 - 产品更新至2.0版本,并更换了logo [1] - 本次更新引入了两个被作者认为非常实用且及时的核心功能:Skills(技能)和长期计划 [4] Skills(技能)功能详解 - Skills被视为继2024年Prompt工程、2025年上下文工程之后,2026年可能兴起的“Skills工程” [4] - 此前Skills功能主要集成在如OpenCode、CodeX、Antigravity等编程工具中,对普通用户门槛较高 [4] - 扣子作为一款Agent产品,集成Skills功能顺理成章,大幅降低了普通用户使用和创建Skills的门槛 [4] - 用户可通过在对话框输入“@”键来调用已拥有的技能 [4] - 官方内置了大量开箱即用的技能,涵盖写作、制作PPT、设计、视频处理等领域 [6] - 用户也可以使用他人创建并上架到技能商店的技能 [7] Skills的创建与抽象化价值 - 作者强调,未来个人的核心竞争力在于能否将重复性需求抽象成Skills并集成到主Agent中 [7] - 任何需要重复3次及以上的非沟通类任务,都应该被Skill化 [7] - 扣子平台的核心价值之一是帮助用户以极低成本将个人经验Skill化 [7] - 平台提供了两种创建技能的方式,分别面向普通用户和专业用户 [7] 面向普通用户的“口喷式”Skills开发 - 这是扣子上主流的技能构建方式,用户通过自然语言描述即可创建技能 [8] - 例如,用户可以将著名的开源多媒体处理工具FFmpeg的GitHub链接发给AI,要求其打包成一个用于视频格式转换、分辨率修改等功能的Skill [9][10][13] - 构建过程约需一两分钟,部署后即可在对话中调用 [14][15][19] - 实际测试中,调用该技能将一段视频转换为小于10MB的GIF,耗时仅几十秒,效果符合要求 [21][23] - 用户还可以将多个相关开源项目(如FFmpeg和ImageMagick)合并,创建一个能同时处理视频和图片的复合型Skill [24][25][27] - 此类复合技能可处理复杂连续任务,例如按要求将图片转为指定格式并调整视频分辨率,全程自动化处理仅需约2分钟 [29] - 创建好的技能可以上架到技能商店供所有用户使用 [30][32] 面向专业用户的Skills迁移 - 对于已通过Claude Code或OpenCode等工具创建了大量Skills的专业用户,扣子支持直接上传技能文件包(.zip或.skill格式)进行迁移 [33] - 系统会自动识别并创建技能,实现从其他平台到扣子的无缝平移 [33][37] - 目前部分迁移技能的运行成功率尚有优化空间 [38] Skills功能的当前局限与展望 - 目前扣子2.0上的技能只能单独使用,尚不支持多个Skill之间的互相结合与调用,这在一定程度上限制了其能力 [40] - 该更新对于降低Skills使用门槛、推动其普及具有重要作用 [39] - 补齐技能联动等关键短板后,AI助手的能力将得到质的飞跃 [58][60] 长期计划功能详解 - 长期计划功能允许用户为AI设定一个长期目标,AI会将其分解为可执行的步骤,用户只需按计划执行 [42][43] - 例如,用户可以创建一个“2026年全年健康执行路径规划”,AI会先了解用户当前身体状况,然后生成详细的阶段性规划书 [50][54] - 规划书内容系统,包含整体目标、阶段划分、关键里程碑和量化追踪指标体系等 [54] - AI会自动将计划任务添加到日程中,并在设定时间通过网页端弹窗提醒用户 [55] - 在计划执行过程中,用户可以通过与AI对话来不断调整和优化计划 [55] 长期计划功能的当前局限 - 目前计划提醒仅支持网页端,扣子的APP端尚未支持该功能的通知 [55] - 在移动端使用长期计划被认为是刚需,预计APP端支持会很快更新 [57]
这款开源神器,直接复刻了价值 20 亿美刀的 Manus
菜鸟教程· 2026-01-15 11:30
Manus公司的市场表现与成功逻辑 - Manus公司开发的AI代理产品自2025年3月正式发布,仅用八个月时间就实现了约1亿美元的年经常性收入,并积累了数百万用户 [3] - 该公司的AI代理能够自动完成从市场调研、数据分析到编码等复杂任务,超越了简单的对话式应答 [3] - 其成功的核心秘诀被归结为“上下文工程”,即利用持久化的Markdown文件作为工作记忆载体,以克服实时上下文窗口容量有限的问题 [9] 开源项目planning-with-files的兴起与功能 - 在Manus产品取得成功后,技术圈出现了名为“planning-with-files”的开源项目,该项目复刻了Manus的核心工作流 [5] - 该项目上线仅几天就在GitHub上获得了超过7.5k的星标,显示出极高的关注度 [5][6] - 该开源项目是一款Claude Code插件,旨在通过持久化的Markdown文件来重构工作流,实现任务规划、进度追踪与知识存储 [7] 现有AI智能体工具的痛点与解决方案 - Claude Code等大多数AI智能体普遍存在记忆易失、目标偏移、隐性错误和上下文过载等问题 [10][11] - 具体问题包括:上下文重置后待办事项丢失;工具调用次数超过50次后原始任务目标易被遗忘;失败操作未被记录导致错误重复;所有信息堆砌在上下文窗口而非持久化存储 [11] - planning-with-files插件通过创建三个核心文件来解决这些问题:`task_plan.md`用于任务规划,`findings.md`用于记录研究发现,`progress.md`用于记录进度日志 [10][14] planning-with-files插件的核心设计理念与规则 - 该插件的核心设计理念是将上下文窗口类比为易失且容量有限的计算机内存,而将文件系统类比为持久且容量无限的计算机硬盘,强调信息务必写入硬盘 [14] - 插件引入了“2-Action规则”:AI每进行两次查看或搜索操作后,必须更新一次`findings.md`,以确保研究成果被即时固化 [14] - 插件引入了“错误日志协议”:所有的报错和失败尝试必须记录在案,AI在尝试新方案前必须先阅读错误日志,严禁重复已失败的路径 [14] - 插件集成了自动化钩子函数,包括SessionStart、PreToolUse、PostToolUse和Stop,以实现流程自动化,例如在执行关键决策前重新读取任务计划,在完成文件写入后提醒更新状态 [14][20] - 插件具备强制校验功能:在AI试图结束任务前,会检查`task_plan.md`中的所有阶段是否都标记为完成 [14] planning-with-files插件的安装与使用 - 插件推荐通过Claude Code命令行工具安装,以支持自动更新和钩子函数的无缝集成 [18] - 系统要求建议使用Claude Code v2.1.0及以上版本来支持钩子函数的全部功能 [21] - 安装成功后,在启动新的Claude Code会话时会出现提示,表明插件已就绪,可自动为复杂任务激活,或通过手动输入指令`/planning-with-files`调用 [23]
看完 Manus、Cursor 分享后的最大收获:避免 Context 的过度工程化才是关键
Founder Park· 2026-01-09 20:34
文章核心观点 - 上下文工程的优化是AI Agent创业公司当前竞争的重点,其核心思路正从“如何把更多信息塞进上下文”转变为“如何为Agent创建一个信息丰富、易于探索的外部环境”[2][65] - 通过借鉴Cursor和Manus两家头部公司的实践,做好上下文工程的关键在于:实施有效的上下文缩减策略、构建灵活的工具行动空间、以及设计高效的多Agent协作模式[6][65] 上下文缩减策略 - **问题根源:上下文腐烂** Agent每调用一次工具,结果就会被追加到聊天记录中,导致上下文无限制增长[9] 典型任务可能需要调用50次工具,生产环境中的Agent对话轮次可能长达数百轮[10] 这会导致推理性能断崖式下跌,表现为推理变慢、质量下降和无意义重复,即“上下文腐烂”[10] - **主流解决方案:上下文卸载** 业内共识是将信息转移到上下文窗口之外,需要时再精确检索回来,即“上下文卸载”[10] 将信息转移到文件系统是目前生产级Agent中主流且最有效的做法[11] - **Cursor的“动态上下文发现”模式** 其核心是让模型在需要时自己去找信息,而非急于将信息塞给模型[13] 具体做法包括: - 将冗长的工具结果(如巨大的JSON响应或Shell命令输出)直接写入文件,在上下文中仅告知Agent结果的文件位置[14] - 当上下文窗口被填满时,触发“总结”步骤,为Agent提供一份摘要和一个指向完整历史记录文件的引用,Agent可按需搜索该文件获取细节[15] - 将集成终端的所有会话输出同步到本地文件系统,使Agent能直接定位和搜索相关问题[18] - **Manus的结构化可逆缩减系统** 该系统设定明确的触发机制并分阶段执行[19] - **监控与触发**:系统持续监控上下文长度,并设定一个远低于模型硬件极限的“腐烂前阈值”作为触发条件,该阈值通常在12.8万到20万个Token之间[20][21] - **第一阶段:紧凑化** 这是一种无损、可逆的缩减,剥离能从外部状态(如文件系统)重建的信息[22] 例如,将文件写入操作中的冗长`content`字段剥离,仅保留`path`字段[22] 信息被“外部化”而非丢失,Agent后续可通过`path`检索[23] 通常只对最早的50%历史记录进行紧凑化,以保留最新的完整工具调用作为学习范例[24] - **第二阶段:摘要化** 当紧凑化收益微乎其微时启动,这是一种有损但带保险的压缩[25] 保险措施在于:在生成摘要前,将完整的上下文转储到一个文本或日志文件中创建快照存档[26] 摘要化会使用完整版本的数据,并保留最后几次完整的工具调用记录,以保持工作连贯性[28][29] 工具行动空间管理 - **问题根源:工具过载** 将所有工具的冗长描述都放入上下文会导致“上下文混淆”和直接的Token浪费[31][36] - **核心思路:动态发现** 让Agent自己去找要调用哪些工具[31] - **Cursor的策略:工具说明书文件化** 将所有MCP工具和Agent Skills的详细定义同步到文件夹中,Agent在需要时自行查阅[32] 其框架分为索引层和发现层:系统提示词中仅包含工具名称列表,详细描述则存放在本地文件夹供Agent主动搜索[34] 该策略在一次A/B测试中,对于调用了MCP工具的任务,将Token总消耗降低了46.9%[35] 这种方式还能向Agent传达工具状态,例如在MCP服务器需要重新认证时,Agent可以主动告知用户[37][38] - **Manus的策略:分层行动空间** 将Agent能力划分为三个层次[41] - **第一层:原子函数调用** 核心层,只包含极少数固定的、正交的原子函数,如读写文件、执行shell命令、搜索等,此层固定,对KV缓存友好且功能边界清晰[42] - **第二层:沙盒工具** 卸载层,将绝大多数工具(如格式转换器、语音识别工具、MCP调用本身)作为预装软件放在定制的Linux虚拟机沙箱中[43] Agent不在上下文中“看到”这些工具定义,而是通过第一层的shell命令动态交互,例如用`ls /bin`查看可用工具[43] - **第三层:软件包与API** 代码层,对于需要大量内存计算或与复杂第三方服务交互的任务,允许Agent编写并执行Python脚本,仅返回摘要结果[44] 例如,Manus预装了大量API密钥,Agent可用其访问金融API获取市场数据[44] - **设计优势** 从模型角度看,无论使用第二层还是第三层的复杂工具,最终都通过第一层的几个原子函数执行,这种接口设计对模型极度简洁且缓存稳定[47] 多Agent协作模式 - **核心问题:上下文隔离与信息同步** 如何利用多Agent实现“上下文隔离”,让每个子Agent有独立的上下文窗口以实现关注点分离,同时解决它们之间的信息同步难题[49][50] - **两种协作模式** - **任务委托模式(通过通信实现隔离)** 经典的主-子Agent设置,主Agent将任务封装成简短指令发送给子Agent,子Agent上下文完全独立[53] 适用于“过程不重要,只关心结果”的任务,如委托子Agent在代码库中搜索特定代码片段[54] Manus内部称此模式为“Agent即工具”[54] - **信息同步模式(通过共享上下文实现协作)** 子Agent创建时能看到主Agent完整的先前上下文,但拥有独立的系统提示词和行动空间[55] 更适用于高度依赖历史信息、需要综合分析的任务,如深度研究报告[55] 但此模式成本昂贵,因为每个子Agent启动时都需要Prefill大量输入且无法复用主Agent的KV缓存[55] - **通信难点与解决方案:结构化输出** 多Agent通信的难点在于如何从多个并行子Agent处获得结构一致、内容准确的输出[57] Manus设计了一套“Agent化的MapReduce”系统,其关键包括: - **共享沙箱**:主Agent与子Agent共享同一个虚拟机沙箱和文件系统,信息传递可通过文件路径完成[58] - **输出模式**:主Agent在创建子Agent前必须先定义一个输出的Schema,作为强制执行的API合同[59] - **约束解码**:使用约束解码技术,强制子Agent通过专用工具`submit_result`提交的结果必须严格符合主Agent定义的Schema[60] - **核心思路** 无论是做摘要还是Agent间通信,都反复使用模式和结构化输出作为一种“契约”,以保证信息以结构化、完整的方式传递[61] 设计哲学总结 - **Cursor的设计哲学** 强调“少即是多”,认为最初提供给模型的细节越少,效果反而越好,这能让Agent更轻松地自行抓取相关上下文[62] - **Manus的设计哲学** 强调“少构建,多理解”,避免上下文的过度工程化[63] 其经验表明,最大的飞跃来自简化架构、移除不必要的技巧以及对模型多一点的信任,每次简化都使系统更快、更稳定、更智能[63][64] 上下文工程的目标是让模型的工作变得更简单,而不是更难[64]
对话 Kuse: 没融资 3 个月 1000 万美金 ARR,用 NotebookLM 的方法重做 Notion
投资实习所· 2026-01-05 11:54
文章核心观点 - 文章深度剖析了AI初创公司Kuse的产品理念、市场定位、增长策略及其在非结构化数据结构化处理领域的独特价值[1][2][3] - 公司通过聚焦“上下文优先”和“格式化引擎AI”,将产品从通用AI工具转型为面向知识工作者的资产沉淀系统,在未融资情况下3个月内实现近1000万美金年度经常性收入[1][17] - 其增长模式避开了主流社交平台,通过Meta旗下的Threads和Instagram渠道,以极低的运营成本(仅一位实习生负责)成功开拓了台湾和香港市场[18] 产品定位与核心理念 - 产品定位从通用AI工具转为AI原生的“Context First”文件管理与资产沉淀系统[4] - 核心理念是“上下文优先”,围绕文件夹与素材源构建知识库,将用户输入沉淀为可复用的上下文资产[3] - 强调“Chaos in, Genius out”,致力于将复杂杂乱的输入转化为清晰、可消费的网页与文档成果[6] - 与Notion的乐高式模块类似,但基于AI构建,是AI原生结构化的,能自动处理与复用上下文,被形容为“用NotebookLM的方法重做Notion”[8] 产品功能与差异化 - 产品首页不是对话框,而是需要用户先上传文件或提交信息源,走资产沉淀路径,与NotebookLM类似但侧重于企业场景[1][2] - 主打知识库+Webpage交互模式,专注文档和网页生成而非应用开发,目的是为了更好的消费和传递信息[6] - 核心功能是“格式化引擎AI”,除了生成内容,还能自动处理人们消费内容所需的格式排版,如生成格式规范统一的试卷、法律文件、简历等[7][8] - 与大多数AI工具的“一次性生成”模式不同,Kuse构建的是“长期资产”系统,用户上传的信息源成为首个资产,后续生成的新内容会再次成为新资产,支持持续迭代、复用与协作,形成“越用越懂你”的记忆系统和Context复利能力[8][15] 市场需求与产品市场契合 - 解决了非结构化数据结构化的爆发性需求,AI极大提高了对非结构化数据的处理能力,而人们消费信息时需要结构化(包含格式排版)[10] - 产品转型源于用户行为的启示:用户上传PDF、研究论文、课堂笔记的频率远高于使用设计功能,真实痛点是“理解信息”而非设计工具[12][13] - 找到了明确的产品市场契合点,用户群体从设计师扩展到咨询顾问、教育工作者、法律专业人士、产品经理等各类知识工作者[16] - 精准击中了咨询、教育和法律等领域专业人士创建高精度、模板驱动文档(保持完全一致格式)的深层痛点,这是目前大多数AI产品做不到的[16][17] 增长策略与市场表现 - 增长策略独特,几乎全部来自Meta旗下的Threads和Instagram渠道,目前各占一半左右,仅由一位大三实习生负责运营[18] - 选择Threads的原因包括:平台处于快速增长期(尤其在台湾和香港)、竞争较少对新账号友好、没有广告平台使竞争对手无法用资金获得优势[18] - 推广方式简单有效:创建数百个账号,每天发布实用案例(如Markdown转排版、试卷生成),并使用繁体中文针对台湾和香港市场[18] - 公司在未融资的情况下,3个月做到了近1000万美金的年度经常性收入[1][17] 团队与未来方向 - 公司全职团队不到20人,成员来自Meta、Nvidia、Google、字节跳动和Grab等知名公司[22] - 联合创始人兼CEO吴显昆为设计师出身,曾是rct.ai的联合创始人[12][22] - 未来方向聚焦于高频需求,专注用网页或图片生成重格式的文本、文件或Web page,满足排版、文档和网页生成等朴实需求,不关注后端开发和应用制作[22] - 文章认为其底层逻辑与NotebookLM类似但更侧重商业信息分发,未来有机会发展成AI时代的CRM+ERP系统[11]
别了,大模型;你好,Agent:读懂Meta收购Manus的范式转移
创业邦· 2026-01-03 18:22
文章核心观点 - Meta以数十亿美元全资收购AI初创公司Manus,这是Meta历史上第三大规模的并购案[7] - Manus是一家诞生于中国、最终迁往新加坡的AI公司,其故事是中国顶尖技术人才在全球地缘政治与商业现实夹缝中生存、抉择与取得成功的现代寓言[7] - 收购事件凸显了在算力封锁、资本脱钩和技术范式转移的背景下,中国顶尖技术力量面临的挑战与无奈[7][22] 公司背景与团队 - Manus核心团队并非典型学院派,其显著标签是极致的工程能力和对流量与人性的洞察[8] - 创始人肖弘曾创立夜莺科技,开发“壹伴”和“微伴”等微信公众号插件,深谙在巨头生态中做“外挂”的商业逻辑[8] - 首席科学家季逸超是技术灵魂人物,高中时期便因独立开发猛犸浏览器而闻名[11] - 季逸超早期自研NLP模型被GPT-3“降维打击”的经历,促使其确立了“正交性”技术哲学,即不拼底层模型,而是专注于更好地使用模型[11][12] 技术路线与产品创新 - Manus的技术路线是上下文工程,专注于如何更好地使用大模型,而非训练大模型本身[12] - 公司产品定位是AI Agent(智能体),而非Chatbot(聊天机器人),核心是解决实际生产力问题[14] - 在GAIA基准测试中,Manus的得分碾压了OpenAI的Deep Research[16] - Manus的AI Agent能像人类员工一样执行复杂任务,例如进行市场调研、阅读PDF、处理数据并生成PPT[16] - 技术创新体现在构建了一套“虚拟操作系统”,包括虚拟文件系统解决长上下文记忆问题,以及确定性状态机防止AI产生幻觉[16] - 这被视作一场工程学的胜利,证明了在Scaling Law之外,应用层的极致优化和创新同样价值连城[16] 地缘政治与商业抉择 - 2025年7月,Manus母公司“蝴蝶效应”决定将全球总部从北京迁往新加坡,并对中国团队进行大规模裁员[18] - 搬迁决策源于一个“不可能三角”:算力(依赖英伟达H100/H200集群,受美国出口管制限制)、资本(依赖美元基金,受美国AI投资禁令限制)、生态(底层依赖Claude和GPT的API,有断供风险)[19] - 为了生存,公司必须完成“去中国化”,变成一家新加坡公司,以获取美国资本、芯片并服务全球市场[19] - 约40名核心技术骨干迁至新加坡,剩余120多名普通员工在获得N+3甚至2N补偿后解散[19] - 这形成了“中国的大脑 + 新加坡的壳子 + 美国的资本 + 全球的市场”这一未来中国硬科技创业者的潜在范本[19] 行业影响与竞争格局 - AI行业风向从Chatbot转向能实际干活的Agent[14] - Meta收购Manus旨在补齐其应用层短板,Meta拥有强大的开源Llama模型,但缺乏杀手级应用产品[20] - 收购后,Manus的Agent能力可能与Meta的通信产品(如WhatsApp)整合,实现从聊天到处理实际工作的商业模式闭环[21][23] - 对于中国AI产业,Manus的成功证明了其工程师具备定义下一代AI产品的创新能力,实现了“Original from China”[22] - 但中国本土在算力短缺、资本环境及市场隔离方面的挑战,导致此类创新无法滋养本土生态,顶尖人才和公司被迫外流[22]
AI Coding 生死局:Spec 正在蚕食人类编码,Agent 造轮子拖垮效率,Token成本失控后上下文工程成胜负手
36氪· 2025-12-30 17:21
AI Coding生态演进:从补全到Agent主导 - AI Coding的演进分为两个时代:第一波由Copilot与Cursor开创,以人为主导,AI角色是预测“下一个字符”或“下一个编辑位置”,端到端时延被严格压在几百毫秒量级,模型规模和上下文长度受天然约束 [2] - 第二波在过去6–12个月迎来范式颠覆:Agent崛起,直接接管从需求分析到代码生成、工具调用到结果验证的任务 [2] - 随着模型能力与工具链完善,Agent会覆盖从需求到交付的更多环节,逐渐成为主流程;补全范式可能退居幕后,成为支撑Agent精细执行的底层能力之一 [3] 工具形态演化:IDE、CLI与Cloud并行 - 头部编程工具演化出三种形态并行:IDE、CLI、Cloud,用户需要的是在不同场景下都能交付任务的完整链路 [4] - CLI和Cloud Agent从一开始就是Agent主导形态,对UI要求不高,在Terminal或简化Web界面工作,用GitHub PR协作和交付 [4] - IDE依然被判断为最多人使用的入口,最符合程序员长期形成的工作习惯,但其形态本身很可能在三年内发生根本变化,不再以Editor为中心展开 [4][5] - IDE正在从“给人用的工具箱”变成“给AI和人一起共用的工具箱”,大量以人为中心设计的能力被拆解为更小、更明确、更AI友好化的Tool,供AI Agent按需调用 [5] Spec驱动开发的兴起与挑战 - Spec驱动开发在过去几个月迅速流行,仓库中堆起面向Agent的“Markdown脚手架”,被视为AI Coding的前沿解法 [1] - 行业对“Spec”的定义存在分歧:有人认为是更好的Prompt、更详细的产品需求文档、架构设计文档,或是“在写代码的时候,多用几个Markdown文件” [8] - 一线工具团队认为Spec与上下文工程(Context Engineering)不是一回事:Spec是上下文中最关键、最稳定的一类内容,承担“指导性Context”的角色,相当于给Agent一份可执行的契约;而上下文工程关注模型在当下是否拿到了足够的信息 [9] - Spec是一切用于指导代码生成的契约总和,可包括产品文档、设计稿、接口定义、边界条件、验收标准、执行计划等,但因其覆盖范围广、形态多、生命周期长而难以标准化 [9][10] - Spec标准是否有效取决于应用场景,因为它本质上是用一种文档/结构去交换正确性、效率、维护成本三样东西,不同场景对这三者的权重不同 [12] Spec与软件工程复杂性的对接 - Spec试图接住软件工程几十年积累下来的复杂性,其标准本质上是软件工程理论在AI编程工具中的具象化 [10] - 争议在于Spec驱动开发是否会导致“瀑布流程回归”,即在编码前完成大量文档工作,试图将开发人员从过程中剔除 [13] - 从工程视角看,Spec Coding真正想结构化的并非开发者的全部思考过程,而是那些最容易在长程任务里出错、最值得被验证和沉淀的部分 [13] - Spec更合理的形态是“活的契约”,是Plan-Execute闭环中的关键中间态,在推理-执行-反馈过程中不断校准Spec和代码制品的一致性 [14] - 从软件抽象发展历史看,Spec被视为在自然语言层级上尝试迈出的下一次抽象升级,但自然语言的模糊性决定了这是一条充满挑战、尚无成熟范式的探索路径 [15] Agent的“自己造轮子”问题与抽象复用 - Coding Agent在实践中存在一个被大量开发者吐槽的问题:极其偏好“自己从零开始实现功能”,而不是复用成熟库 [16] - 对模型而言,“自己写一个能跑的版本”往往是风险最低的路径,当它对某个库的版本、用法或边界不确定时,回退到“自己实现”几乎是必然选择 [17] - 解决此问题的关键不在于对Agent进行人工纠偏,而在于补齐其可依赖的信息源,例如通过MCP工具补齐版本、用法与示例,再用“渐进式披露”把正确用法注入任务上下文 [17] Token成本失控与上下文管理成为核心 - Token成本在2025年突然复杂了一个数量级,根本原因在于范式迁移:大模型应用从“问答”跃迁到“Agent做事”,Token成本成为贯穿推理—执行—反馈链路的全生命周期成本 [18][19] - 关键变化是工具调用的隐形成本开始吃掉大头,为了完成一个任务往往需要多轮对话,每轮对话背后又会经历几次到几百次不等的工具调用 [20] - Spec Coding和多Agent协作让成本结构继续膨胀:Spec/Plan/ToDo/变更说明/验收清单等中间产物被反复生成、引用与迭代,形成新的上下文常驻内容;多Agent又把Token变成通信效率问题 [21] - Token工程的真正战场是上下文管理,目标是最大化KV cache命中率,避免在长程Agent任务中被重复、无意义的上下文刷新拖垮吞吐和稳定性 [22] - 上下文工程的技术演进从早期的Prompt Engineering,逐步演进到更系统化的Context Engineering,实践表明以RAG为代表的“外挂式知识补充”在工程上更具性价比 [23] 上下文工程的技术演进路径 - 随着Coding Agent出现,交互从单轮对话转向多轮、长期的Agent Loop,相关信息由Agent在执行过程中按需检索与召回,这催生了embedding search与grep等能力的逐步登场 [24] - Cline和Claude Code在今年就从传统的RAG转向grep [24] - embedding search并未过时,它更像是数据库中的index,在特定条件下能提升召回效率,而grep在确定性和精确匹配上具备优势,两者服务于不同的检索阶段和需求类型 [24] - 随着任务复杂度增加,Agentic Search逐渐演化出来,并与Sub Agent机制协同出现,例如专门的Search Agent负责多轮检索、筛选与验证 [25] - 行业逐渐意识到真正稀缺的不是上下文长度,而是有效Context的组织能力,需通过缓存、裁剪、摘要、检索等机制把Token的边际成本控制在工程可接受的范围内 [25][26] AI编程的系统工程视角 - AI编程被视为一个至少由四层构成的系统工程:模型层负责“思考”,Tool层负责“行动”,IDE层承载人机交互,上下文层负责“记忆与连续性” [27] - 模型层决定上限;Tool层决定它能不能真的做事;IDE层决定人是否能高效表达意图、及时纠偏;上下文层把这一切粘合在一起,承载历史决策、工程约束与连续性,是长期可靠性的基础 [27] - 未来AI编程的真正分水岭,或许并不仅仅在于“谁的模型更强”,而还在于谁能持续、准确地把工程世界中那些原本隐性的约束、记忆和共识,转化为模型可理解、可执行、并可被反复验证的上下文结构 [27]