Context Engineering
搜索文档
提示词工程、上下文工程都过时了,现在是 Harness Engineering 的时代
Founder Park· 2026-03-13 21:04
Harness Engineering的兴起与定义 - 2026年开年,开发者社区最热关键词为Harness Engineering,由HashiCorp联合创始人Mitchell Hashimoto在2月5日命名[2] - 一个月内,该概念从一篇博客文章发展为开发者社区高频词[3] - 行业新共识:在AI Agent编码领域,决定结果好坏的最大变量是模型所处的环境,而非模型本身[4] - 核心观点:模型能力竞赛持续,但决定Agent工程产出质量的杠杆已转移到“环境”一侧,这个环境就是Harness[5][6] 从Prompt到Context再到Harness的认知演进 - **2023年:Prompt Engineering全盛期**,焦点是写好单条提示词,但处理复杂任务时局限性暴露[9] - **2025年中:Context Engineering兴起**,焦点从“写好一条指令”扩展到“设计动态系统来组装上下文”,包括RAG、对话历史等编排[9] - **2026年2月:Harness Engineering正式命名**,解决了Context Engineering的不足,即上下文无法阻止Agent“做不该做的事”[11][12] - 三阶段关系总结:Prompt Engineering管“说什么”,Context Engineering管“知道什么”,Harness Engineering管“在什么环境里做事”[13] OpenAI实验的核心发现与工程实践 - **实验设定**:5名工程师在五个月内,通过Codex Agent协作交付了超过100万行代码的生产级软件产品,无一行人类手写代码[4][15] - **效率数据**:平均每名工程师每日合并3.5个Pull Request,代码审查通过Agent对Agent循环实现大规模自动化[15] - **关键挑战**:最困难的挑战集中在设计环境、反馈回路和控制系统上[15] - **文档工程进化**:从将所有信息塞进庞大AGENTS.md文件的错误,演变为**渐进式披露模型**,AGENTS.md精简为约100行的“目录”,指向结构化docs/目录[16][17] - **超越文档**:将可观测性数据(日志、指标、追踪)直接暴露给Agent,使其能通过LogQL和PromQL查询验证运行时状态,甚至通过Chrome DevTools Protocol操作浏览器以重现Bug[18][19] - **机械化架构围栏**:通过确定性Linter(错误输出格式专为Agent设计)和基于LLM的审计Agent,严格拦截违反分层架构依赖流向的代码[21][22] Harness Engineering的三维框架(Böckeler解读) - **维度一:上下文工程**:确保Agent在正确时机获得正确信息,包括渐进式文档披露、动态可观测性数据接入[24] - **维度二:架构约束**:通过机械化手段(如专为Agent设计的Linter)强制执行架构边界,使“违规→检测→修复”循环可在Agent内部闭环完成[25] - **维度三:熵管理/垃圾回收**:部署专用清理Agent定期扫描文档漂移、模式违规和依赖问题,防止Harness自身随时间腐化[26] - 三者关系:上下文工程让Agent“知道该做什么”,架构约束确保“只在边界内行事”,熵管理保障“整个系统不随时间退化”[26] 行业实践与验证 - **Stripe的工业级实践**:其Minions体系每周合并超过1,300个由AI完全编写的Pull Request[28]。每个Agent任务在独立预热devbox中运行(约10秒启动),通过名为Toolshed的中心化MCP服务器访问近500个工具[28]。采用“蓝图”模式,混合确定性节点与Agent节点,将LLM限制在“可控盒子”里以提升可预测性[28] - **LangChain的对照实验**:其编码Agent在Terminal Bench 2.0基准测试上,仅通过优化Harness(不修改模型),得分从52.8%提升至66.5%,排名从第30跃升至第5[4][29]。这是“环境比模型更重要”的直接证据[30] - **行业采用**:Anthropic将Claude Code定位为“灵活的Agent线束”[31]。MCP(模型控制协议)月SDK下载量超过9,700万,获OpenAI、Google、Microsoft和AWS采用,正成为Agent工具访问的通用标准[31] - **行业数据**:LangChain报告显示,89%的受访者已为其Agent实施可观测性,但仅有52%实施了评估(Evals)[32] 工程师角色与组织结构的转变 - **工程师核心工作转变**:从写代码转向设计让Agent可靠运行的环境,具体包括构建文档与上下文体系、以机器可处理的方式定义业务意图、构建自动化的防呆验证机制[33] - **新工作模式**:工程师如软件架构师,只讨论高层架构和重大决策,不涉及具体代码实现[34]。系统理解的深度比写代码的速度更重要[35] - **组织结构变化**:OpenAI的3-7人团队完成了以前需数十人规模的工程输出[35]。Stripe让单名工程师可同时向多个Agent分配任务,团队结构向两三人甚至单人团队收敛[35] - **“学徒缺口”挑战**:初级开发者若过早进入Agent驱动循环,可能缺乏构建健壮Harness所需的深度系统直觉,需设计保留手动开发直觉的学习路径[35] 开发者行动建议与采用路径 - **起步**:把同一个任务做两遍(先手动,再让Agent做),以建立对Agent能力边界的直觉[36] - **养成习惯**:每天下班前30分钟启动Agent,处理深度调研、并行探索、Issue和PR分诊等任务[36] - **关键跃迁**:在项目中建立一份AGENTS.md文档,从最基本内容开始,每次Agent犯错就补充一条规则,使其逐渐长成Harness[36] - **心态建议**:关掉Agent的桌面通知,由人类控制中断时机[36] - **对技术负责人的建议**:选择新项目做试点,并建立Evals(评估体系)能力[37]
Elastic (NYSE:ESTC) 2026 Conference Transcript
2026-03-03 06:52
公司概况 * 涉及公司为**Elastic** (NYSE:ESTC),一家数据平台公司 [1] * 公司管理层包括首席执行官 Ash Kulkarni (Speaker0) 和首席财务官 Navam Welihinda (Speaker1) [1] 核心价值主张与市场定位 * 公司定位为**数据平台**,在AI时代的作用是为大语言模型提供**准确的数据上下文和相关性**,以完成特定任务 [5] * 核心逻辑是“**将模型带到数据**”,因为将海量数据(如PB级)移动到模型端在物理上不可能且成本过高 [7][9] * 公司认为其**不对称优势**在于能够提供完整的平台能力,不仅支持云部署,也支持客户在**自管理环境**(如自有数据中心、私有VPC)中运行 [17] 近期财务业绩与业务亮点 * **第三季度业绩强劲**:销售主导的订阅收入增长加速至**19%**(上一季度为17%)[10] * 达成了**创纪录数量的百万美元交易** [12] * 约**7个季度前进行的市场进入策略变革**(将销售团队划分为“狩猎”和“耕种”区域)正在取得成效 [12] * 在第四季度指引中,销售主导的订阅收入增长为**15%**(按固定汇率计算),总收入增长约为**13%** [23] * 公司解释指引考虑了**季度减少3天**以及典型的风险调整因素,并强调应关注长期趋势而非单个季度 [23][24][25] * 公司已连续第四年实现销售主导的订阅收入复合增长率**达到或超过20%**,按固定汇率计算,过去两年为20%,本财年指引为18% [24] AI采用与增长动力 * **AI采用率持续提升**:在贡献公司大部分收入的**10万美元以上客户群体**中,使用公司产品于AI的客户占比已接近**四分之一** [14] * **AI工作负载带来消费增长**:与未使用AI的客户群相比,使用AI的客户群在平台上的消费平均高出约**6%**,且存在广泛差异 [53] * AI贡献预计将成为业务的**结构性顺风**,随着更多客户采用AI及其使用量增长,将推动收入增长 [17][54] * **中期增长目标**:目标是在约2029财年,将销售主导的订阅收入(按固定汇率计算)从目前的**18%** 提升至**20%+** [57] * AI的贡献将是**逐渐提升的浪潮**,而非在某个季度出现拐点 [58] 产品战略与平台演进 * **平台定位为“从零开始构建智能体”的端到端解决方案**,涵盖数据摄取、分块、向量化、重排序、连接LLM、提供可观测性和护栏等能力 [60][61][62] * **关键产品与能力**: * **Jina模型**:用于嵌入和重排序,在MT-Bench和Hugging Face基准测试中表现优于其他商业模型 [50] * **智能体构建器 (Agent Builder)**:用于构建安全运营中心(SOC)和站点可靠性工程(SRE)等工作流 [50] * **工作流 (Workflow)**:支持智能体执行操作 [64] * **LLM可观测性** [64] * **Elastic推理服务**:托管自有模型(如ELSER、Jina)并代理接入其他LLM,未来计划支持Llama、Mistral等开源模型 [65] * **定义并聚焦“上下文工程”**:即提供流程、平台和能力,为LLM在每一步提供准确上下文(包括记忆、检索、确定性规则等)的系统性方法 [67][68] * **可观测性业务发展**:增长与日志行业整体同步,其中**指标 (Metrics)** 部分是增长最快的,但公司过去在此领域不强 [75][77] * 公司正在基于构建向量数据库的经验,开发专门的**指标数据存储**,预计在本日历年中期推出,以增强在可观测性市场的竞争力 [81] 各解决方案领域表现 * 各季度各解决方案领域的表现因交易流而异 [72] * **第三季度**:**安全**业务表现最佳,**搜索**紧随其后,然后是**可观测性** [73] * **搜索**:明显受益于AI带来的顺风 [73] * **安全**:因早期提供攻击发现等AI功能而具有显著领先优势,有助于赢得更多交易,例如与美国网络安全和基础设施安全局(CISA)的转型性交易 [73][75] * **可观测性**:指标部分是增长最快的 [77] 对竞争与AI风险的回应 * **驳斥“AI将使开源部署更容易从而侵蚀商业产品”的观点**: * **许可与功能价值**:公司免费版本功能有限,付费版本提供增量功能(带来更高硬件效率等),使用这些功能必须付费,否则违反许可 [28][30] * **规模化运营的复杂性**:编写软件与大规模运营、管理数据系统(如涉及数百上千节点)是两回事,涉及成本、风险和努力,LLM厂商自行承担此工作在经济上不合理 [31][32] * **可防御的护城河**:公司的**数据存储**以及其在相关性和上下文准确性方面的工作是核心护城河,LLM厂商更可能使用Elastic而非重建它 [34] * **公司在AI生态系统中的角色演变**:类比云平台作为过去的操作系统,**LLM将成为新的操作系统**,而数据平台将继续作为存储数据和检索上下文的专门系统共存 [40][42] * **数据平台角色的变化**:查询方式从SQL转向关注相关性、向量查询等;应用构建将更多考虑**智能体而非人类**,导致控制台和仪表板减少,API和原始数据直接访问增加 [45][46] 效率优化与增长策略 * 公司持续通过产品发布提升平台效率,例如向量数据库在两年内通过二进制量化等技术实现了**近两个数量级的效率提升** [83][84] * 效率提升意味着客户为相同工作负载支付的费用减少,这对收入构成**自然阻力** [86] * 公司视此为**抢占市场的战略**:在机会早期成为最有效的平台以获取更多工作负载和客户,为未来奠定基础,因此预计增长将是**稳定向上**而非爆发式拐点 [88][89] 资本配置与财务优先事项 * **股票薪酬 (SBC)**:尽管本财年是投资年(增加销售、营销和研发投入),公司在股票薪酬方面保持高度自律,其占收入比例继续呈下降轨迹 [92][93] * **资本配置优先顺序**: 1. **首要任务**:进行有机投资以实现中期**20%+** 的增长目标,包括适当增加销售产能 [96][97] 2. **关注“40法则”**,在保持足够增长的同时合理增加自由现金流 [97] 3. 继续执行在分析师日宣布的**5亿美元资本配置策略**,其中超过50%已通过股票回购部署,旨在回馈股东 [97] * **最终目标**:实现**GAAP营业利润率盈利** [98]
Elastic(ESTC) - 2026 Q3 - Earnings Call Transcript
2026-02-27 07:02
财务数据和关键指标变化 - 第三季度总收入为4.5亿美元,同比增长约18%(按固定汇率计算增长16%)[24] - 销售主导的订阅收入为3.76亿美元,同比增长21%(按固定汇率计算增长19%)[25] - 非GAAP营业利润率为18.6% [7][28] - 当前剩余履约义务(CRPO)首次突破10亿美元,达到约10.6亿美元,同比增长19%(按固定汇率计算增长15%)[25] - 剩余履约义务(RPO)同比增长22%(按固定汇率计算增长18%)[26] - 订阅毛利率为82%,总毛利率为78% [28] - 调整后自由现金流约为5400万美元,利润率为约12% [29] - 第三季度通过股票回购向股东返还约1.86亿美元,累计回购380万股 [30] - 公司提高全年收入预期:总收入预期为17.34亿至17.36亿美元,同比增长约17%(按固定汇率计算增长15%);销售主导的订阅收入预期为14.34亿至14.36亿美元,同比增长20%(按固定汇率计算增长18%)[32] - 全年非GAAP营业利润率预期为16.3% [32] - 全年非GAAP稀释每股收益预期为2.50至2.54美元 [33] 各条业务线数据和关键指标变化 - 搜索业务持续受到AI需求推动,在云和自管理部署中均表现强劲 [27] - 安全业务赢得重要客户,例如一家财富100强保险公司,用Elastic Security替代了遗留的SIEM解决方案 [10] - 可观测性业务赢得全球数据弹性软件领导者的订单,用于支持其新云产品的监控层 [11] - AI用例持续渗透,超过2700名Elastic Cloud客户将其用作向量数据库,另有客户使用更广泛的AI功能(如Agent Builder和Attack Discovery),使得AI客户总数超过3000名 [15] - 在年合同价值超过10万美元的客户群中,超过470名客户使用Elastic的AI功能,其中超过410名将其用作向量数据库,AI用例已渗透该客户群的超过四分之一 [15] - 年合同价值超过10万美元的客户数量超过1660名,同比增长14%,季度净增约60名 [8][26] 各个市场数据和关键指标变化 - 本季度的交易势头在所有地区保持平衡 [26] - 客户继续签订多年期承诺,表明他们将Elastic平台视为长期数据架构的关键基础 [26] - 通过与美国网络安全和基础设施安全局(CISA)的合作,在政府机构中取得进展,预计未来几个季度将有更多机构采用其SIEM即服务 [68][69] 公司战略和发展方向和行业竞争 - 公司定位为“上下文引擎”,为企业的关键AI需求提供上下文,强调在混合云和自管理环境中的独特灵活性 [7][9] - AI和整合是强大的顺风,公司正在取代遗留供应商和利基云原生厂商 [9] - 公司的非对称优势在于支持现代云和混合环境,这促成了与全球金融集团等客户的重要交易胜利 [12] - 公司强调其平台不仅仅是向量数据库,而是提供从混合搜索到高级重排的完整检索工具包,以及构建代理和工作流的能力,以构建生产级AI系统 [13][14][43] - 公司持续进行产品创新,包括正式发布Agent Builder、扩展Elastic推理服务以集成Jina AI的多语言重排模型、推出技术预览版Elastic Workflows,以及为自管理客户推出Cloud Connect [19][20][22] - 公司与NVIDIA和Dell等建立合作伙伴关系,以加速AI应用部署,例如推出Elasticsearch GPU插件技术预览版,实现12倍更快的索引速度 [18] - 公司专注于性能优化,声称其Elasticsearch向量搜索比OpenSearch快8倍 [17] 管理层对经营环境和未来前景的评论 - 企业意识到,要释放AI的价值,必须弥合其LLM与其专有非结构化和结构化数据之间的鸿沟,而Elastic正致力于此 [13] - 随着组织管理爆炸式增长的数据量,他们转向Elastic来满足搜索、可观测性和安全方面的创新和效率需求 [10] - 客户正在从被动的问答转向驱动工作流的主动代理,这需要精确的数据 [12] - 对话已从“使用哪个模型”转向“如何为其提供最准确的上下文” [13] - 公司看到来自全球最大公司以及新一波AI原生公司的持续需求 [15] - 公司对持续推动盈利增长的能力充满信心,认为自己是加速数据发现、保护基础设施和最大化应用性能的关键技术 [35] - 对于第四季度,由于工作日减少3天,预计将对收入造成约3%或1400万至1500万美元的逆风 [33][52] - 公司预计第四季度非GAAP营业利润率约为14.5% [31] 其他重要信息 - 本季度签署的年度承诺价值超过100万美元的合同数量同比增长超过30% [9] - 公司将在3月2日参加摩根士丹利技术、媒体和电信会议 [5] - 2026财年第四季度静默期将于2026年4月16日星期四营业结束时开始 [4] 总结问答环节所有的提问和回答 问题: AI客户渗透率提高是否可能带来增长加速?[38] - AI趋势与财务分析师日披露的情况一致,生成式AI客户群增长强劲 [39] - 每个达到10万美元年合同价值的客户仍处于AI旅程早期,进一步的渗透和成熟将推动更快增长 [39] - 存在加速超越财务分析师日提出的5%增长基准的可能性 [40] - 公司专注于提高客户群中的AI渗透率,随着使用量增长,将增加消费和总收入,推动业务持续走强和加速 [41] 问题: 作为“上下文引擎”的领先提供商需要哪些核心要素?[42] - 上下文工程平台需要能够一致地处理多种任务:1) 引入任何类型的数据(结构化和非结构化);2) 将数据转换为向量以进行向量搜索和混合搜索;3) 使用Jina AI等模型进行重排以获得最准确的上下文;4) 使用Agent Builder等工具组装代理;5) 通过Workflows功能实现精确操作;6) 通过LLM可观测性功能进行监控 [42][43][44] - 此外,Elastic推理服务允许客户无需自带LLM,并可代理到任何选择的LLM [44] 问题: 自管理业务的强劲表现、第四季度销售主导订阅收入环比下降的原因,以及自管理与云客户的货币化差异?[47] - 自管理业务的强劲并非源于订单推迟,而是由于客户在处理关键敏感AI数据时,倾向于将数据保留在可控环境(自有数据中心或云VPC)中,公司提供了这种灵活性 [48][49] - 第四季度销售主导订阅收入环比下降的原因包括:1) 指导数字包含了风险调整;2) 第四季度工作日减少3天,造成约3%的收入逆风 [52] - 从业务角度看,销售执行持续良好,承诺量健康,渠道非常健康且每个季度都在增长 [50] - 公司继续按计划实现中期目标,并对业务实力感到非常积极 [53] - 在衡量公司成功时,销售主导的订阅收入增长是应关注的关键指标 [79] 问题: 如何看待前沿AI模型,是竞争还是合作伙伴?[56] - AI不会取代公司,反而依赖于公司。前沿模型是强大的推理引擎,是未来的操作系统,而公司的角色是快速、实时地从企业所有数据中提供正确的上下文给LLM [57] - 公司已与超大规模云厂商合作,并集成了所有前沿模型,支持MCP、A2A等协议,旨在成为未来基础设施的关键部分 [58] 问题: Elastic内部使用AI的 tangible benefits 及对未来员工人数的影响?[59] - 公司内部全面应用AI,例如两年前构建的支持代理已投入生产,显著提升了客户支持体验,并抵消了对支持团队人员增加的需求 [59][60] - 在HR、财务、法律和工程等部门也广泛使用AI工具,提高了生产力和效率,有助于加速创新步伐并管理业务增长而无需同比增加人员 [61][62] 问题: 平台如何适应RAG(检索增强生成)等不断发展的方法?[65] - RAG技术不断发展,其核心是为LLM找到最相关的上下文,这可能需要结合多种技术 [66] - 公司一直处于采用混合搜索等先进技术的前沿,并有信心继续处于领先地位,因为Elastic的核心理念就是相关性,这对于搜索和准确AI都至关重要 [67] 问题: 近期CISA胜利是否带来更多牵引力?[68] - CISA合作取得了巨大成功,第三季度已有更多机构加入,预计这只是一个开始,未来几个季度将有更多机构采用该服务 [68][69] - CISA作为美国民用政府网络安全主要机构的认可具有长远价值 [69] 问题: 为何CRPO增长未更快加速至20%?[73] - CRPO已突破10亿美元,增长19%,RPO增长22%,是两年来最佳表现,绝对美元增长进展良好 [74] - 增长由强劲的客户承诺和销售执行驱动 [74] - AI顺风正在显现,并随着更多10万美元以上客户采用AI工作负载而持续增长 [75] - 全年销售主导订阅收入指引显示出业务持续走强,中期目标是20%以上,随着更多客户采用AI功能,公司有信心达到甚至超越该目标 [76] 问题: 第四季度云收入 sequential growth 为何与早期年份不同?[78] - 销售主导的订阅收入增长是衡量公司成功的关键指标,本季度增长21% [79] - 仅云收入(销售主导)本季度同比增长27% [79] - 第四季度工作日减少,且指导数字是风险调整后的,因此不能直接将实际业绩与指导数字比较 [80] - 公司看到了非常强劲的承诺和销售主导方面的表现 [80] 问题: 客户AI用例是否在扩大?[83] - AI用例正在多样化。八个季度前主要集中在向量数据库和聊天式界面,现在扩展到代理式工作流,包括安全和可观测性工作流的自动化 [84] - 用例种类的增长为公司核心搜索业务以及安全和可观测性业务带来了机会 [85] 问题: 是否在AI应用中更多地看到与MongoDB的竞争?[88] - 提及的MongoDB竞争胜利是一个个案,客户在扩展混合搜索解决方案时遇到了性能问题 [88] - 公司通常在非结构化数据领域竞争,不常直接面对MongoDB,但偶尔会遇到此类情况 [88] 问题: 大额交易对指导和季节性的影响?[89] - 大额交易遵循典型的企业季节性模式,更多集中在第三和第四季度末 [90] - 这是公司在全球2000强大型客户中取得成功的自然结果 [90] - 在制定指导时,公司会对可能跨季度变动的具体交易进行折价处理,纳入风险调整,不指望一切顺利 [90] 问题: 客户关于AI采用的对话语气与一年前有何不同?[93] - 客户对AI的热情更高,已有足够多的成功案例证明AI在各种用例中的价值 [94] - 对话更少是关于布道,更多的是关于如何帮助他们构建复杂的代理式应用,显示出成熟度 [94] - 但企业内AI代理的总数仍处于早期阶段,AI变革性能力可应用于许多功能和流程,机会仍然巨大 [95][96] 问题: 搜索技术的改进(如Jina重排模型)是用于提高收费还是获客?[98] - 公司采用消费模式,几乎所有平台使用都基于计算、存储等进行计量,LLM或模型相关则基于令牌 [98] - 随着新模型的推出,公司对所有功能进行货币化,客户在平台上使用越多,驱动收入就越多 [98] 问题: 为何第三季度业绩超预期并上调部分指引,但全年固定汇率指引未变?[99] - 公司关注的核心指标是销售主导的订阅收入,本季度该指标大幅超出预期,且上调幅度超过了超预期部分,这反映了公司对业务销售线积极势头的看法 [100] - 公司对销售主导订阅收入的前进势头感觉良好 [100]
超越 Chatbot:Long-horizon Agent 如何重新定义 AI 产品形态|Jinqiu Select
锦秋集· 2026-02-05 19:40
AI Agent产品形态的范式转移 - Chatbot作为主流AI产品形态已显疲态,其“一问一答”的即时响应模式难以解决复杂问题,本质是产品形态而非模型能力的问题 [3][4] - 真正有价值的日常工作需要“长程执行者”,即能够自主进行多步骤决策、调整策略并花费时间完成任务的AI Agent [5] - 行业转折点出现在2025年年中,标志是Claude Code爆发式增长、Deep Research类产品涌现以及Manus等SuperAgent流行,AI从“聊天框里的打字机”转变为“能够独立作业的数字员工” [7] Long-horizon Agent(长程智能体)的核心与应用 - Long-horizon Agent定义为能在数分钟至数小时内自主运行的智能体,其核心是让大语言模型在循环中自主决定下一步行动 [16][17] - 该类型智能体具备三个核心特征:运行时间更长、拥有自主决策能力、产出“初稿”而非最终产品 [20] - 当前典型应用场景包括:Coding(如Claude Code、Cursor)、AI SRE(如Traversal的AI SRE Agent)、研究与报告生成(如Deep Research类产品)、高级客户支持 [20] AI Agent技术栈的演进:从Model到Harness - 技术栈分为三层:最底层是Model(模型),由OpenAI、Anthropic等厂商提供;中间层是Framework(框架),如LangChain,提供对工具、记忆等组件的抽象;最上层是Harness(运行时套件) [22][23] - Harness是“开箱即用”的Agent运行时环境,内置了构建Long-horizon Agent所需的最佳实践,如规划能力、上下文压缩、记忆管理、子任务协调和预设提示词模板 [11][23] - 行业竞争重心正从Framework转向Harness,因为当模型能力跨越关键阈值后,真正的竞争在于谁能提供更好的、内置最佳实践的运行时环境 [11][24] AI Agent发展的三个阶段 - 第一阶段为简单的Prompting和Chaining时代,模型仅有基础的文本输入输出能力 [28] - 第二阶段为Cognitive Architecture时代,模型开始具备工具调用和一定规划能力,开发者需构建复杂的“脚手架”来支撑 [30] - 第三阶段为Long-horizon Agent时代(2025年中至今),模型能力足够强大,行业焦点从构建“脚手架”转向提供“Harness”,以优化上下文工程 [31][32] 2026年关键技术方向与核心竞争力 - 模型能力已跨越关键阈值,推理、工具调用和长上下文处理能力使Long-horizon Agent从演示变为实用工具 [33] - Context Engineering(上下文工程)成为核心竞争力,其本质是构建动态系统,在正确时机以正确格式向模型提供正确的信息和工具 [29][34] - 在Agent开发中,Trace(运行完整记录)取代代码成为新的“真相来源”,这使得可观测性工具变得至关重要 [36][41] - Memory(记忆)能力可能成为产品的关键护城河,能够从运行记录中学习并自动更新指令的Agent将具备巨大优势 [42][43] - 文件系统访问能力是Long-horizon Agent的标配,对上下文管理有巨大帮助,且未来的通用Agent很可能都具备强大的编码能力 [44][46][47]
Cognizant(CTSH) - 2025 Q4 - Earnings Call Transcript
2026-02-04 22:32
财务数据和关键指标变化 - **第四季度收入**为53亿美元,按固定汇率计算同比增长3.8%,全部为有机增长 [31] - **2025年全年收入**为211亿美元,按固定汇率计算同比增长6.4%,其中Belcan贡献了260个基点的增长 [32] - **第四季度调整后营业利润率**为16%,同比提升30个基点 [5][39] - **2025年全年调整后营业利润率**为15.8%,同比提升50个基点,超出指引 [6] - **第四季度调整后稀释每股收益**为1.35美元,同比增长12% [41] - **2025年全年调整后稀释每股收益**为5.28美元,同比增长11% [41] - **2025年自由现金流**为27亿美元,超过净收入的100% [41] - **第四季度应收账款周转天数**为81天,环比减少1天,同比增加3天 [41] - **2025年向股东返还资本**约20亿美元,通过股息和股票回购 [10][41] - **2025年员工人均收入**和**调整后营业利润**在过去十二个月分别增长5%和8% [6][77] 各条业务线数据和关键指标变化 - **金融服务**:第四季度按固定汇率计算收入同比增长9%,全年增长约7%,为2016年以来最高年度水平 [5][32] - **健康科学**:尽管面临行业成本压力和政策变化,表现依然坚韧,全年增长约6%,高于公司平均水平 [33][86] - **产品与资源**:表现稳定,尽管关税不确定性抑制了自由支配支出,但预计2025年下半年的大型交易势头将推动2026年更好表现 [35][36] - **通信、媒体与技术**:第四季度,技术客户的同比增长被通信和媒体业务的疲软所抵消,北美终端市场疲软对通信和媒体业务产生了一些影响 [36][37] - **业务流程外包业务**:受数字劳动力深度应用推动,第四季度和全年收入均同比增长9% [25][79] - **数字工程业务**:第四季度和全年收入均同比增长8% [25] - **数据与云现代化业务**:收入均实现中个位数有机增长,超过公司整体增速 [26] 各个市场数据和关键指标变化 - **北美地区**:第四季度按固定汇率计算同比增长超过4%,由金融服务和医疗保健业务驱动 [37] - **欧洲地区**:按固定汇率计算同比增长2%,金融服务和生命科学客户增长健康 [38] - **世界其他地区**:增长与公司整体水平一致,由中东地区驱动 [38] 公司战略和发展方向和行业竞争 - **AI Builder战略**:公司战略聚焦于解决“AI速度鸿沟”,即过去几年大规模AI基础设施支出与客户业务价值实现之间的差距 [11] 公司定位为“AI构建者”,通过三向量战略将技术转化为客户可衡量的投资回报 [11] - **三向量战略**:向量一:将AI生产力应用于增强和加速传统软件周期 [12] 向量二和三:构建全新的智能资本和数字劳动力周期,超越传统软件范围,创造更大的可触达总支出 [13] - **AI构建者技术栈**:包含四个生态层:AI计算、云、模型访问和人力资源服务 [15] 关键要素包括:专有的BASIS框架、情境工程科学、强大的AI合作伙伴生态系统以及公司自身的专有知识产权 [15][16][17][20] - **合作伙伴生态**:与NVIDIA、Anthropic、Google Cloud、Microsoft Azure、OpenAI、Adobe、Palantir、Salesforce、ServiceNow等公司在模型、应用、行业解决方案等多层面深化合作 [18][19][20] - **组织架构调整**:为工业化AI构建者技术栈,成立了三个单元:面向市场的AI单元、集成的AI解决方案单元、以及集中化的AI平台和产品单元 [22] - **人才战略**:过去两年半,超过34万名员工完成了AI技能培训 [23] 公司正在从传统的线性人员配置模式转向异步、自主的软件工程模型 [23] 2025年在印度增加了超过1.6万名员工,2026年计划在美国招聘2000名校园毕业生,在印度招聘约2万名员工 [25] - **并购与整合**:完成了对3Cloud的收购,增加了1200多名Azure专家和工程师 [10] Belcan整合进展顺利,在航空航天和国防工业建立了健康的协同效应渠道,并获得了美国导弹防御局价值高达1500亿美元的SHIELD项目合同 [10] - **行业竞争地位**:公司2025年按固定汇率计算的收入增速在10家同行对标公司中位居前列,已进入“赢家圈” [8][30] 2025年及2023-2025三年期间的总股东回报在同行中位居前两名 [10] 管理层对经营环境和未来前景的评论 - **需求环境**:环境依然复杂,传统的自由支配支出周期持续演变,客户正在重新设定对生产力提升的预期 [32] 这被视为一个获取大型交易份额并帮助客户将节省的资金再投资于创新的机会,同时也为公司推进AI构建者战略开辟了新的可触达支出池 [32] - **AI机遇**:管理层认为AI是顺风,而非威胁 [50][67] 公司研究显示,AI未来能够释放美国4.5万亿美元的劳动力价值,但这一价值尚未流向企业 [11][53] 公司认为自己是连接技术与商业价值的桥梁,通过情境工程、流程重塑和集成来推动价值实现 [50][116] - **2026年展望**:公司目标是在2026年继续保持作为AI构建者的领导地位,并维持在行业“赢家圈”的位置 [29][47] 对维持增长势头充满信心 [31][47] 其他重要信息 - **订单情况**:第四季度订单额同比增长9%,签署了12项总合同价值超过1亿美元的大型交易,其中一项价值超过10亿美元 [5] 大型交易赢单价值同比增长60% [5] 2025年全年签署了28项TCV超过1亿美元的交易,TCV总额同比增长近50%,其中包括5项TCV超过5亿美元的超大型交易 [9] - **固定价格/基于成果的合同**:此类合同收入占比现已超过50%,三年前约为41%-42% [65] 管理层认为这体现了公司共享生产力、承担风险并交付成果的能力 [75][78] - **印度劳动法变更**:印度政府实施了《社会保障法典》的部分条款,导致公司资产负债表上的确定福利负债一次性增加,预计未来确定福利成本将略有上升 [40][45] - **印度上市探索**:公司继续评估在印度进行首次公开发行和二次上市的可能性,已与顾问和监管机构进行接洽,但目前董事会和管理层尚未做出决定 [46][110] - **2026年业绩指引**: - **收入**:预计按固定汇率计算增长4%-6.5%,其中约150个基点来自非有机增长(包括已完成及未来的并购) [43] 按中值计算,有机收入增长约3.8%,与2025年表现一致 [43] - **调整后营业利润率**:预计在15.9%-16.1%之间,意味着扩张10-30个基点 [44] - **调整后稀释每股收益**:预计在5.56-5.70美元之间,同比增长5%-8% [45] - **自由现金流转换率**:预计为净收入的90%-100% [44] - **资本返还**:计划向股东返还约16亿美元资本,其中约10亿美元用于股票回购,其余用于常规股息 [45] 总结问答环节所有的提问和回答 问题: AI对业务的影响,特别是对软件包实施业务的影响 [49] - AI被视为顺风,增加了总可触达支出,而非替代 [50][54] 公司通过三向量战略,既应用于传统软件以提高效率、消除技术债务,也用于开发全新的智能软件以触及更广的企业领域 [54] 确定性和概率性软件将共存并相互作用 [55] 目前软件包实施业务收入占比未在问答中具体披露 问题: 2026年毛利率展望及定价压力 [56] - 第四季度毛利率同比下降主要受更高的可变薪酬(奖金)和薪资调整影响,这是业绩强劲的体现 [57] 2025年全年毛利率受Belcan收购(其业务结构更偏现场)和更高奖金支出的影响 [58][92] 行业存在生产力提升预期带来的压力,但公司通过内部生产力措施(如AI生产力、人员结构优化、离岸外包和利用率提升)来应对,目前执行良好 [58][59][60][61] 公司对2026年保持扩张性利润率有信心 [94] 问题: 大型交易势头、2026年增长信心及季度增长模式 [64][68] - 第四季度订单表现强劲,大型交易TCV同比增长60% [65] 公司已激活生产力和创新两条业务线,大型交易渠道强劲,预计已签署的交易将在2026年第二、三季度开始贡献收入,带来加速增长 [65][67][69] 此外,2026年第一季度计费天数较少,也使得第二季度环比增长会更好 [69] 问题: 固定价格/基于成果合同的风险与机遇 [74] - 此类合同将大部分交付风险转移给服务提供商,公司通过严格的过程管理(投标与实际对比)来确保整体投资组合的利润率接近预期,未出现重大超支或节余 [75][76] 公司通过与客户共享生产力、强化执行来管理风险,并拥有成果的能力使得业务流程外包等业务得以增长 [77][78][79] 问题: AI赋能下业务流程外包业务的持久性 [80] - 业务流程外包的可触达支出规模巨大(可能是技术支出的10-20倍),公司已连续三年实现约9%-10%的增长 [81] 管理层认为这是长期的顺风,因为企业的运营转型和重塑需要大量工作,且概率性技术的维护需求比确定性技术更高,带来了更多工作机会 [81][82] 问题: 健康科学领域在监管压力下的增长信心 [85] - 尽管支付方领域存在监管和成本压力,但公司的健康科学业务凭借TriZetto平台(年处理5000亿美元交易,覆盖2亿会员)建立了强大的护城河 [86] 监管不确定性反而促使客户围绕TriZetto平台进行转型,将行政成本节约的资金转向医疗服务,这为公司创造了新的支出领域 [86][87] AI在临床文档、患者生命周期管理等场景的应用也带来增长机会 [88] 监管压力主要集中在医疗补助和医疗保险,商业健康险领域不受直接影响 [90] 问题: 订单额(ACV)增长与2026年收入指引的关联,以及SG&A优化空间 [97][100] - 第四季度ACV同比略有下降,部分原因是小交易被捆绑成大型合同,这反映了行业动态,但对增长不构成挑战 [99] 在SG&A方面,公司已连续两年优化,并计划在2026年继续利用AI等技术推动公司内部的效率提升 [101] 问题: 短期销售活动与自由支配支出回暖前景 [104] - 金融服务业务(第四季度增长9%,全年增长7%)是公司最大的垂直领域,其强劲表现(2018年以来最佳)显示了自由支配支出的积极信号 [105] 随着AI从生产力工具转向创新催化剂,以及“实体AI”在制造业等领域的兴起,预计将释放更多自由支配支出和新价值池 [105][106] AI价值实现的需求可能推动企业资本支出周期,从而惠及公司 [107] 问题: 印度上市探索的时间表 [109] - 公司正在与顾问和监管机构进行建设性讨论,持续推进评估,但目前尚未做出决定,将在适当时机提供更多更新 [110][111] 问题: AI工作流自动化能力(如Claude插件)对市场机会的影响 [113] - AI能力越强,公司的机会越大 [114] 工作流自动化触及了以前未被软件覆盖的领域(如法律助理工作),创造了全新的可触达支出 [114][115] 关键挑战在于如何通过情境工程、流程重塑和与现有系统集成,将AI价值传递给企业,这正是公司作为“AI构建者”扮演桥梁角色的机会 [116][118]
Cognizant(CTSH) - 2025 Q4 - Earnings Call Transcript
2026-02-04 22:32
财务数据和关键指标变化 - 第四季度收入为53亿美元 按固定汇率计算同比增长3.8% 全年收入为211亿美元 按固定汇率计算同比增长6.4% 其中Belcan贡献了260个基点的增长 [5][6][24][25] - 第四季度调整后营业利润率为16% 同比提升30个基点 全年调整后营业利润率为15.8% 同比提升50个基点 超出指引 [5][6][30] - 第四季度调整后稀释每股收益为1.35美元 同比增长12% 全年调整后稀释每股收益为5.28美元 同比增长11% [31] - 第四季度自由现金流约为8亿美元 全年自由现金流为27亿美元 超过净收入的100% [31] - 全年向股东返还资本约20亿美元 通过股息和股票回购 [10][31] - 2026年全年收入增长指引为按固定汇率计算增长4%-6.5% 其中约150个基点来自非有机增长 调整后营业利润率指引为15.9%-16.1% 调整后稀释每股收益指引为5.56-5.70美元 同比增长5%-8% [32][34][35] 各条业务线数据和关键指标变化 - 金融服务部门表现领先 第四季度按固定汇率计算收入同比增长9% 全年增长约7% 为自2016年以来的最高年度水平 [5][25] - 数字工程业务在第四季度和全年均同比增长8% [19] - BPO业务在第四季度和全年均同比增长9% [19] - 数据和云现代化业务收入均实现中个位数有机增长 超过公司整体增速 [20] - 健康科学部门在行业成本压力和监管变化下表现坚韧 全年增长超过6% [26][78] - 通信、媒体和技术部门中 技术客户需求强劲 但通信和媒体业务疲软 特别是在北美市场 [27][28] - 产品和资源部门表现稳定 尽管关税不确定性抑制了可自由支配支出 [27] 各个市场数据和关键指标变化 - 北美是表现最突出的地区 第四季度按固定汇率计算同比增长超过4% 主要由金融服务和医疗保健驱动 [28] - 欧洲按固定汇率计算增长2% 金融服务和生命科学客户增长健康 [29] - 世界其他地区增长与公司整体水平一致 主要由中东地区驱动 [29] 公司战略和发展方向和行业竞争 - 公司战略聚焦于解决“AI速度鸿沟” 即过去几年巨大的AI基础设施支出与客户业务价值实现之间的差距 目标是成为“AI构建者” [11] - 通过“三向量”战略捕捉机会:向量一 应用AI提升传统软件周期的生产力 向量二和三 构建全新的智能资本和数字劳动力周期 [12] - 公司认为AI驱动的软件是概率性和情境化的 这使其能够再次拥有技术栈并交付成果 这与过去围绕微处理器的确定性古典软件不同 [13] - 公司建立了AI构建者技术栈 包括专有的BASIS框架、情境工程科学、广泛的AI合作伙伴生态系统以及自身的平台和服务知识产权 [13][14][15][16] - 为将AI构建者技术栈产业化 公司成立了三个面向市场的AI单元:面向市场的AI单元、集成的AI解决方案单元以及集中的AI平台和产品单元 [17] - 人才战略是基础 过去两年半有超过34万名员工完成了AI技能培训 公司正在从传统的线性人员配置模式转向异步、自主的软件工程模型 [18] - 公司计划在2026年在美国进行2000名校园招聘 在印度进行约20000名校园招聘 [19] - 公司完成了对3Cloud的收购 增加了1200多名Azure专家和工程师 [10] - 公司与Belcan完成了关键整合里程碑 并在航空航天和国防行业建立了健康的协同效应渠道 [10] - 公司正在评估在印度进行首次公开发行和二次上市的可能性 [37][102] 管理层对经营环境和未来前景的评论 - 需求环境仍然复杂 传统的可自由支配支出周期持续演变 客户正在重新设定对生产力增益的期望 但这被视为一个获取大额交易份额并帮助客户将节省的资金再投资于创新的机会 [25] - 在金融服务领域 过去几个季度可自由支配支出稳步改善 大型交易签约持续 渠道强劲 [26] - 在健康科学领域 监管不确定性(主要影响医疗补助和医疗保险)实际上为转型创造了机会 公司帮助客户降低成本 同时改善患者体验并加速生产力 [26][80][81] - AI正在成为顺风 公司看到AI实验正在转向生产级自动化 并正在开启新的可寻址支出领域 [20][58][98] - 公司有信心在2026年保持增长势头 并维持其在行业“赢家圈”的地位 [22][38] 其他重要信息 - 第四季度签约额同比增长9% 推动了创纪录的季度总合同价值 签署了12笔TCV超过1亿美元的大型交易 其中包括一笔价值超过10亿美元的交易 这些大型交易赢单的价值比一年前高出60% [5] - 全年签署了28笔TCV超过1亿美元的交易 总TCV同比增长近50% 其中包括5笔TCV超过5亿美元的超级交易 [9] - 过去十二个月 每员工收入和每员工调整后营业利润分别增长了5%和8% [6] - 公司现在拥有超过4000个AI项目 超过30%的软件开发周期工作量是AI辅助和自主完成的 [5][56] - 固定价格和基于交易的工作现在占收入的50%以上 [6][56] - 印度政府实施了《社会保障法典》的部分条款 导致资产负债表上确定福利负债一次性增加 预计未来确定福利成本将小幅上升 [30] 总结问答环节所有的提问和回答 问题: AI对ERP实施等打包业务的影响以及当前打包业务收入占比 [40] - AI被视为增加了总可寻址支出 是顺风而非威胁 公司认为需要像高知特这样的公司作为桥梁 将技术与企业的异构环境相结合 实现价值 [41][42][43][44][45] - 确定性的打包软件和概率性的AI软件将共存并相互作用 公司将在其上应用AI价值层以产生更多价值 [46] 问题: 2026年毛利率动态和定价压力 [47] - 第四季度毛利率同比下降主要受更高的可变薪酬(奖金)和薪资上涨影响 这是业绩强劲的表现 [48] - 全年毛利率影响主要来自Belcan(其业务结构更偏现场交付 毛利率较低)和更高的奖金支出 [49] - 行业存在生产力提升的预期压力 但公司通过执行内部生产力措施 保持了人均收入和利润的增长 对2026年有信心 [49][50] - 公司将继续通过优化人员结构金字塔、离岸化和提高利用率等杠杆来管理毛利率 [51] 问题: 大型交易渠道和2026年增长信心 以及季度增长模式 [55][59] - 公司对大型交易渠道感到兴奋 已激活生产力和创新两条泳道 第四季度签约额达12亿美元 创纪录 预计交易工作将在第二和第三季度加速上线 [56][57][58][61] - 对2026年中期环比增长更强的信心基于强劲的签约额和季节性因素(例如2026年第一季度计费天数较少) [60] 问题: 固定价格/基于成果合同的定价、风险与机遇 [65] - 固定价格合同将大部分交付风险转移给服务提供商 公司通过稳健的投标与交付监控流程来管理风险 总体投资组合的利润率与预期非常接近 [66][67] - 公司通过与客户分享生产力、加强执行来管理风险 过去十二个月人均收入和人均利润的增长证明了这一点 [68] - 技术变革使得公司能够再次拥有成果 进行平台化运营 实现非线性的成本和收入 这推动了BPO业务9%的增长 [69][70] 问题: AI对BPO业务增长的持久性 [71] - BPO业务的总可寻址支出是技术支出的10到20倍 因为嵌入了技术、数据和AI到流程中 [72] - 公司BPO业务已连续三年增长9%-10% 预计将是长期的顺风 因为企业的运营转型和维护(尤其是概率性技术所需的维护)需要大量工作 [73][74] 问题: 健康科学部门在监管压力下的增长信心 [77] - 健康科学业务增长超过6% 远高于公司平均水平 TriZetto平台是核心差异化优势 拥有护城河 [78] - 支付方监管的不确定性促使客户希望围绕TriZetto平台进行转型 将资金从行政成本转向医疗服务 这为公司创造了新的支出领域 [78][79][80] - 监管压力主要针对医疗补助和医疗保险 而非商业医疗 但不确定性整体上推动了转型和创新需求 [81] 问题: 毛利率拐点预期 [83] - 公司提供了整体营业利润率指引 未单独提供毛利率指引 但会努力改善毛利率 [84] - 2025年毛利率稀释主要来自Belcan(结构性原因)和更高的奖金支出 核心利润率得到保持 [85] - 通过扩大金字塔底部(招聘更多应届毕业生)、与客户分享生产力以及良好的运营纪律 预计将对毛利率产生顺风 [86] 问题: 年度合同价值增长与2026年增长指引的关联 以及SG&A优化空间 [89][92] - 第四季度ACV的疲软部分是由于较小交易被打包成综合合同 导致大型交易TCV显著增加 这是行业动态 对增长不构成挑战 [90] - SG&A将继续是关注重点 AI在内部企业职能的部署带来了额外的优化机会 公司将在2026年继续推进 [93] 问题: 短期业务活动和可自由支配支出回归前景 [96] - 公司预计大型交易势头将持续 随着AI重点从生产力转向创新 将看到更多可自由支配支出流入 [97] - 金融服务部门(公司最大的垂直领域)在2025年表现是2018年以来最好的 同比增长7%以上 这是一个积极的顺风 其他行业将跟随 [97][98] - AI的进步需要转化为企业价值 这将催化企业的资本支出周期 并最终惠及公司 [99] 问题: 印度上市探索的时间框架 [100] - 公司继续取得进展 正在与顾问合作 目前仍在就监管框架和上市决策进行思考 将在适当时候提供更多信息 [102] - 与监管机构的讨论具有建设性 公司将继续以股东利益为重 并寻求让更多投资者参与其增长故事 [103] 问题: AI工作流自动化能力对市场机会的影响及合作伙伴关系 [105] - AI能力越强 公司的机会就越大 例如在法律等古典软件渗透率低的领域 存在全新的可寻址支出 [106] - 关键在于成为价值实现的“桥梁” 通过情境工程、流程重塑、与SaaS层集成以及融入企业物理和运营层来实现 [107][108] - 目前已有足够智能的技术 但价值尚未流向企业 存在紧迫性 因为过去两年有大量基础设施投资需要兑现回报 这为公司带来了更多工作、更大覆盖面和可寻址支出 [109]
红杉对话 LangChain 创始人:2026 年 AI 告别对话框,步入 Long-Horizon Agents 元年
36氪· 2026-01-28 09:01
行业核心观点 - 2026年是AGI(通用人工智能)的“实干者”元年,其核心是具备自主规划、长时间运行和目标导向能力的“长程智能体”,标志着AI从“对话者”向“执行者”的范式转变 [1] - 长程智能体的核心价值在于为复杂任务提供高质量的“初稿”,其应用正从编码、Excel自动化等垂直领域向所有复杂任务流扩散 [1][5] - 智能体发展的第三个拐点已经到来,这得益于模型能力的增强与围绕模型构建的、有主见的“软件外壳”的共同进化 [2][11] 长程智能体的爆发与核心应用 - 长程智能体已开始真正发挥作用,其核心理念是让大语言模型在循环中自主决策,早期代表如AutoGPT [2] - 编码领域是长程智能体最快起飞和案例最多的应用场景 [2][5] - 其他杀手级应用场景包括:AI站点可靠性工程师、研究分析以及金融等领域中需要生成任务初稿或总结报告的工作 [5][6][7] - 在客户服务等场景,长程智能体可在后台运行,为转接的人工客服生成前因后果总结,提升效率 [7] 智能体架构:从框架到软件外壳 - 智能体架构正从通用的“框架”时代进入更有主见的“软件外壳”时代,后者是开箱即用、内置了预设规划工具等最佳实践的软件环境 [8][10][11] - 软件外壳的关键能力包括:上下文压缩、文件系统交互以及子智能体调度 [11][18] - 模型能力的提升与软件外壳工程设计的进步共同促成了当前突破,特别是推理模型的进步和一系列上下文工程原语的成熟 [11][12] - 在编码基准测试中,经过特定软件外壳优化的智能体性能显著超越原始模型,表明第三方开发者能在该层面挖掘巨大性能提升 [15][17] 编码智能体与通用智能体的演进 - 编码智能体可能是通用智能体的终极形态,因为“写代码”本身就是让计算机工作的极佳通用手段 [1][23] - 构建长程智能体的一个关键共识是必须赋予其文件系统访问权限,这有助于高效的上下文管理 [11][23] - 未来的竞争焦点将集中在围绕“让大语言模型循环运行”这一核心算法的上下文工程技巧上,例如记忆管理和上下文压缩的自动化 [22][23] 智能体开发与传统软件开发的差异 - 最大区别在于:智能体的逻辑部分存在于非确定性的黑盒模型中,而非全部写在可控代码里,因此必须通过实际运行来理解其行为 [25] - “追踪记录”成为智能体开发的“单一事实来源”和团队协作的核心支点,用于复现智能体内部每一步的上下文状态,这不同于传统软件仅在出错时查看日志 [25][26] - 智能体开发更具迭代性,因为其发布前的行为是未知的,需要通过在线测试和真实世界交互来不断调整 [27] - 现有软件公司因其拥有的数据和API,在接入智能体时具有巨大价值,但关于如何处理数据的“指令”部分可能是全新的 [29] 评估、记忆与自我改进 - 智能体的评估需要引入人类判断,其代理方式是使用“大语言模型作为评判者”,但关键在于确保其与人类判断对齐 [32][33] - 记忆功能是智能体形成竞争壁垒的关键,一个经过长时间磨合、内化了特定任务模式与背景记忆的智能体将极具价值 [36] - 智能体已具备通过反思追踪记录来自我改进的能力,体现在自动纠错、记忆更新等方面,实现了一种有人类在环的递归式自我改进 [33][34][35] 未来的交互与生产形态 - 理想的智能体交互是异步管理和同步协作的统一,用户需要能在两种模式间无缝切换 [37][38][40] - 未来的交互范式可能围绕“共享状态”展开,如同步查看和修改文件系统、云端文档中的同一份资料,Anthropic的Coworker是范例 [38] - 代码沙箱和命令行访问将是未来智能体的核心组件,文件系统访问权限被认为是所有智能体的标配 [41][42][44]
红杉对话 LangChain 创始人:2026 年 AI 告别对话框,步入 Long-Horizon Agents 元年
海外独角兽· 2026-01-27 20:33
文章核心观点 - 2026年是AI从“Talkers”转向“Doers”的元年,其核心载体是具备自主规划、长时间运行和目标导向能力的“长程智能体”[2] - 长程智能体爆发的关键在于模型能力的提升与围绕模型构建的、有主见的“软件外壳”的共同进化,其杀手级应用是为复杂任务提供高质量初稿[3][4][5] - 在长程智能体的开发范式中,“追踪记录”取代代码成为新的“单一事实来源”,理想的交互模式是异步管理与同步协作的统一[3][25][35] Long-Horizon Agents的爆发 - 长程智能体已开始真正发挥作用,其核心是让大语言模型在循环中自主决策,如早期的AutoGPT[3][4] - 此类智能体的价值在于为需要长时间运行、产出初稿的场景提供支持,典型应用包括AI编码、AI站点可靠性工程师以及研究分析[5][6] - 智能体虽难以达到99.9%的可靠性,但能承担大量工作,并采用人机协作模式,例如在客服场景中,后台智能体可为人工生成总结报告[5][6] 从通用框架到Harness架构 - Agent的发展经历了三个阶段:早期的简单Prompt链、引入工具调用后的自定义认知架构,以及当前以“上下文工程”为核心的Harness时代[20][21] - Harness是一种开箱即用、有强预设的软件外壳,其核心价值在于管理上下文压缩、规划工具和文件系统交互等原语[8][9] - 模型能力的提升与Harness工程的进步共同促成了突破,例如在编码领域,经过Harness优化的智能体性能波动巨大,同一模型的表现可因Harness不同而有显著差异[10][14] - 在Terminal-Bench 2.0榜单中,由Factory公司构建的Droid智能体使用GPT-5.2模型取得了64.9%的准确率,展示了第三方Harness的潜力[15] Coding Agent是通用AI的终局形态吗 - 文件系统权限被认为是所有长程智能体的标配,它在上下文管理中极为有用,例如存储原始信息以供查阅[9][24] - 一个核心的行业思考是:所有智能体本质上是否都应该是编码智能体,因为“写代码”本身就是让计算机工作的通用手段[22][23] - 编码能力对于处理长尾复杂用例可能是无可替代的,但目前浏览器操作等能力尚未成熟[39] 构建Long Horizon Agent vs 构建软件 - 构建智能体与构建传统软件的根本区别在于,其核心逻辑部分存在于非确定性的模型黑盒中,而非全部写在代码里[25] - 因此,智能体的“单一事实来源”是代码加上“追踪记录”,开发者必须通过运行和观察Trace来理解其行为[25][26] - 智能体开发更具迭代性,发布前的行为未知,需要通过更多交互来使其达标,这使得内存和自我改进能力变得重要[27][34] - 对于现有软件公司,其积累的数据和API是构建智能体Harness的巨大优势,但关于如何处理数据的指令部分可能是全新的[28] 从人类判断到LLM-as-a-Judge - 评估智能体需要引入人类判断,而“LLM-as-a-Judge”是建立人类判断代理的关键,前提是必须与人类判断对齐[30][31] - 智能体具备反思自身追踪记录的能力,这种能力被用于评估、自动纠错和更新内存,本质上是同一回事[31] - 一种新兴模式是让编码智能体通过命令行工具获取Trace,自行诊断问题并修复代码,实现有人类在环的递归自我改进[32][33] 未来的交互与生产形态 - 在特定垂直工作流中,通过长时间磨合积累的记忆能形成极高的竞争壁垒[3][35] - 未来的理想交互形态是混合模式:用户默认异步管理后台运行的多个智能体,但在关键时刻可切换到同步聊天模式,并基于共享状态进行协作[35][37] - 纯异步模式目前难以跑通,因为模型仍需人类在环进行纠错,注定需要在异步和同步之间切换[37] - 代码沙箱将是未来的核心组件,文件系统访问和编码能力被认为是智能体的标配,而浏览器操作能力尚不成熟[38][39]
Agent元年复盘:架构之争已经结束!?
自动驾驶之心· 2025-12-24 08:58
文章核心观点 - 2025年是Agent技术稳步落地的“Agent元年”,技术已就绪,爆发在局部,行业处于从技术架构探索向业务重塑过渡的中间态 [5][6][10] - Agent技术架构之争已定,收敛至以Claude Agent SDK和LangGraph的Deep Agent为代表的“通用型Agent”形态,其核心特点是主从架构(Main-Sub Agent)、自主规划、独立文件系统和上下文自动压缩 [3][57][58][59] - 构建有价值的“Deep Agent”需要满足两大特征:一是“够垂”,即具备源于行业深度实践的专业知识;二是“Long-running”,即能稳定、长时间运行并执行多步骤复杂任务 [11][12] - 将通用型Agent转化为垂类Agent的关键在于通过“Agent Skills”等优雅方式将业务知识丝滑融入,并通过分层工具调用、精细化的系统提示词工程来管理复杂度和确保稳定性 [22][41][52][62] 技术架构收敛与通用型Agent形态 - 技术架构在2025年10月后已收敛,标志是以Claude Agent SDK和LangGraph的Deep Agent为代表的架构 [57] - 收敛后的通用型Agent架构具备四大支柱:主从架构(Main-Sub Agent)、自主规划能力、独立的文件系统概念以及上下文自动压缩机制 [58][59] - 上下文自动压缩指当Token使用量达到上限(如200k)的80%时,系统会自动调用总结模型进行摘要压缩以释放空间 [59] - 分层工具调用是解决上下文拥挤的关键,例如Manus架构通过原子层、沙箱工具层和代码/包层三层设计,避免一次性灌输超100个工具导致的上下文混淆 [62][66][67] Deep Agent的核心特征与定义 - **特征一:行业性(够“垂”)**:Agent的知识和能力必须源于行业的深度实践和共识,包括业务定义的理想态、过往案例积累以及行业潜规则,其输出应达到或接近高级专家的水准 [11][12] - **特征二:Long-running(稳定性)**:包含两个关键维度,一是能长时间持续运行而不崩溃(如连续运行24小时),二是能连续、保质保量地执行涉及大量工具和API调用的多步骤复杂任务 [12] - **定义**:一个Deep Agent首先是一个Agent,其公认定义是“一个能循环运行工具以实现目标的LLM代理” [13][14] 构建Deep Agent的关键维度与方法 - **维度一:业务知识融合**:传统方法如融入Prompt或使用企业知识库(RAG)不够丝滑,Anthropic提出的“Agent Skills”提供了一种优雅解法,它通过多层级的文件系统封装指令和资源,让Agent能动态发现和加载,实现渐进式披露 [22][26][29][32] - **维度二:实现Long-running**:LangGraph的Deep Agent包提出了四大方法,包括规划、子代理、系统提示和文件系统,它们相辅相成,共同构成核心运作机制 [44][47][48][52][55] - **具体方法**: - **规划**:允许代理将复杂任务分解为步骤,跟踪进度并调整计划,以执行更长时间跨度的任务 [47] - **子代理**:用于实现上下文隔离、并行执行、专业化分工和提升Token效率,架构已收敛为由一个超强主代理按需调用子代理的模式 [48][49][50] - **系统提示**:最优秀的Agent拥有非常复杂详细的系统提示,用于定义规划标准、调用子代理的协议、工具使用规范及文件管理标准,通过提示工程承载应用复杂性 [52][53][54] - **文件系统**:用于上下文卸载、作为共享工作区、存储长期记忆以及封装可执行的技能或脚本 [53] Agent与Workflow的对比及开发范式转变 - **本质区别**:是复杂度的转移,Workflow将业务逻辑显式构建为“有向图”,而Agent将其抽象为自然语言,复杂度从“流程编排”转移到了“Prompt设计” [19] - **核心一致**:无论选择Workflow还是Agent,都在实践“Test-Time Scaling Law”,即通过良好的上下文工程,让模型消耗更多Token以换取更强的能力或更高的准确率 [20] - **开发范式**:相较于传统微调(SFT)动辄两周的周期,Agent模式跳过了耗时的数据准备,将迭代周期从“周级”压缩至“天级”,本质是通过消耗Token来换取效果的快速迭代 [74] 行业落地现状与挑战 - **验证过的成功**:如Deep Research和Claude Code已完全融入日常工作流,成为稳定可靠的生产力工具 [10] - **看不见的繁荣**:在招聘、市场营销、医疗等垂直领域,许多Agent产品早已实现百万美元营收,但由于大量业务集中在出海方向,导致国内体感不强 [10] - **核心瓶颈变化**:当前真正挑战在于“业务重塑”,即需要懂技术的一线从业者将传统SOP和行业知识解构,以Agent友好的方式沉淀为新工作流 [10] 从通用型Agent到垂类Agent的业务实践 - **升级路径**:将现有Workflow升级为Agent主要包括三步:1) 将业务文档、SOP抽象为Skills并存储在文件系统中;2) 将业务API封装为MCP服务;3) 为Main Agent和Sub Agent编写极度详细的系统提示词 [71] - **架构参考**:可模仿Claude Deep Research的主从Agent(Main-Sub Agent)Prompt架构,将复杂业务流程通过详尽的系统提示沉淀到主代理的认知体系中 [72] - **模型依赖**:这种方式的有效性高度依赖最先进的模型(如Claude 4.5、Gemini 3、GPT-5.2),若无法获得,则需降低任务复杂度进行尝试 [73]
最火、最全的Agent记忆综述,NUS、人大、复旦、北大等联合出品
机器之心· 2025-12-22 17:55
文章核心观点 - 一篇由多所顶尖学术机构联合发布的百页综述,旨在为快速扩张但日益碎片化的“智能体记忆”领域提供一个统一的分析框架,以梳理其技术路径[2] - 文章指出,传统的“长/短期记忆”二分法已不足以描述当代系统的复杂结构,因此提出了一个名为“Forms–Functions–Dynamics”的三角分析框架[5][6] - 智能体记忆应被视为实现时间一致性、持续适应与长程能力的关键基底,未来将变得更可学习、更自组织、更具适应性[68] 智能体记忆的概念辨析 - **智能体记忆**:关注智能体持续维持的、持久的、可自我演化的“认知状态”,它需要在交互中不断更新、整合、纠错、抽象,并跨任务保持一致性[11] - **LLM记忆**:关注模型内部计算过程中如何更有效地保留和利用序列信息,以解决长距离依赖建模等问题,其研究不必然与智能体的长期自主行为绑定[12] - **RAG**:更接近“静态知识访问”,旨在从外部知识库检索静态信息以提升事实性,若缺乏长期一致性和演化机制,则并非完整的记忆系统[13] - **上下文工程**:作为优化“当下模型看到什么”的外部脚手架,而智能体记忆是支持学习与自主性的、维持跨窗口跨任务持续认知状态的内部基底[14] 记忆的形式 - 综述将智能体记忆的形式归纳为三大类:**Token级记忆**、**参数记忆**和**潜在记忆**[16] - **Token级记忆**:将信息存储为持久、离散、可外部访问与检查的单元(如文字、视觉token),具备透明、可编辑、易组合的优势[18][19] - **参数记忆**:信息存储在模型参数中,通过参数空间的统计模式编码并隐式访问,类似于“内化后的直觉”,但存在训练成本高、难以精确编辑等问题[22] - **潜在记忆**:信息以模型内部隐状态或连续表示存在,可在推理或交互周期中持续更新,它比Token级记忆更紧凑,比参数记忆更容易在推理期更新,但更难解释[24][26] 记忆的功能 - 综述按功能角色将智能体记忆分为三类:**事实记忆**、**经验记忆**和**工作记忆**[29] - **事实记忆**:记录来自用户与环境交互的知识,旨在提供一个可更新、可检索、可治理的外部事实层,以维持跨会话、跨阶段的一致性[31] - **经验记忆**:从任务执行中增量提升解决问题的能力,关注跨情景的长期积累与迁移,可按抽象层级分为基于案例的、基于策略的和基于技能的[32][33] - **工作记忆**:管理单个任务实例中的工作区信息,核心问题是在固定计算预算下处理庞大、高维的即时输入,可分为单轮工作记忆和多轮工作记忆[35] 记忆的动态机制 - 记忆系统的生命周期概括为三段:**记忆形成**、**记忆演化**和**记忆检索**,三者构成一个相互反馈的循环[38] - **记忆形成**:将原始上下文(对话、图像等)编码成更紧凑的知识表示,操作包括语义总结、知识蒸馏、结构化构建、潜在表示及参数内化[40] - **记忆检索**:根据当前观察与任务构造查询,返回相关记忆内容并格式化为模型可消费的信号,其触发节奏(而非模块本身)决定了“短期/长期”效果[41] - **记忆演化**:将新增记忆与已有记忆进行整合,通过合并、冲突消解、剪枝等机制,让记忆库保持可泛化、连贯且高效,涉及复杂的治理问题[43] 资源与前沿展望 - 综述汇总了相关的基准测试和开源框架资源,为实证研究与落地开发提供了关键基础设施[44] - 未来记忆系统的发展趋势包括:从**记忆检索**走向**记忆生成**,让记忆内容能被压缩、重组、重写成更适合推理的表示[50][53] - 记忆管理将从**手工编写规则**转向**自动化管理**,可能通过将记忆操作显式接入决策或构建自优化的记忆结构来实现[54][56][57] - **强化学习**将在记忆系统中扮演更核心的角色,未来可能实现完全由强化学习驱动的记忆控制,减少对人类先验知识的依赖,并对记忆全生命周期进行端到端优化[58][59][60] - 随着智能体走向具身与多智能体协作,**多模态记忆**和**多智能体共享记忆**成为关键挑战,需要实现异质信号的统一存取与推理,并发展出主动管理的集体表示机制[64][70] - **可信记忆**成为首要原则,需在隐私保护、可解释性以及抗幻觉与冲突鲁棒性等方面进行系统性建设[65][66]