Workflow
Context Engineering
icon
搜索文档
红杉对话 LangChain 创始人:2026 年 AI 告别对话框,步入 Long-Horizon Agents 元年
36氪· 2026-01-28 09:01
行业核心观点 - 2026年是AGI(通用人工智能)的“实干者”元年,其核心是具备自主规划、长时间运行和目标导向能力的“长程智能体”,标志着AI从“对话者”向“执行者”的范式转变 [1] - 长程智能体的核心价值在于为复杂任务提供高质量的“初稿”,其应用正从编码、Excel自动化等垂直领域向所有复杂任务流扩散 [1][5] - 智能体发展的第三个拐点已经到来,这得益于模型能力的增强与围绕模型构建的、有主见的“软件外壳”的共同进化 [2][11] 长程智能体的爆发与核心应用 - 长程智能体已开始真正发挥作用,其核心理念是让大语言模型在循环中自主决策,早期代表如AutoGPT [2] - 编码领域是长程智能体最快起飞和案例最多的应用场景 [2][5] - 其他杀手级应用场景包括:AI站点可靠性工程师、研究分析以及金融等领域中需要生成任务初稿或总结报告的工作 [5][6][7] - 在客户服务等场景,长程智能体可在后台运行,为转接的人工客服生成前因后果总结,提升效率 [7] 智能体架构:从框架到软件外壳 - 智能体架构正从通用的“框架”时代进入更有主见的“软件外壳”时代,后者是开箱即用、内置了预设规划工具等最佳实践的软件环境 [8][10][11] - 软件外壳的关键能力包括:上下文压缩、文件系统交互以及子智能体调度 [11][18] - 模型能力的提升与软件外壳工程设计的进步共同促成了当前突破,特别是推理模型的进步和一系列上下文工程原语的成熟 [11][12] - 在编码基准测试中,经过特定软件外壳优化的智能体性能显著超越原始模型,表明第三方开发者能在该层面挖掘巨大性能提升 [15][17] 编码智能体与通用智能体的演进 - 编码智能体可能是通用智能体的终极形态,因为“写代码”本身就是让计算机工作的极佳通用手段 [1][23] - 构建长程智能体的一个关键共识是必须赋予其文件系统访问权限,这有助于高效的上下文管理 [11][23] - 未来的竞争焦点将集中在围绕“让大语言模型循环运行”这一核心算法的上下文工程技巧上,例如记忆管理和上下文压缩的自动化 [22][23] 智能体开发与传统软件开发的差异 - 最大区别在于:智能体的逻辑部分存在于非确定性的黑盒模型中,而非全部写在可控代码里,因此必须通过实际运行来理解其行为 [25] - “追踪记录”成为智能体开发的“单一事实来源”和团队协作的核心支点,用于复现智能体内部每一步的上下文状态,这不同于传统软件仅在出错时查看日志 [25][26] - 智能体开发更具迭代性,因为其发布前的行为是未知的,需要通过在线测试和真实世界交互来不断调整 [27] - 现有软件公司因其拥有的数据和API,在接入智能体时具有巨大价值,但关于如何处理数据的“指令”部分可能是全新的 [29] 评估、记忆与自我改进 - 智能体的评估需要引入人类判断,其代理方式是使用“大语言模型作为评判者”,但关键在于确保其与人类判断对齐 [32][33] - 记忆功能是智能体形成竞争壁垒的关键,一个经过长时间磨合、内化了特定任务模式与背景记忆的智能体将极具价值 [36] - 智能体已具备通过反思追踪记录来自我改进的能力,体现在自动纠错、记忆更新等方面,实现了一种有人类在环的递归式自我改进 [33][34][35] 未来的交互与生产形态 - 理想的智能体交互是异步管理和同步协作的统一,用户需要能在两种模式间无缝切换 [37][38][40] - 未来的交互范式可能围绕“共享状态”展开,如同步查看和修改文件系统、云端文档中的同一份资料,Anthropic的Coworker是范例 [38] - 代码沙箱和命令行访问将是未来智能体的核心组件,文件系统访问权限被认为是所有智能体的标配 [41][42][44]
红杉对话 LangChain 创始人:2026 年 AI 告别对话框,步入 Long-Horizon Agents 元年
海外独角兽· 2026-01-27 20:33
文章核心观点 - 2026年是AI从“Talkers”转向“Doers”的元年,其核心载体是具备自主规划、长时间运行和目标导向能力的“长程智能体”[2] - 长程智能体爆发的关键在于模型能力的提升与围绕模型构建的、有主见的“软件外壳”的共同进化,其杀手级应用是为复杂任务提供高质量初稿[3][4][5] - 在长程智能体的开发范式中,“追踪记录”取代代码成为新的“单一事实来源”,理想的交互模式是异步管理与同步协作的统一[3][25][35] Long-Horizon Agents的爆发 - 长程智能体已开始真正发挥作用,其核心是让大语言模型在循环中自主决策,如早期的AutoGPT[3][4] - 此类智能体的价值在于为需要长时间运行、产出初稿的场景提供支持,典型应用包括AI编码、AI站点可靠性工程师以及研究分析[5][6] - 智能体虽难以达到99.9%的可靠性,但能承担大量工作,并采用人机协作模式,例如在客服场景中,后台智能体可为人工生成总结报告[5][6] 从通用框架到Harness架构 - Agent的发展经历了三个阶段:早期的简单Prompt链、引入工具调用后的自定义认知架构,以及当前以“上下文工程”为核心的Harness时代[20][21] - Harness是一种开箱即用、有强预设的软件外壳,其核心价值在于管理上下文压缩、规划工具和文件系统交互等原语[8][9] - 模型能力的提升与Harness工程的进步共同促成了突破,例如在编码领域,经过Harness优化的智能体性能波动巨大,同一模型的表现可因Harness不同而有显著差异[10][14] - 在Terminal-Bench 2.0榜单中,由Factory公司构建的Droid智能体使用GPT-5.2模型取得了64.9%的准确率,展示了第三方Harness的潜力[15] Coding Agent是通用AI的终局形态吗 - 文件系统权限被认为是所有长程智能体的标配,它在上下文管理中极为有用,例如存储原始信息以供查阅[9][24] - 一个核心的行业思考是:所有智能体本质上是否都应该是编码智能体,因为“写代码”本身就是让计算机工作的通用手段[22][23] - 编码能力对于处理长尾复杂用例可能是无可替代的,但目前浏览器操作等能力尚未成熟[39] 构建Long Horizon Agent vs 构建软件 - 构建智能体与构建传统软件的根本区别在于,其核心逻辑部分存在于非确定性的模型黑盒中,而非全部写在代码里[25] - 因此,智能体的“单一事实来源”是代码加上“追踪记录”,开发者必须通过运行和观察Trace来理解其行为[25][26] - 智能体开发更具迭代性,发布前的行为未知,需要通过更多交互来使其达标,这使得内存和自我改进能力变得重要[27][34] - 对于现有软件公司,其积累的数据和API是构建智能体Harness的巨大优势,但关于如何处理数据的指令部分可能是全新的[28] 从人类判断到LLM-as-a-Judge - 评估智能体需要引入人类判断,而“LLM-as-a-Judge”是建立人类判断代理的关键,前提是必须与人类判断对齐[30][31] - 智能体具备反思自身追踪记录的能力,这种能力被用于评估、自动纠错和更新内存,本质上是同一回事[31] - 一种新兴模式是让编码智能体通过命令行工具获取Trace,自行诊断问题并修复代码,实现有人类在环的递归自我改进[32][33] 未来的交互与生产形态 - 在特定垂直工作流中,通过长时间磨合积累的记忆能形成极高的竞争壁垒[3][35] - 未来的理想交互形态是混合模式:用户默认异步管理后台运行的多个智能体,但在关键时刻可切换到同步聊天模式,并基于共享状态进行协作[35][37] - 纯异步模式目前难以跑通,因为模型仍需人类在环进行纠错,注定需要在异步和同步之间切换[37] - 代码沙箱将是未来的核心组件,文件系统访问和编码能力被认为是智能体的标配,而浏览器操作能力尚不成熟[38][39]
Agent元年复盘:架构之争已经结束!?
自动驾驶之心· 2025-12-24 08:58
文章核心观点 - 2025年是Agent技术稳步落地的“Agent元年”,技术已就绪,爆发在局部,行业处于从技术架构探索向业务重塑过渡的中间态 [5][6][10] - Agent技术架构之争已定,收敛至以Claude Agent SDK和LangGraph的Deep Agent为代表的“通用型Agent”形态,其核心特点是主从架构(Main-Sub Agent)、自主规划、独立文件系统和上下文自动压缩 [3][57][58][59] - 构建有价值的“Deep Agent”需要满足两大特征:一是“够垂”,即具备源于行业深度实践的专业知识;二是“Long-running”,即能稳定、长时间运行并执行多步骤复杂任务 [11][12] - 将通用型Agent转化为垂类Agent的关键在于通过“Agent Skills”等优雅方式将业务知识丝滑融入,并通过分层工具调用、精细化的系统提示词工程来管理复杂度和确保稳定性 [22][41][52][62] 技术架构收敛与通用型Agent形态 - 技术架构在2025年10月后已收敛,标志是以Claude Agent SDK和LangGraph的Deep Agent为代表的架构 [57] - 收敛后的通用型Agent架构具备四大支柱:主从架构(Main-Sub Agent)、自主规划能力、独立的文件系统概念以及上下文自动压缩机制 [58][59] - 上下文自动压缩指当Token使用量达到上限(如200k)的80%时,系统会自动调用总结模型进行摘要压缩以释放空间 [59] - 分层工具调用是解决上下文拥挤的关键,例如Manus架构通过原子层、沙箱工具层和代码/包层三层设计,避免一次性灌输超100个工具导致的上下文混淆 [62][66][67] Deep Agent的核心特征与定义 - **特征一:行业性(够“垂”)**:Agent的知识和能力必须源于行业的深度实践和共识,包括业务定义的理想态、过往案例积累以及行业潜规则,其输出应达到或接近高级专家的水准 [11][12] - **特征二:Long-running(稳定性)**:包含两个关键维度,一是能长时间持续运行而不崩溃(如连续运行24小时),二是能连续、保质保量地执行涉及大量工具和API调用的多步骤复杂任务 [12] - **定义**:一个Deep Agent首先是一个Agent,其公认定义是“一个能循环运行工具以实现目标的LLM代理” [13][14] 构建Deep Agent的关键维度与方法 - **维度一:业务知识融合**:传统方法如融入Prompt或使用企业知识库(RAG)不够丝滑,Anthropic提出的“Agent Skills”提供了一种优雅解法,它通过多层级的文件系统封装指令和资源,让Agent能动态发现和加载,实现渐进式披露 [22][26][29][32] - **维度二:实现Long-running**:LangGraph的Deep Agent包提出了四大方法,包括规划、子代理、系统提示和文件系统,它们相辅相成,共同构成核心运作机制 [44][47][48][52][55] - **具体方法**: - **规划**:允许代理将复杂任务分解为步骤,跟踪进度并调整计划,以执行更长时间跨度的任务 [47] - **子代理**:用于实现上下文隔离、并行执行、专业化分工和提升Token效率,架构已收敛为由一个超强主代理按需调用子代理的模式 [48][49][50] - **系统提示**:最优秀的Agent拥有非常复杂详细的系统提示,用于定义规划标准、调用子代理的协议、工具使用规范及文件管理标准,通过提示工程承载应用复杂性 [52][53][54] - **文件系统**:用于上下文卸载、作为共享工作区、存储长期记忆以及封装可执行的技能或脚本 [53] Agent与Workflow的对比及开发范式转变 - **本质区别**:是复杂度的转移,Workflow将业务逻辑显式构建为“有向图”,而Agent将其抽象为自然语言,复杂度从“流程编排”转移到了“Prompt设计” [19] - **核心一致**:无论选择Workflow还是Agent,都在实践“Test-Time Scaling Law”,即通过良好的上下文工程,让模型消耗更多Token以换取更强的能力或更高的准确率 [20] - **开发范式**:相较于传统微调(SFT)动辄两周的周期,Agent模式跳过了耗时的数据准备,将迭代周期从“周级”压缩至“天级”,本质是通过消耗Token来换取效果的快速迭代 [74] 行业落地现状与挑战 - **验证过的成功**:如Deep Research和Claude Code已完全融入日常工作流,成为稳定可靠的生产力工具 [10] - **看不见的繁荣**:在招聘、市场营销、医疗等垂直领域,许多Agent产品早已实现百万美元营收,但由于大量业务集中在出海方向,导致国内体感不强 [10] - **核心瓶颈变化**:当前真正挑战在于“业务重塑”,即需要懂技术的一线从业者将传统SOP和行业知识解构,以Agent友好的方式沉淀为新工作流 [10] 从通用型Agent到垂类Agent的业务实践 - **升级路径**:将现有Workflow升级为Agent主要包括三步:1) 将业务文档、SOP抽象为Skills并存储在文件系统中;2) 将业务API封装为MCP服务;3) 为Main Agent和Sub Agent编写极度详细的系统提示词 [71] - **架构参考**:可模仿Claude Deep Research的主从Agent(Main-Sub Agent)Prompt架构,将复杂业务流程通过详尽的系统提示沉淀到主代理的认知体系中 [72] - **模型依赖**:这种方式的有效性高度依赖最先进的模型(如Claude 4.5、Gemini 3、GPT-5.2),若无法获得,则需降低任务复杂度进行尝试 [73]
最火、最全的Agent记忆综述,NUS、人大、复旦、北大等联合出品
机器之心· 2025-12-22 17:55
文章核心观点 - 一篇由多所顶尖学术机构联合发布的百页综述,旨在为快速扩张但日益碎片化的“智能体记忆”领域提供一个统一的分析框架,以梳理其技术路径[2] - 文章指出,传统的“长/短期记忆”二分法已不足以描述当代系统的复杂结构,因此提出了一个名为“Forms–Functions–Dynamics”的三角分析框架[5][6] - 智能体记忆应被视为实现时间一致性、持续适应与长程能力的关键基底,未来将变得更可学习、更自组织、更具适应性[68] 智能体记忆的概念辨析 - **智能体记忆**:关注智能体持续维持的、持久的、可自我演化的“认知状态”,它需要在交互中不断更新、整合、纠错、抽象,并跨任务保持一致性[11] - **LLM记忆**:关注模型内部计算过程中如何更有效地保留和利用序列信息,以解决长距离依赖建模等问题,其研究不必然与智能体的长期自主行为绑定[12] - **RAG**:更接近“静态知识访问”,旨在从外部知识库检索静态信息以提升事实性,若缺乏长期一致性和演化机制,则并非完整的记忆系统[13] - **上下文工程**:作为优化“当下模型看到什么”的外部脚手架,而智能体记忆是支持学习与自主性的、维持跨窗口跨任务持续认知状态的内部基底[14] 记忆的形式 - 综述将智能体记忆的形式归纳为三大类:**Token级记忆**、**参数记忆**和**潜在记忆**[16] - **Token级记忆**:将信息存储为持久、离散、可外部访问与检查的单元(如文字、视觉token),具备透明、可编辑、易组合的优势[18][19] - **参数记忆**:信息存储在模型参数中,通过参数空间的统计模式编码并隐式访问,类似于“内化后的直觉”,但存在训练成本高、难以精确编辑等问题[22] - **潜在记忆**:信息以模型内部隐状态或连续表示存在,可在推理或交互周期中持续更新,它比Token级记忆更紧凑,比参数记忆更容易在推理期更新,但更难解释[24][26] 记忆的功能 - 综述按功能角色将智能体记忆分为三类:**事实记忆**、**经验记忆**和**工作记忆**[29] - **事实记忆**:记录来自用户与环境交互的知识,旨在提供一个可更新、可检索、可治理的外部事实层,以维持跨会话、跨阶段的一致性[31] - **经验记忆**:从任务执行中增量提升解决问题的能力,关注跨情景的长期积累与迁移,可按抽象层级分为基于案例的、基于策略的和基于技能的[32][33] - **工作记忆**:管理单个任务实例中的工作区信息,核心问题是在固定计算预算下处理庞大、高维的即时输入,可分为单轮工作记忆和多轮工作记忆[35] 记忆的动态机制 - 记忆系统的生命周期概括为三段:**记忆形成**、**记忆演化**和**记忆检索**,三者构成一个相互反馈的循环[38] - **记忆形成**:将原始上下文(对话、图像等)编码成更紧凑的知识表示,操作包括语义总结、知识蒸馏、结构化构建、潜在表示及参数内化[40] - **记忆检索**:根据当前观察与任务构造查询,返回相关记忆内容并格式化为模型可消费的信号,其触发节奏(而非模块本身)决定了“短期/长期”效果[41] - **记忆演化**:将新增记忆与已有记忆进行整合,通过合并、冲突消解、剪枝等机制,让记忆库保持可泛化、连贯且高效,涉及复杂的治理问题[43] 资源与前沿展望 - 综述汇总了相关的基准测试和开源框架资源,为实证研究与落地开发提供了关键基础设施[44] - 未来记忆系统的发展趋势包括:从**记忆检索**走向**记忆生成**,让记忆内容能被压缩、重组、重写成更适合推理的表示[50][53] - 记忆管理将从**手工编写规则**转向**自动化管理**,可能通过将记忆操作显式接入决策或构建自优化的记忆结构来实现[54][56][57] - **强化学习**将在记忆系统中扮演更核心的角色,未来可能实现完全由强化学习驱动的记忆控制,减少对人类先验知识的依赖,并对记忆全生命周期进行端到端优化[58][59][60] - 随着智能体走向具身与多智能体协作,**多模态记忆**和**多智能体共享记忆**成为关键挑战,需要实现异质信号的统一存取与推理,并发展出主动管理的集体表示机制[64][70] - **可信记忆**成为首要原则,需在隐私保护、可解释性以及抗幻觉与冲突鲁棒性等方面进行系统性建设[65][66]
拆解Gemini 3:Scaling Law的极致执行与“全模态”的威力
36氪· 2025-11-24 11:55
Gemini 3性能表现 - Gemini 3在多项基准测试中霸榜,在整体、硬提示、编码、数学等类别均排名第一 [5] - 在ARC-AGI-2基准测试中,Gemini 3的性能达到百分之三十几,相比此前个位数或百分之十几的模型实现了质的飞跃 [10] - 模型在多模态推理上表现突出,得益于其原生多模态架构,将视觉、代码、语言数据混合预训练,实现跨模态的化学反应 [11] - 在实际应用测试中,其Agentic开发环境AntiGravity提供经理视角和编辑视角,可管理多个Agent协同工作,并结合浏览器功能实现自动化测试与开发一体化 [6] - 在创意写作方面,模型不仅能细致描写,还能设计情节反转,显示出对作者深层动机的理解 [9] - 但在真实世界视觉理解任务中,如分析安防摄像头、门铃场景的用户行为和风险事件时,性能可能不如上一代 [13] - 在处理需要多跳搜索、整合二十年财报等极度复杂任务时,其稳定性可能不如竞争对手的某些模型 [14] 谷歌技术优势与路线 - 谷歌的成功被归因于对Scaling Law的极致执行,通过改进预训练和后训练等系统工程细节实现模型能力提升 [17] - 模型内部可能采用了树状搜索(Tree of Thoughts)配合自我奖励机制,在推理时并行多条思路并自行评估选择,这是工程封装与模型科学的深度结合 [19] - 技术路线强调语境工程(Context Engineering),模型在生成答案前可能自动抓取相关背景信息构建丰富的思维链环境 [20] - 公司拥有显著的硬件优势,使用自研TPU避免了使用NVIDIA显卡的高昂成本,使其单位经济模型极其优秀,在同等预算下可训练更大模型、跑更多数据 [21] - 这种软硬件整合的护城河对竞争对手形成巨大挤压 [21] 对开发者生态与竞争格局的影响 - Gemini 3配合AntiGravity及Chrome等生态系统,在多模态原生编码体验上形成降维打击,对独立开发工具创业公司构成挑战 [23] - 新的机会可能在于创造站在巨人肩膀上的新商业模式和产品形态,例如前置部署工程师,打通从商业化到开发的全链路 [23] - 然而,该工具在处理后端部署、复杂系统架构时仍易卡顿,且在企业数据隐私方面存在顾虑,为独立厂商留下生存空间 [25] - 对于专业程序员而言,模型在指令遵循和处理边缘情况方面仍是辅助工具而非替代者,例如生成代码可能存在方向键反了等小错误 [26] AI未来发展趋势 - 单纯依赖Scaling Law可能面临资源瓶颈,行业开始探索可解释性、顿悟机制等基于第一性原理的新算法 [29] - 未来AI发展可能转向数据效率更高的架构,模仿人类大脑以极少数据实现高效学习,而非单纯扩大数据量 [30] - 世界模型是下一个重点战场,旨在理解物理规律,路线包括基于视频、基于网格/物理、基于点云等 [31] - 开源和端侧小模型受到关注,目标是让高性能AI能在个人设备上本地运行,打破对云端数据中心的依赖,实现真正的普惠AI [31] - 一批新兴AI实验室获得高额融资,关注领域包括以人为本的AI、自动化AI研究、加速科学发现、企业专用模型、安全超级智能等 [28]
终于,TRAE SOLO全量开放,我们用它复刻了PewDiePie的大模型智囊团
机器之心· 2025-11-13 12:12
产品发布与定位 - TRAE SOLO 正式版于2025年11月完成全量推送,所有TRAE国际版用户升级至最新版本后均可使用[3][5] - 产品定位从Beta版的“业内首个基于Context Engineering理念的AI开发助手”升级为正式版的“The Responsive Coding Agent”,即“具备响应感知的编程智能体”[6] - 公司推出限时免费体验活动,截至11月15日23:59,所有用户可免费体验SOLO Coder和SOLO Builder功能[7] 核心功能升级 - 正式版新增内置智能体SOLO Coder、多任务列表、上下文压缩、代码变更等核心能力,旨在具备搞定复杂项目开发的综合实力[6] - 提出“随时可掌控”特性,通过上下文可跟踪、可回溯、可压缩、不中断的技术,解决AI编程中意图偏离、上下文遗忘的结构性缺陷[11][13] - 引入“实时有感知”特性,通过将任务自动拆解为清晰的To-Do List并实时更新进度,以及可视化展示AI调用的工具和操作,提升开发过程透明度[16][19][20] - 实现“多任务并行”能力,开发者可同时开启多个项目或子任务,每个任务的上下文被完整保存,并可调用一系列可直接调用的Sub-Agent[23][25] 产品实测表现 - 在复杂场景实测中,SOLO Coder能对复杂需求进行详尽分析并生成详细的结构化项目规划,符合其处理复杂任务的定位[27][31][32] - 执行开发计划过程中,SOLO Coder展现了强大的自主解决问题能力,能够快速找到错误原因并自行修复,在大约13分钟内生成项目的V1版本[35][36][37] - 在从1到N的迭代阶段,SOLO Coder能理解简单反馈并自主修正错误,例如成功添加RAG功能,安装依赖、更新代码并自行测试修复问题[39][40][41] - 实测项目最终实现了RAG功能、委员会协同及音频输出等复杂需求,展示了产品从0到1快速启动和1到N复杂迭代的“双核”协作能力[43][45] 行业趋势与公司战略 - AI编程工具正从“AI辅助编码工具”逐步走向“能够掌控开发过程的智能体系统”,行业演进路径清晰[47][50] - 公司产品迭代历程显示其从IDE集成AI的1.0阶段,进化到AI集成上下文的2.0阶段,最终在3.0阶段定义为响应感知的编程智能体[48][49] - 公司战略聚焦于不牺牲工程深度的情况下降低开发门槛,工具优先服务专业开发者并融入生产体系,未来逐步扩展到研发上下游与非专业群体[54] - 行业发展趋势表明,随着AI能力边界拓宽,未来“开发者”角色将向“架构师”转变,高价值用户是能让AI创造新价值的人[56]
从概念热到落地难:Agent 元年的真实进程
搜狐财经· 2025-10-17 21:03
Agent行业趋势与竞争焦点 - 大型科技公司和创业公司均在积极布局Agent产品,加速在企业级场景中落地,渗透金融服务、制造业和教育等行业 [2] - 行业竞争焦点从模型参数转向平台工程能力和企业落地能力,模型层趋于同质化 [4] - 工作流编排、工具集成、性能评估和安全治理等工程环节成为AI生态的关键战场 [4] 企业落地现状与挑战 - 2025年无论大企业还是SMB对Agent的热情高涨,但行业落地尚未完美 [7] - 模型能力与多样化业务场景的任务需求匹配不足,现有模型泛化能力有限 [7] - Agent的多轮调用和工具链执行导致算力开销高昂,企业面临成本与性能的平衡难题 [7] - 系统集成复杂度高,缺乏统一的协议标准与可靠的调用机制,开发成本和维护难度激增 [7] - 安全性与可靠性是企业级落地的关键门槛,需要稳定、可控且合规的基础设施支持 [7] - 企业高层战略认知是最大障碍,许多负责人仅将Agent视为工具自动化,而非业务重构与组织升级的契机 [9] 平台解决方案与能力升级(以百度千帆为例) - 百度千帆将AppBuilder与ModelBuilder融合升级,形成集大模型、工具组件与智能体开发于一体的企业级工具链 [5] - 平台定位从云服务平台扩展为面向企业的大模型与Agent一体化开发平台 [5] - 推出灵活的Agent编排架构,支持自主规划、工作流编排与多智能体协同,全面提升性能、兼容性与稳定性 [12] - 构建开放的工具与MCP生态,上线百度AI搜索、百度百科等自研组件,并引入第三方生态工具 [14] - 平台汇集超过150款SOTA模型,覆盖视觉、视频、语音等多模态场景 [14] - 创新推出主动Cache模式,通过分布式KVCache技术可降低高达80%的推理成本,优化Agent经济可行性 [14] - 提供端到端的可观测性能力,具备多地容灾、秒级故障切换与多层次安全防护机制,确保企业级业务高可用与高安全 [15] 未来发展方向与展望 - 未来Agent将更深融入企业业务流程,基础是模型能力的持续进化,包括多模态理解、思考模型和更强推理能力 [15] - Context Engineering是重要方向,通过精准线索提取与上下文重组,使模型能触达专家经验与业务知识 [16] - Agent的记忆能力将成为新增长点,需平衡记忆范围与成本,服务于业务决策与交互体验 [16] - 未来将出现更多来自不同行业和场景的Agent,形成规模化应用,平台需不断完善工具、接口与生态以支持创新 [16] - 模型能力、平台生态、市场需求与政策环境正逐渐进入成本与效益匹配的平衡点,未来将看到成千上万的垂类Agent深度嵌入各行业 [17]
Elastic (NYSE:ESTC) Analyst Day Transcript
2025-10-10 03:02
涉及的行业或公司 * 公司是Elastic (NYSE: ESTC) [1] * 行业涉及企业软件、数据平台、搜索、人工智能、可观测性和网络安全 [4][9][23][29] 核心观点和论据 公司的核心定位与竞争优势 * 公司是全球最流行的非结构化数据平台 在非结构化数据领域占据主导地位 [5] * 公司的核心竞争优势在于处理非结构化数据的能力以及提供高相关性搜索结果的能力 [6][7] * 公司在全球拥有强大的现有客户基础 每天有超过30 PB的新数据被摄入到付费集群中 仅Elastic Cloud每天就处理300亿次查询 存储的总数据量超过1.3 EB [7][8] * 公司拥有庞大的开发者社区 软件累计下载量超过55亿次 相当于过去15年平均每秒超过三次下载 [6] 人工智能(AI)带来的机遇与公司的战略 * 大型语言模型的兴起极大地提升了非结构化数据的重要性 使AI成为公司发展的巨大浪潮 [9][10] * 公司认为AI从根本上依赖于数据 而相关性是使任何AI系统具有价值的关键 这正好是公司的核心能力所在 [11] * 公司在AI领域已有长期投入 早在五年前就开始构建向量数据库 并持续增强其能力 [12] * 公司提出了"情境工程"的概念 即确保为大型语言模型提供正确数据和工具的技术 这需要超越单纯的向量数据库的全面能力 [13][14] * 为了抓住AI机遇 公司发布了多项新产品 包括Agent Builder(允许用户直接在数据之上以对话方式快速构建智能体)和Elastic推理服务(提供GPU加速的模型访问) [17] * 公司宣布收购Jina AI 以获得世界级的多语言和多模态模型 增强其AI能力 [18] 在各业务领域的表现和优势 * **搜索与AI业务**:公司因其平台的速度、规模、效率以及在相关性方面的领导地位而获胜 [14][16][42] 例如 有客户在Elastic Cloud中单个用例存储了超过50亿个向量 [67] * **可观测性业务**:公司赢得客户的原因包括拥有最佳的数据存储、对开放标准(如OpenTelemetry)的大力投入以及更积极地使用AI帮助进行调查 [23][24][25][26] 超过90%的云可观测性客户使用其日志分析功能 超过35%的客户使用其超越日志的功能(如APM、基础设施监控) [28][29] * **安全业务**:安全本质上是一个数据问题 公司从Elastic SIEM起步 并扩展到EDR、XDR等功能 [29][30] 公司获胜的原因包括最佳SIEM数据存储、更积极地使用AI(如Elastic Attack Discovery)以及统一信号并采取补救措施的能力 [30][31] 超过95%的云安全客户使用其SIEM功能 超过20%的客户使用其超越SIEM的功能(如EDR/XDR) [32] 市场进入策略与财务表现 * 公司采用"先落地后扩展"的战略 利用其开源根基建立知名度 然后通过自助服务或销售主导的方式赢得客户 并通过客户成功团队推动使用量和消费增长 [33][34][35] * 公司提供灵活的部署模式(Elastic Cloud托管/无服务器 以及自管理选项)以满足不同客户的需求 这在处理受监管数据的AI工作负载时提供了不对称优势 [36] * 公司已对销售团队进行了转型 包括改进市场细分、激励机制、运营严谨性和系统工具 这带来了更好的业绩和可预测性 [135][136][137] * 公司的销售主导订阅收入在2025财年增长了20% 占总收入的81% [156][157] * 公司的非GAAP营业利润率在2025财年达到15% 调整后的自由现金流利润率达到19% [158] * 公司在2025财年的"40法则"得分为36% 显示出增长和盈利能力的平衡 [159] * 生成式AI正在带来增长加速 使用AI功能的客户群显示出更高的扩张率 AI为相关客户带来了约6%的增长顺风 [168][169] 其他重要内容 客户案例与市场认可 * 公司列举了多个重量级客户案例 如DocuSign(因其规模和相关性而选择Elastic)、Legora(因相关性质量)和英国国家医疗服务体系(因规模、相关性及细粒度文档级权限) [19][20][21] 这些用例是持久且关键的 而非实验性的 [22] * 公司已获得分析师认可 根据Gartner和Forrester的报告 在其涉及的每个领域都已成为领导者 [37] 产品技术创新细节 * 公司在数据存储方面持续创新 例如LogsDB和TSDB为客户带来了相比之前版本70%的存储效率提升 [46] 更好的二进制量化技术为向量带来了95%的内存效率提升 并使其比OpenSearch默认量化技术快5倍 [46] * 公司正在与NVIDIA合作进行GPU加速 并构建了基于对象存储的数据湖架构 在不牺牲性能的前提下提供可扩展性和效率 [47] 增长机会与市场规模 * 公司拥有巨大的市场机会 目前仅有42%的全球2000强企业是付费客户 这意味着有58%的空白市场可以开拓 [37][148] * 在现有客户中 只有19%的客户使用超过一个解决方案(搜索、可观测性、安全) 但这部分客户贡献了销售主导ARR的75% 使用三个解决方案的客户的中位ARR是单一解决方案客户的12倍 [149][163] 这表明在公司内部有巨大的扩张空间 * 生成式AI的采用仍处于早期阶段 在10万美元以上的客户中 有超过20%使用了生成式AI功能 但仍有很大增长空间 [169]
Elastic (NYSE:ESTC) Earnings Call Presentation
2025-10-10 02:00
业绩总结 - Elastic在2025财年的总收入预计为14.83亿美元,同比增长17%[16] - Elastic的Elasticsearch平台在过去一年中实现了42%的年增长率[16] - 2025年非GAAP运营利润率为15%[60] 用户数据 - Elastic的客户中,超过2200家企业在100多个国家使用Elastic的搜索和AI解决方案[32] - 21,550个总客户中,有1,550个客户的年合同价值(ACV)超过10万美元[56] - 58%的全球2000公司客户为Elastic客户,42%为新客户机会[195] 未来展望 - 预计到2025年,全球将生成175ZB的数据,其中90%的企业数据为非结构化数据[15] - 2026年市场总可寻址市场(TAM)为1430亿美元,2029年为2960亿美元[52] 新产品和新技术研发 - Elastic的AI驱动可观察性解决方案在速度、规模和效率方面具有竞争优势[35] - Elastic的AI平台为开发者提供了快速市场响应的能力,提升了搜索速度和相关性[26] 市场扩张和并购 - 超过330家年合同价值超过10万美元的客户使用Elastic进行AI应用[32] - Elastic在SIEM市场中排名前五,95%的Elastic Cloud安全客户将其用作SIEM[1] 负面信息 - 无明显负面信息提及 其他新策略和有价值的信息 - 每天在Elastic Cloud上处理的查询量达到300亿次[13] - Elastic平台每天处理的原始数据量为30PB[13] - MTTR(平均修复时间)减少了30%[38] - 系统正常运行时间提高至99.9%[38] - Elastic Cloud可观察性客户中90%使用日志分析[38] - Elastic Cloud安全客户中95%将Elastic用作SIEM[45] - 检测时间减少75%[45] - SOC效率提高50%[45] - 调查时间减少34%[45] - Elastic的$1M ACV客户在FY24至FY25期间实现27%的年增长[193] - Elastic的$100K ACV客户在FY24至FY25期间实现14%的年增长[193] - 81%的客户使用3种解决方案,贡献了75%的销售主导年经常性收入(ARR)[198] - Elastic的销售效率比率在Q126 L4Q期间实现同比增长[191] - Elastic的总GitHub星标数达到12万,显示出其开源平台的受欢迎程度[11] - Elastic在端点安全方面实现了100%的保护评分[153] - 在AVComparatives的业务安全测试中,Elastic Security在真实世界保护测试和恶意软件保护测试中均获得完美的100%评分[155] - Elastic Security在端点预防和响应测试中,低误报率和零工作流延迟,超越了CrowdStrike、Palo Alto Networks和Fortinet[158] - 20%在SIEM之外使用其产品进行XDR等用例的客户[1]
扒完全网最强 AI 团队的 Context Engineering 攻略,我们总结出了这 5 大方法
Founder Park· 2025-09-28 20:58
AI Agent开发痛点与Context Engineering需求 - AI Agent开发面临海量工具调用和长程推理(long horizon reasoning)产生的长上下文(long context)问题,严重制约Agent性能和成本,甚至导致模型能力下降[4] - 典型任务通常需要约50次工具调用,生产级Agent运行时可能需要多达数百次工具调用[11] - 单次运行可能消耗50万个token,成本达到1-2美元[11] Context Engineering核心概念 - Context Engineering定义为"在大语言模型的上下文窗口中放入正好适合它执行下一步所需的信息"[8] - 本质上是AI Engineering的子集,包含内循环(即时筛选所需context)和外循环(长期优化context window)[10][13] - 随着context长度增加,模型注意力会分散,推理能力下降,这种现象称为context衰减(context decay)[15] 五大Context Engineering策略 Offload(转移) - 将完整工具调用context转移到文件系统等外部存储,仅返回摘要或URL标识[21][26] - 使用文件系统记录笔记、跟踪进度、存储长期记忆[23] - 必须生成有效摘要描述文件信息,prompt engineering在其中起重要作用[28] Reduce(压缩) - 通过摘要(summarization)和剪裁(pruning)减少context内容[21][35] - Claude Code在95% context window占满时自动触发reduce机制[35] - 存在信息丢失风险,Manus选择先offload确保原始数据不丢失再进行reduce[37] Retrieve(检索) - 从外部资源检索与当前任务相关信息加入context window[21][46] - 包括经典向量检索、文件工具检索和context填充等方法[47] - 测试表明基于文本文件和简单文件加载工具的检索方法效果最佳[48] Isolate(隔离) - 在multi-agent架构中拆分context,避免不同类型信息相互干扰[21][59] - 不同角色agent各自压缩管理不同内容,避免单一agent承担全部context负担[59] - Cognition认为sub-agent获得足够context极其困难,需要大量精力在context摘要与压缩上[61] Cache(缓存) - 缓存已计算结果,降低延迟和成本[21][67] - 使用Claude Sonnet时缓存输入token成本为0.30美元/百万token,未缓存为3美元/百万token,相差10倍[69] - 只能优化延迟和成本问题,无法解决long context根本问题[70] The Bitter Lesson启示与实践经验 - 计算能力每五年增长十倍,scaling趋势是推动AI进步的关键因素[71] - 随着模型能力提升,早期添加的结构化假设可能成为发展瓶颈[74][81] - AI-native产品应在模型能力足够时从零构建,而非受限于现有流程[82] - Claude Code设计保持简单通用,为用户提供广泛模型访问权限[81] 记忆系统与检索关系 - Agent记忆分为情景记忆、语义记忆、程序记忆和背景记忆四类[50] - 大规模记忆读取本质上就是检索操作,复杂记忆系统就是复杂RAG系统[54] - Claude Code采用极简模式,启动时自动加载用户GitHub仓库,效果出奇地好[53][54] 框架选择与架构设计 - 应区分agent抽象(高级封装)和底层编排框架(精细控制)[77][78] - 开发者需要警惕agent抽象,但不排斥透明可自由组合的底层编排框架[79] - 大型组织推动标准化框架是为了解决实际协作问题,而非框架本身[80]