Workflow
LangChain
icon
搜索文档
超越 Chatbot:Long-horizon Agent 如何重新定义 AI 产品形态|Jinqiu Select
锦秋集· 2026-02-05 19:40
AI Agent产品形态的范式转移 - Chatbot作为主流AI产品形态已显疲态,其“一问一答”的即时响应模式难以解决复杂问题,本质是产品形态而非模型能力的问题 [3][4] - 真正有价值的日常工作需要“长程执行者”,即能够自主进行多步骤决策、调整策略并花费时间完成任务的AI Agent [5] - 行业转折点出现在2025年年中,标志是Claude Code爆发式增长、Deep Research类产品涌现以及Manus等SuperAgent流行,AI从“聊天框里的打字机”转变为“能够独立作业的数字员工” [7] Long-horizon Agent(长程智能体)的核心与应用 - Long-horizon Agent定义为能在数分钟至数小时内自主运行的智能体,其核心是让大语言模型在循环中自主决定下一步行动 [16][17] - 该类型智能体具备三个核心特征:运行时间更长、拥有自主决策能力、产出“初稿”而非最终产品 [20] - 当前典型应用场景包括:Coding(如Claude Code、Cursor)、AI SRE(如Traversal的AI SRE Agent)、研究与报告生成(如Deep Research类产品)、高级客户支持 [20] AI Agent技术栈的演进:从Model到Harness - 技术栈分为三层:最底层是Model(模型),由OpenAI、Anthropic等厂商提供;中间层是Framework(框架),如LangChain,提供对工具、记忆等组件的抽象;最上层是Harness(运行时套件) [22][23] - Harness是“开箱即用”的Agent运行时环境,内置了构建Long-horizon Agent所需的最佳实践,如规划能力、上下文压缩、记忆管理、子任务协调和预设提示词模板 [11][23] - 行业竞争重心正从Framework转向Harness,因为当模型能力跨越关键阈值后,真正的竞争在于谁能提供更好的、内置最佳实践的运行时环境 [11][24] AI Agent发展的三个阶段 - 第一阶段为简单的Prompting和Chaining时代,模型仅有基础的文本输入输出能力 [28] - 第二阶段为Cognitive Architecture时代,模型开始具备工具调用和一定规划能力,开发者需构建复杂的“脚手架”来支撑 [30] - 第三阶段为Long-horizon Agent时代(2025年中至今),模型能力足够强大,行业焦点从构建“脚手架”转向提供“Harness”,以优化上下文工程 [31][32] 2026年关键技术方向与核心竞争力 - 模型能力已跨越关键阈值,推理、工具调用和长上下文处理能力使Long-horizon Agent从演示变为实用工具 [33] - Context Engineering(上下文工程)成为核心竞争力,其本质是构建动态系统,在正确时机以正确格式向模型提供正确的信息和工具 [29][34] - 在Agent开发中,Trace(运行完整记录)取代代码成为新的“真相来源”,这使得可观测性工具变得至关重要 [36][41] - Memory(记忆)能力可能成为产品的关键护城河,能够从运行记录中学习并自动更新指令的Agent将具备巨大优势 [42][43] - 文件系统访问能力是Long-horizon Agent的标配,对上下文管理有巨大帮助,且未来的通用Agent很可能都具备强大的编码能力 [44][46][47]
寻找桌面Agent红利下的卖铲人
华尔街见闻· 2026-01-31 17:17
文章核心观点 - 开源桌面智能体OpenClaw的爆火,标志着AI“替人打工”接近现实,并可能成为桌面智能体的“ChatGPT时刻”,引发了从软件、模型到硬件的全产业链连锁反应 [1][8] - 行业竞争格局正从“千模大战”转向“千端大战”,桌面智能体作为凌驾于App之上的“影子管家”,其发展将推动软件、模型、硬件及云服务等多个层面的变革与机遇 [8][20] - 在桌面智能体生态中,国产大模型厂商(如MiniMax、Kimi)和云服务商(如阿里云、腾讯云)已成为关键的“卖铲人”,率先受益;同时,系统厂商(如苹果、微软、华为)和硬件厂商(如华强北主机、边缘计算盒子)也正积极布局,一场软硬结合的桌面控制权争夺战即将打响 [4][7][10][18][20] 软件层:桌面智能体应用爆发与竞争 - OpenClaw是一款能深度访问用户电脑系统、文件和应用,并具有长期记忆上下文的桌面智能体,可自主完成比价、邮件处理、预订航班等复杂或日常任务,被形容为“24小时待命贾维斯” [1] - OpenClaw的爆火带动了桌面智能体赛道的热度,Coze Workflow、阶跃AI桌面伙伴等产品纷纷上线,行业进入“千端大战”阶段 [8] - 桌面智能体的运行模式是“自主循环”,为完成复杂任务会进行多次自我对话和代码尝试,导致单次任务消耗的Token量极大,远超传统聊天机器人 [5][6] - 第三方开源智能体预计将如雨后春笋般爆发,但面临系统厂商(如苹果、微软、华为)将智能体能力内化至操作系统底层的竞争,其在中国手机和PC市场的渗透空间可能因此被收窄 [8][10][11][13][15] 模型层:底层大模型成为核心“卖铲人” - 桌面智能体的基础能力由底层大模型决定,其高度依赖超长上下文和高性价比的推理两大核心能力 [6][8] - 在OpenClaw作者推荐下,擅长长文本与逻辑推理的国产模型MiniMax M2.1被成功带火,Kimi等模型也被提及为潜在选项 [7] - 国内外大模型公司(如OpenAI、DeepSeek、Kimi)均已将智能体作为发力方向,通过将智能体能力“内化”进模型参与竞争 [8] - 智能体的稳定运行还需LangChain等提示词编排工具,以及Pinecone等向量数据库作为支撑记忆的“外挂海马体” [7] 硬件与部署层:新的市场机会涌现 - OpenClaw设计为本地运行,其爆火使Mac Mini因系统便利性和ARM架构功耗优势而需求激增,被社区视为“理财产品” [4][17] - 出于隐私安全和隔离考虑,能一键部署的云服务器成为运行OpenClaw的“天选”方案,阿里云、腾讯云、京东云等国内云厂商火速上线了专属服务或应用模板 [4] - 硬件厂商迅速跟进,华强北已推出预装桌面智能体的AI小主机,通过局域网连接用户主力机,提供7x24小时服务 [18][19] - 边缘计算厂商推出“云电脑盒子”等瘦客户端方案,以每月几十元的低成本提供云端算力,为轻量级智能体用户提供了更具性价比的选择 [20] - 未来硬件层将出现一批专门为AI智能体设计的、更具性价比的国产“大内存Mini主机”或“云AI盒子” [20] 云服务与中间件:生态中的隐形支柱 - 云服务器因支持7*24小时运行、部署迅速且成本友好,成为运行OpenClaw类智能体的理想选择 [4][5] - 当智能体需要接入模型API时,会产生高昂的Token消耗成本,有开发者体验OpenClaw半小时就用光了原本预计使用十几天、上百万的Token [5] - 为确保拥有高权限的智能体安全运行,Docker容器和各类安全沙箱技术成为刚需,这些中间件是支撑智能体稳定运行的“隐形骨架” [7]
LangChain 创始人警告:2026 成为“Agent 工程”分水岭,传统软件公司的生存考验开始了
AI前线· 2026-01-31 13:33
文章核心观点 - 以LangChain创始人Harrison Chase的观点为核心,阐述了“长任务Agent”的兴起正在从根本上改变软件工程范式,其核心差异在于系统行为不再完全由确定性代码决定,而是由非确定性的模型黑箱与代码共同决定,这要求开发、测试和调试方法发生根本性转变 [2][30] - 预测长任务Agent的落地将在2025年末到2026年进一步加速,2026年可能成为“长任务Agent元年”,这将对现有软件公司的竞争格局产生类似从本地部署到云转型的深远影响 [2][3] - 当前最成熟的长任务Agent应用是编程Agent,其核心算法是“让LLM在循环中运行”,而未来的进步将依赖于更聪明的上下文工程(如压缩、记忆)以及模型与框架/harness的共同进化 [7][13][21][24] 长任务Agent的定义、现状与案例 - **定义与拐点**:长任务Agent不只是多回合聊天,而是能在更长时间里持续执行、反复试错、不断自我修正的“数字员工”[2] 其真正起飞的拐点大约在2025年6-7月,以Claude Code、Deep Research、Manus等产品的爆发为标志 [21] - **核心应用形态**:目前最成熟、使用最多的案例是编程Agent [9] 其他优秀案例包括AI SRE(如Traversal公司的产品)和研究型Agent [9] 最“杀手级”的应用形态是让Agent长时间运行并产出“初稿”,然后由人类进行审阅和修改,这在编程、AI SRE、报告生成、金融研究和客服领域均有体现 [9][10] - **为何现在可行**:这是模型能力提升与工程框架/harness成熟共同作用的结果 [13] 模型方面,推理模型带来了巨大提升 [13] 工程方面,逐渐摸索出了上下文压缩、规划、文件系统工具等关键原语 [12][13] Agent工程范式的转变:从框架到Harness - **框架与Harness的区别**:框架是围绕模型的一层抽象,强调灵活性和基础设施,便于切换模型和封装组件 [11] Harness则更“有主张”,内置了明确的设计立场和最佳实践,例如Deep Agents默认提供规划工具和上下文压缩功能 [11][12] - **Harness的现状**:目前在Harness工程上做得最好的大多是编程类公司(如Claude Code、Factory、AMP),其性能差异不仅来自模型,更来自对“模型如何在harness中工作”的理解 [15][17] Harness往往与模型家族绑定紧密,不同模型家族可能需要不同的设计 [17] - **Harness的设计关键**:包括对模型训练偏好的理解(如OpenAI模型熟悉Bash,Anthropic提供显式文件编辑工具)、高效的上下文压缩机制、以及主Agent与子Agent的高效通信策略 [18] 许多公开的harness prompt长达几百行 [19] 构建Agent与传统软件开发的根本差异 - **逻辑来源与确定性**:传统软件的所有逻辑都写在代码里,是确定性的;而Agent的行为逻辑很大一部分来自模型本身,是一个非确定性的黑箱,必须通过实际运行才能理解其行为 [30] - **开发与调试核心**:传统软件的“真相来源”在代码中,而Agent的真相来源是代码与执行轨迹的组合 [32] 因此,追踪/执行轨迹成为理解、调试和团队协作的核心工具,其重要性远超过在传统软件中的应用 [30][31][33] - **开发流程**:构建Agent是一个更偏迭代式的过程,因为在发布前无法完全确定Agent会如何行动,需要通过更多轮次的交互和反馈来调整系统prompt或指令,使其行为符合预期 [34][35] 人类的判断和反馈被深度整合到开发与评估循环中 [39][40] 现有软件公司的挑战与机遇 - **面临的挑战**:工程范式的变化将重新筛选参与者,并非所有公司都能成功转型,类似当年从本地部署转向云 [2][36] 年轻团队可能因没有传统软件开发方式的先入之见而更快适应新范式 [36] - **潜在优势**:现有公司手中握有的高价值数据与API依然是王牌资产,能够较容易地暴露给智能体使用并产生真实价值 [3][37][38] 关于“如何使用这些数据”的指令和流程知识是新的竞争点,垂直领域创业公司(如金融领域的Rogo)通过注入行业知识获得了优势 [38] - **可能的护城河**:记忆功能可能成为真正的护城河,特别是在为特定任务构建的工作流型Agent中,记忆能让系统通过反思历史交互来改进自身,从而形成持续优化的体验优势 [52] 但实现安全且用户可接受的自我改进是关键挑战 [52] Agent能力栈与未来演进方向 - **核心能力组件**:文件系统访问能力被认为是长任务Agent的必备项,无论是真实还是虚拟文件系统,对于上下文管理、状态存储和中间结果回查都至关重要 [25][56] 代码执行环境是另一个高度看好的标配能力,其成熟度优于直接操作浏览器 [56] - **上下文工程演进**:未来的进步将来自更聪明的上下文管理方式,例如让模型自己决定何时进行上下文压缩,以及发展跨长时间尺度的记忆系统 [24] 记忆本质上是长期的上下文工程 [24] - **交互界面演进**:与长任务Agent协作的UI需要同时支持异步管理和同步对话模式 [53] 异步模式用于管理长时间运行或并行的多个Agent,同步模式则用于即时反馈和纠正 [53][55] 能够查看和协作的“工作区”状态(如文件、目录)是界面设计的重要部分 [54]
LangChain 创始人警告:2026 成为“Agent 工程”分水岭,传统软件公司的生存考验开始了
程序员的那些事· 2026-01-31 11:16
文章核心观点 - 软件工程范式正在发生根本性转变,从由确定性代码定义系统行为,转向由非确定性的AI模型(Agent)驱动,这要求全新的开发、测试和调试方法 [1] - 长任务Agent(Long Horizon Agents)在2025年末至2026年将加速落地,其能力远超多回合聊天,更像能在长时间内持续执行、试错和自我修正的“数字员工” [1] - 构建Agent不仅是给软件开发“加一层AI”,而是工程范式本身的变革,这将对现有软件公司的竞争格局和护城河构成挑战 [2] 长任务Agent的现状与拐点 - 长任务Agent的核心是让大语言模型在一个循环中自主运行和决策,这一设想因模型能力增强和支撑框架(Harness)的成熟而开始真正奏效 [6] - 当前最成熟的长任务Agent应用是编程Agent,其能力正在向AI SRE(站点可靠性工程)、研究型Agent(如分析事故日志)、报告生成、金融研究和客服等领域扩散 [7] - 长任务Agent的拐点大约出现在2025年6-7月,以Claude Code、Deep Research、Manus等产品的爆发为标志,其底层使用同一核心算法:让LLM在循环中运行 [18] - 对于许多程序员而言,Claude Opus 4.5模型可能是一个心理上的分水岭,标志着模型能力刚好强到足以支撑长任务Agent形态,从Scaffolding(脚手架)迈向了Harness(运行框架) [18] Agent工程的核心组件:模型、框架与Harness - **模型**:即大语言模型,负责输入和输出token [9] - **框架**:是围绕模型的一层抽象,便于切换模型并封装工具、向量数据库、记忆等组件,强调灵活性和无偏好性,属于基础设施 [9] - **Harness**:比框架更有“主张”,内置了明确的设计立场和最佳实践,例如默认提供规划工具、上下文压缩和文件系统交互能力 [9] - 模型与Harness是“共同进化”的关系,两年前难以预见基于文件系统的Harness会成为最优解之一,因为当时模型未被充分训练过此类模式 [10] - 几乎所有做编程Agent的公司都在自研Harness,性能差异不仅来自模型,更来自对“模型如何在Harness中工作”的理解 [14] 构建Agent与传统软件开发的根本差异 - **逻辑来源不同**:传统软件的所有逻辑都写在代码里;而Agent如何工作的逻辑,很大一部分来自模型本身这个黑箱,具有非确定性 [27] - **理解与调试方式不同**:理解Agent行为不能仅靠读代码,必须通过追踪其在真实运行中的每一步执行轨迹,这使得Tracing(如LangSmith)成为核心工具 [27][28] - **“真相来源”不同**:传统软件的真相在代码中;Agent的真相是代码与执行轨迹的组合,轨迹成为可观察的事实载体 [29] - **测试方式不同**:传统软件可依赖程序化测试;评估Agent需要引入人类判断,在线测试比离线测试更重要,因为行为在真实输入下才会“涌现” [29][36] - **开发过程不同**:构建Agent是一个更偏迭代的过程,因为在发布前无法确切知道Agent会怎么做,需要更多轮次迭代来调整系统提示或指令 [31][32] Agent时代软件公司的机遇与挑战 - **现有公司的资产价值**:传统软件公司拥有的数据和API依然是高价值资产,能够被暴露给Agent使用并产生真实价值 [34][35] - **新增的竞争要素**:关于“如何使用这些数据”的指令变得至关重要,这部分知识过去由人类掌握,现在需要被系统化并固化到Agent中 [35] - **潜在的护城河**:记忆功能可能成为Agent应用的真正护城河,因为基于历史交互的学习能显著提升特定任务下的体验和性能 [49] - **人员与心态**:Agent工程的采纳可能呈现“年轻化倾向”,许多团队成员是更初级的开发者,没有传统软件开发方式的先入之见 [33] - **转型难度类比**:从本地部署软件转向云的转型过程中,成功公司不多,因为工程范式变化会重新筛选参与者,Agent时代的转型可能面临类似挑战 [33] Agent的关键技术与未来方向 - **上下文工程**:是长任务Agent突破的核心,涉及压缩、子Agent、技能、记忆等围绕上下文管理的技术 [18] - **文件系统访问**:现阶段长任务Agent几乎必须拥有文件系统(或虚拟文件系统)访问能力,这对上下文管理(如存储中间结果、实现压缩)至关重要 [22][53] - **代码执行能力**:给Agent配备安全的代码沙箱环境以执行脚本,比直接操作浏览器更成熟、通用,是能力栈的关键部分 [52][53] - **记忆与自我改进**:让Agent通过反思执行轨迹来更新自己的指令或代码,是一种重要的自我改进形式,但需确保安全和用户可接受 [45][49] - **用户界面演进**:需要同时支持异步管理(如管理多个长时间运行的任务)和同步对话(用于即时反馈和纠正)模式,并能查看Agent修改的“状态” [50][51]
红杉对话 LangChain 创始人:2026 年 AI 告别对话框,步入 Long-Horizon Agents 元年
海外独角兽· 2026-01-27 20:33
文章核心观点 - 2026年是AI从“Talkers”转向“Doers”的元年,其核心载体是具备自主规划、长时间运行和目标导向能力的“长程智能体”[2] - 长程智能体爆发的关键在于模型能力的提升与围绕模型构建的、有主见的“软件外壳”的共同进化,其杀手级应用是为复杂任务提供高质量初稿[3][4][5] - 在长程智能体的开发范式中,“追踪记录”取代代码成为新的“单一事实来源”,理想的交互模式是异步管理与同步协作的统一[3][25][35] Long-Horizon Agents的爆发 - 长程智能体已开始真正发挥作用,其核心是让大语言模型在循环中自主决策,如早期的AutoGPT[3][4] - 此类智能体的价值在于为需要长时间运行、产出初稿的场景提供支持,典型应用包括AI编码、AI站点可靠性工程师以及研究分析[5][6] - 智能体虽难以达到99.9%的可靠性,但能承担大量工作,并采用人机协作模式,例如在客服场景中,后台智能体可为人工生成总结报告[5][6] 从通用框架到Harness架构 - Agent的发展经历了三个阶段:早期的简单Prompt链、引入工具调用后的自定义认知架构,以及当前以“上下文工程”为核心的Harness时代[20][21] - Harness是一种开箱即用、有强预设的软件外壳,其核心价值在于管理上下文压缩、规划工具和文件系统交互等原语[8][9] - 模型能力的提升与Harness工程的进步共同促成了突破,例如在编码领域,经过Harness优化的智能体性能波动巨大,同一模型的表现可因Harness不同而有显著差异[10][14] - 在Terminal-Bench 2.0榜单中,由Factory公司构建的Droid智能体使用GPT-5.2模型取得了64.9%的准确率,展示了第三方Harness的潜力[15] Coding Agent是通用AI的终局形态吗 - 文件系统权限被认为是所有长程智能体的标配,它在上下文管理中极为有用,例如存储原始信息以供查阅[9][24] - 一个核心的行业思考是:所有智能体本质上是否都应该是编码智能体,因为“写代码”本身就是让计算机工作的通用手段[22][23] - 编码能力对于处理长尾复杂用例可能是无可替代的,但目前浏览器操作等能力尚未成熟[39] 构建Long Horizon Agent vs 构建软件 - 构建智能体与构建传统软件的根本区别在于,其核心逻辑部分存在于非确定性的模型黑盒中,而非全部写在代码里[25] - 因此,智能体的“单一事实来源”是代码加上“追踪记录”,开发者必须通过运行和观察Trace来理解其行为[25][26] - 智能体开发更具迭代性,发布前的行为未知,需要通过更多交互来使其达标,这使得内存和自我改进能力变得重要[27][34] - 对于现有软件公司,其积累的数据和API是构建智能体Harness的巨大优势,但关于如何处理数据的指令部分可能是全新的[28] 从人类判断到LLM-as-a-Judge - 评估智能体需要引入人类判断,而“LLM-as-a-Judge”是建立人类判断代理的关键,前提是必须与人类判断对齐[30][31] - 智能体具备反思自身追踪记录的能力,这种能力被用于评估、自动纠错和更新内存,本质上是同一回事[31] - 一种新兴模式是让编码智能体通过命令行工具获取Trace,自行诊断问题并修复代码,实现有人类在环的递归自我改进[32][33] 未来的交互与生产形态 - 在特定垂直工作流中,通过长时间磨合积累的记忆能形成极高的竞争壁垒[3][35] - 未来的理想交互形态是混合模式:用户默认异步管理后台运行的多个智能体,但在关键时刻可切换到同步聊天模式,并基于共享状态进行协作[35][37] - 纯异步模式目前难以跑通,因为模型仍需人类在环进行纠错,注定需要在异步和同步之间切换[37] - 代码沙箱将是未来的核心组件,文件系统访问和编码能力被认为是智能体的标配,而浏览器操作能力尚不成熟[38][39]
A CPU-CENTRIC PERSPECTIVE ON AGENTIC AI
2026-01-22 10:43
涉及的行业或公司 * 行业:人工智能(AI),特别是代理式人工智能(Agentic AI)和大型语言模型(LLM)领域 [1][2][3] * 公司/机构:研究涉及英特尔(Intel)、英伟达(NVIDIA)、佐治亚理工学院(Georgia Institute of Technology)等机构,并分析了如LangChain、Haystack、ChemCrow、SWE-Agent、Toolformer等开源框架和模型 [3][5][20][29] 核心观点和论据 * **研究核心**:从以CPU为中心的视角,系统性地分析代理式AI工作负载引入的系统瓶颈,并提出优化方案 [3][9] * **代理式AI定义与优势**:代理式AI框架在单体LLM之上增加了决策编排器和外部工具,使其能够规划、调用工具、记忆和自适应,从而在需要外部知识集成和迭代优化的任务上表现显著优于单体模型 [2][5][6] * 例如,ReAct在ALFWorld任务上的成功率比同等规模单体模型高27%,在WebShop上提升34% [5] * WebGPT显示,7B参数模型在知识密集型任务上可以匹配或超越70B单体模型的性能,在TruthfulQA上达到64.1%准确率,而GPT-3为59.3% [6] * **模型选择**:小型语言模型(SLM)因其快速迭代和隐私保护特性适合代理式AI,但在长程规划、科学任务和多工具编排上表现不佳,因此研究中针对不同任务复杂度混合使用LLM和SLM [7][8] * **系统级表征**:提出了三个正交的分类基础来表征代理式AI系统,直接影响系统级指标 [9][16] 1. **编排器**:分为LLM编排(如ReAct, AutoGPT)和主机(CPU)编排(如LangChain, Haystack) [16][17][18] 2. **代理路径**:分为静态路径(预定流程)和动态路径(运行时决定) [16][18][19] 3. **流程/重复性**:分为单步(如RAG)和多步(如WebArena) [16][19][20] * **CPU瓶颈的揭示**:通过分析五个代表性工作负载(Haystack RAG, Toolformer, ChemCrow, Langchain, SWE-Agent),发现CPU是代理式AI的关键瓶颈 [3][10] 1. **延迟**:CPU上的工具处理(如检索、API调用、代码执行)可占总延迟的90.6% [3][10][33] * Haystack RAG中,检索耗时6.0-8.0秒,占运行时的84.5-90.6% [33] * SWE-Agent中,Bash/Python执行占APPS、BigCodeBench、DS-1000基准测试总延迟的43.8%、64.7%和78.7% [33] 2. **吞吐量**:代理式吞吐量受限于CPU因素(核心数、一致性、同步、核心过载)或GPU因素(主存容量和带宽) [3][10][36][45] * GPU方面,KV缓存增长会导致内存带宽饱和,OPT-175B的KV缓存需要1.2TB内存,是模型权重的3.8倍 [39][40] * CPU方面,缓存一致性、同步热点、核心过载(如Langchain工作负载在批大小128时,摘要任务平均延迟从2.9秒增至6.3秒)会限制吞吐量 [41][43][44] 3. **能耗**:在大批量(128)时,CPU动态能耗可占总动态能耗的44% [3][10][47][49] * 在Langchain工作负载中,批大小从1增至128时,CPU能耗从22焦耳增至1807焦耳(增长86.7倍),GPU能耗从86焦耳增至2307焦耳(增长26.8倍) [47] 其他重要内容 * **优化方案**:基于分析结果,提出了两种关键的调度优化 [3][11][50] 1. **CPU和GPU感知的微批处理(CGAM)**:针对同构工作负载,通过设置批处理上限(Bcap)来优化延迟和能耗 [50][51][52] * 选择Bcap=64,在吞吐量增益比r(B)低于阈值λ=1.1时停止增加批大小 [53] * 相比多处理基准,CGAM可实现高达2.11倍的P50延迟加速,并减少约1.5倍的CPU动态能耗和一半的KV缓存使用 [54][65] 2. **混合代理工作负载调度(MAWS)**:针对异构工作负载(CPU密集型与LLM密集型混合),自适应地使用多处理(CPU密集型)和多线程(LLM密集型) [50][58][60] * 在128个混合任务中,MAWS的P99延迟比多处理基准好1.17倍 [66] * 结合CGAM(MAWS+CGAM)处理256个任务时,对CPU密集型任务、LLM密集型任务和所有任务的P50延迟分别比基准好2.1倍、1.2倍和1.4倍,整体P99延迟节省1.15倍 [67] * **实验设置**:使用最先进的系统进行性能分析,包括48核英特尔Emerald Rapids CPU(DDR5 DRAM)和英伟达B200 GPU(HBM3e) [31] * **工作负载选择依据**:选择的五个工作负载具有挑战性应用(事实、编码、科学任务)、多样化的计算模式以及学术和工业相关性 [21][22] * **工具处理的重要性**:研究强调了非GPU工具(如精确最近邻搜索ENNS、网页搜索、词法摘要)在代理式AI管道中的关键作用及其对性能的显著影响 [9][26][30] * 例如,在200GB文档语料库的RAG工作负载中,ENNS占端到端延迟的75%以上 [9] * 选择基于CPU的LexRank摘要器而非基于LLM的摘要器,原因包括减少幻觉、相当的领域准确性以及成本效益 [30] * **与现有研究的区别**:本研究区别于先前主要关注GPU内核和KV缓存调优的工作,首次全面地从延迟、吞吐量和能耗三个评估指标揭示了代理式AI的CPU瓶颈 [10][68]
NotebookLM 功能逆天了:我是如何用它来深度学习的
36氪· 2025-11-23 08:06
NotebookLM产品功能演进 - 产品从单纯的研究工具进化为个性化学习系统,增加了根据用户学习阶段定制化教学的能力 [7] - 新增Discover功能允许用户定制信源类型,包括Reddit、YouTube视频、官方PDF文档及顶级技术出版物等 [11][12][13][14][15] - 新增多格式生成功能,包括定制化报告、音频概览播客和视频概览,支持不同学习场景 [18][24][37] - 新增测试功能,包括闪卡和测验,用于验证知识掌握程度和应用能力 [45][46][57] 个性化学习系统构建方法 - 学习系统构建分为三个阶段:筛选信源、打基础和测试知识 [11][18][45] - 筛选信源阶段强调使用定制化选项获取多元化材料,避免单一信源偏见 [12][13][14][15] - 打基础阶段采用三种格式:定制化报告通过指令锚定新旧知识 [18][20]、音频概览通过播客形式在碎片时间强化学习 [24][29]、视频概览通过幻灯片形式建立结构化理解 [37][38] - 测试知识阶段通过闪卡和测验暴露理解差距,重点测试决策能力和概念应用而非单纯记忆 [45][50][58][60] AI学习工具市场竞争态势 - 用户面临从零代码自动化到真正AI智能体开发的技能鸿沟,现有教程对非开发者不友好 [4][5] - NotebookLM通过降低使用门槛满足非开发者需求,用户无需掌握向量数据库、嵌入等底层技术即可构建学习系统 [3][4][8] - 产品设计注重用户体验,开箱即用的特性降低了非技术用户的学习曲线 [10] - 与Perplexity等工具形成组合方案,通过深度研究功能快速收集高质量信源,提升学习效率 [17]
对话蚂蚁 AWorld 庄晨熠:Workflow 不是“伪智能体”,而是 Agent 的里程碑
AI科技大本营· 2025-10-28 14:41
文章核心观点 - AI行业当前陷入追求榜单分数的"应试狂热",真正的智能体技术必须超越考试逻辑,走向解决现实世界复杂问题的"实干" [2][7] - 智能体赛道存在泡沫,许多产品仅是传统工作流自动化的"套壳",但Workflow是智能体发展过程中的重要里程碑,而非终点 [3][10] - 群体智能被视为一条可能实现"弯道超车"的路径,其与基础大模型训练是螺旋上升的相辅相成关系,而非替代 [16][18][20] - 真正的智能体具备动态适应和问题解决能力,其核心标志是能够自主"绕路"应对意外情况,而非僵化执行预设流程 [23][24] - 开源是推动AI技术发展和建立行业生态的关键力量,代码背后的认知共享比代码本身更具价值 [32][33][35] 智能体技术与Workflow的关系 - 行业存在对智能体的质疑,认为其仅是Workflow自动化脚本的包装,即"智能体洗白",导致用户体验后迅速流失 [3] - 大模型的出现是分水岭,用基于概率的语义理解替代了过去难以维护的、僵化的手写规则图 [9] - Workflow被视为智能体发展前期的成熟技术阶段和必经的里程碑,但智能体终将超越Workflow [10] - 根本性转变在于从遵循固定标准作业程序的过程导向,演进为以最终结果好坏为评判标准的结果导向 [13] - 真智能体的标志是动态适应能力,例如在工具调用失败后能自主寻找替代方案(如自己写代码),而非像Workflow那样流程中断 [23][24] 群体智能与模型发展的战略路径 - 面对大模型军备竞赛的资源消耗,群体智能提供了一种"弯道超车"的非对称战略思路 [16] - 群体智能的核心是构建协同框架,使多个相对较小的智能体像专家团队一样合作,完成复杂任务 [17] - 群体智能与基础大模型训练是相辅相成、螺旋上升的关系:群体智能系统作为"数据工厂"产生的高质量数据可反哺基础模型,增强其推理能力;更强的基础模型又能提升群体智能中单个智能体的能力 [18][19][20] - 通用智能体与基础模型的边界相对模糊,智能体团队的核心价值在于完成技术到商业价值的"最后一公里",包括必要的模型后训练(post-train)和工程落地 [21][22] 智能体与真实世界的交互演进 - 智能体影响真实世界的三种介质包括:通过自然语言与人交互、通过API交互、以及通过GUI(图形用户界面)交互 [25] - API方式当前最主流但脆弱,依赖提供方且难以泛化;GUI方式模拟人类自然操作,泛化性和扩展性潜力最高,但实现难度也最大 [25][26][27] - 行业需要建立智能体间的通信与协作标准协议(如MCP、A2A),其最终形态可能由大公司推动或因其好用而形成稳定生态 [28] 开源策略与行业生态建设 - 开源是应对AI技术快速迭代、保持领先的关键方法论,其力量体现在集体智慧能加速AI发展,迅速缩小与闭源模型的差距 [32][33] - 开源项目超越代码本身,其核心价值在于共享背后的技术认知和设计哲学,接受检验并激发共创,是极佳的技术"名片" [35][37] - 智能体技术的硬性标准是"自己做出来的智能体自己能用",强调实际应用价值而非空谈 [38] 智能体技术的未来方向 - 未来智能体的关键挑战是完成"长程任务",即像独立个体一样7x24小时运行,处理持续数小时甚至更久的复杂任务,这将引出超长上下文管理、记忆等核心技术难题 [39] - 公司对智能体的未来规划聚焦于两点:一是让智能体在多种环境(如GAIA、IMO)中学习并沉淀经验至模型;二是将智能体作为开放的技术产品,让社区优先享受到技术红利 [40]
LangChain 彻底重写:从开源副业到独角兽,一次“核心迁移”干到 12.5 亿估值
AI前线· 2025-10-25 13:32
LangChain 1.0 版本重写概述 - LangChain 宣布完成1.25亿美元融资,投后估值达12.5亿美元,成为独角兽公司 [3] - 经过3年迭代,LangChain 1.0正式发布,这是一次从零开始的重写,旨在使框架更精简、灵活和强大 [3][4] - 重写后的框架围绕循环内的工具调用Agent架构构建,模型无关性是其核心优势之一 [4] 公司发展历程 - LangChain 于2022年10月由机器学习工程师Harrison Chase作为副业发起,最初是一个约800行代码的单文件Python包 [5] - 项目灵感来源于Stable Diffusion发布后、ChatGPT问世前的时期,旨在解决工具碎片化和抽象不足的问题 [6] - 2023年4月公司正式成立,先后完成由Benchmark领投的1000万美元种子轮和由红杉领投的2500万美元A轮融资,A轮后估值达2亿美元 [7] - 目前是增长最快的开源项目之一,每月下载量高达8000万次,拥有118k GitHub star和19.4k个分支 [3] 产品架构与核心功能 - LangChain核心是一个"情境感知的推理型应用框架",包含组件与模块层以及端到端的链与应用层 [9] - 框架整合了超过700个不同的集成,涵盖10大类组件,每类有30到100个集成,支持Python和TypeScript两种版本 [10] - 坚持"模型与基础设施中立"路线,支持主流大模型和80种向量数据库,定位为连接不同技术触点的"粘合剂" [10] - 提供高层级接口,使开发者仅用5行代码就能开始使用RAG、SQL问答、提取等功能 [6] 重写背景与挑战 - 在高速集成阶段,项目积累了约2500个未解决问题和300-400个待处理PR,团队在2023年夏天收到大量负面反馈 [11] - 用户反馈的主要痛点包括易用性牺牲了定制化能力,高层级接口成为开发者推向生产环境时的阻碍 [11] - 为解决定制化需求,团队于2023年夏天开始开发LangGraph,并在2024年初正式推出,允许开发者以更底层的方式编排智能体逻辑 [12] LangChain 1.0 关键技术升级 - 以LangGraph为底座进行彻底架构重构,原生支持持久化、检查点恢复、人类在环与有状态交互等生产级需求 [18][27] - 引入统一的`create_agent`抽象,平衡强可控性与低门槛,让开发者用少量代码即可搭建经典的"模型-工具调用"循环 [19] - 新增中间件概念,允许在核心智能体循环的任意位置插入额外逻辑,支持动态提示词、动态工具和动态模型选择 [23][25][26] - 引入更规范的content blocks以统一不同模型的输入/输出结构,并精简代理选项以降低选择与调参成本 [27][30] 产品线与发展重点 - 公司目前有三条主要产品线:LangChain开源框架、LangGraph和闭源工具LangSmith [13] - LangChain开源框架的核心工作是生态系统的规模化管理,需要与大量合作伙伴协作 [13] - LangGraph当前聚焦于可扩展性、智能体集成开发环境与调试能力的提升 [13] - LangSmith作为公司主要收入来源,专注于LLM运维领域的可观察性和监控功能,团队正致力于推进其可扩展性 [12][13]
速递|开源Agent框架开发商LangChain完成1.25亿美元融资,估值突破12.5亿美元
Z Potentials· 2025-10-24 16:18
融资与估值 - 公司本周一宣布完成1.25亿美元融资,估值达到12.5亿美元 [2] - 公司在2023年4月以Benchmark领投的1000万美元种子轮融资正式成立 [4] - 一周后,红杉资本主导的2500万美元A轮融资将公司估值推至2亿美元 [5] 投资方与背景 - 本轮融资由IVP领投,新晋投资方CapitalG和Sapphire Ventures加入,现有投资机构红杉资本、Benchmark和Amplify继续跟投 [3] - 公司始于2022年,由机器学习工程师Harrison Chase创建的开源项目 [3] 产品与技术发展 - 公司解决了利用早期大语言模型构建应用的多重难题,包括网页搜索、API调用和数据库交互 [3] - 公司已发展成构建智能体的平台,并推出了核心产品的全面升级,包括Agent构建工具LangChain、编排与上下文/记忆工具LangGraph,以及测试与可观测性工具LangSmith [5] 市场地位与社区影响 - 公司在开源开发者中保持超高人气,在GitHub上拥有11.8万星标和1.94万复刻分支 [6] - 公司被描述为AI时代的早期明星项目 [3]