上下文工程
搜索文档
一篇论文,读懂上下文工程的前世今生
36氪· 2025-11-07 15:11
上下文工程的定义与本质 - 上下文工程被定义为设计和优化上下文的收集、管理、使用,以提升机器理解和任务表现的努力 [4] - 其本质是通过建立更丰富有效的上下文,弥合人类高熵表达与机器低熵理解之间的认知鸿沟,达成系统性的熵减过程 [3] - 该学科并非全新概念,在AI技术出现前已发展超过20年,目前处于上下文工程2.0时代 [5] 上下文工程的发展阶段 - **1.0时代 (1990年代-2020年)**:核心是翻译,通过图形界面和编程语言将人类自然语言意图工程化为机器可理解的交互流程 [7] - **2.0时代 (2020年至今)**:随着GPT-3发布,用户可直接用自然语言对话,但熵减需求转移至用户身上,催生了提示词工程 [11][13] - 2.0时代典型系统包括ChatGPT、LangChain、AutoGPT,核心机制为提示工程、RAG、CoT、记忆代理,上下文容忍度和类人程度相对更高 [12] AI与人沟通的理解差距根源 - AI感官残缺,仅能获得用户明确输入,无法像人类一样接收文字外的大量环境信息 [14] - AI理解能力有限,难以处理和整合复杂逻辑及图像中的关系信息 [14] - AI存在记忆缺失,Transformer架构有长上下文性能瓶颈,缺乏长期记忆系统,难以捕捉长距离依赖关系 [14] - AI注意力涣散,面对海量信息时存在“上下文选择困难”,不知该关注何处 [14][15] 上下文工程的核心构件 - **构件一:上下文收集与记忆系统**:通过多模态融合和分布式收集修复感官残缺,通过分层内存架构解决记忆缺失 [16][18][21] - **构件二:上下文管理**:通过上下文抽象实现“自我烘焙”,将高熵上下文预处理为AI能理解的低熵结构,方法包括自然语言摘要、模式化提取、在线蒸馏 [23][24] - **构件三:上下文使用**:构建高效上下文选择机制,通过理解逻辑依赖、平衡新近度与频率、主动需求推断来解决注意力涣散问题 [25][26] 上下文工程的未来演进 - **3.0时代**:机器智能达到人类水平,能处理情绪等复杂上下文,主动理解场景并与人类协作,但长期记忆问题仍未完全解决 [30] - **4.0时代**:机器智能达到“超人智能”,人机交流的熵被彻底消除,上下文工程本身将消失或融入核心架构 [30][31] - 当前的技术如工具使用能力正从外挂演变为标准协议并融入模型核心,遵循脚手架最终融入基础架构的普遍技术发展模式 [32][33][34]
「上下文工程」 已经30岁了,而你可能刚知道它
量子位· 2025-11-02 12:23
文章核心观点 - 上下文工程是一个持续30年的进化过程,其本质是通过熵减少来弥合人机之间的认知鸿沟,将高熵的人类意图预处理为机器可理解的低熵表示[3][11][21] - 上下文工程的发展经历了从传感器时代到智能助手时代的演变,认知鸿沟从约90%缩小至约30%,并正向1%迈进[22][40][43] - 在大模型时代,上下文工程演变为2.0阶段,其系统化框架包含上下文收集、管理和使用三个正交维度[61][62][81] - 未来上下文工程将向认知密集型发展,AI可能超越人类并主动构建上下文,上下文的总和将构成新的数字身份[93][96][98] 上下文工程的本质与定义 - 上下文工程被定义为一种熵减少过程,旨在弥合人类与机器之间的认知鸿沟,而非简单的翻译[21][23] - 其核心功能是将高熵的人类意图和环境状态预处理为机器可理解的低熵表示,类似于“预消化”[21][23] - 认知鸿沟被量化为人类与机器上下文处理能力的差值,并分为四个等级,目前处于Era 2.0阶段,鸿沟约为30%[20][21][22] 上下文工程的历史演化 - 上下文工程的概念可追溯至1994年Bill Schilit提出的“上下文感知计算”,至今已有30年历史[8][11][12] - Era 1.0(1990s-2020)为传感器时代,机器是状态机,仅能执行预设的if-then规则,认知鸿沟约90%[27][31][36] - Era 2.0(2020至今)为智能助手时代,以GPT-3发布为标志,机器进化为“理解者”,认知鸿沟缩小至约30%[40][41][43] - 每一次技术突破引发的认知鸿沟缩小都会触发交互革命、上下文容量扩张和工程范式转移三重连锁反应[24][25][26] 上下文工程2.0的系统化框架 - 上下文工程2.0框架由收集、管理和使用三个正交维度构成,可在每个维度上独立优化[61][62][81] - 上下文收集维度关注如何从多设备、多模态源头获取有价值的信息,并从指令收集演进至意图和状态收集[62][64][68] - 上下文管理维度核心是存储和组织信息,策略包括分层记忆架构、子代理隔离上下文和轻量引用等[70][72][73] - 上下文使用维度经历了从Era 1.0的被动响应到Era 2.0的主动理解,并展望Era 3.0的流畅协作[83][86][87] 上下文工程的技术演进与突破 - Era 2.0实现了感知升级,从单一传感器到多模态融合,机器能看懂图片、听懂语音、读懂文档[45][46][47] - 关键突破在于“高熵上下文消费能力”提升,机器能从处理结构化数据进化到处理原始模糊信息[48][49][50] - 工作模式从“被动响应”转变为“主动协作”,机器能理解用户目标并协助达成,进入上下文协作阶段[51][86][91] - 当前面临上下文窗口限制(如GPT-3为4096个token),促使了Prompt Engineering等精选上下文艺术的发展[54][56][59] 上下文工程的未来展望 - 未来Era 3.0将实现无感采集和流畅协作,Era 4.0可能在某些任务上AI能力超越普通人类[68][87][93] - 发展形态将从硬件密集型、数据密集型向语言密集型和认知密集型演变[100] - 上下文将构成新的人类数字身份,个体的上下文总和将成为“数字化的你”,并可能在其后继续存在[94][96][104] - 下一次交互革命正在酝酿,设计出最佳“上下文容器”将定义新时代的交互范式[102][103]
为什么95%的智能体都部署失败了?这个圆桌讨论出了一些常见陷阱
机器之心· 2025-10-28 17:37
AI智能体部署失败的核心原因 - 95%的AI智能体在生产环境部署失败,主要问题并非模型能力不足,而是基础框架、上下文工程、安全性和记忆设计等支撑技术尚未成熟 [1] - 真正的差距在于上下文工程,多数创始人实际构建的是上下文选择系统而非AI产品 [3] - 成功部署的5%智能体共性在于采用人机协作设计,让AI扮演助手而非自主决策者,以解决信任问题 [3] 上下文工程的最佳实践 - 微调往往非必要,构建良好的RAG系统已足够高效,但绝大多数现有RAG系统过于粗糙 [7][8] - 高级上下文工程应被视为面向LLM的原生特征工程,使其成为可测试、可版本化、可审计的数据工件 [12][13] - 采用语义层加元数据层的双层架构,在混乱数据源间建立秩序,确保检索结果的相关性而不仅是相似性 [14][15] - text-to-SQL部署困难源于自然语言模糊性及企业术语的上下文依赖,成功方案需工程化的抽象与保护措施 [16][17] 信任与治理框架 - 安全、权限和数据溯源是AI系统落地的关键阻力,而非简单的合规清单项目 [18][19] - AI答案需根据员工权限和上下文进行差异化处理,避免组织性错误 [20] - 领先团队在统一目录中嵌入访问策略,并在索引和查询阶段同时生效 [21] - 信任问题是人性瓶颈,成功系统设计需包含人机协同环节,使AI可监督、可纠正、可解释 [21] 记忆系统设计 - 记忆是涉及用户体验、隐私和系统影响的设计决策,而非单一功能 [22][23] - 记忆分为用户层面(偏好)、团队层面(查询、仪表盘)和组织层面(知识、政策)三个层级 [27] - 记忆即个性化,可改善用户体验,但需平衡个性化与隐私保护,避免越界成为监控 [29][30] - 目前缺乏安全、可移植的记忆层原语,这是亟待解决的关键问题 [31] 多模型推理与编排 - 生产环境需基于任务复杂度、延迟限制、成本敏感度等因素运行模型路由逻辑 [34] - 模型编排更接近编译器设计,是在异构模型、工具和验证间运行决策DAG [34] - 采用自适应路由策略,将简单问题交给小型快速模型,复杂任务路由到前沿模型,并通过反馈循环持续优化 [34] 自然语言交互的适用场景 - 并非所有任务都需要聊天机器人,自然语言交互在降低复杂工具学习门槛时最具价值 [39][40] - 混合交互模式的核心逻辑是以聊天开启零学习门槛操作,再提供GUI控件进行精准调整 [41] - 自然语言处理理想应用场景包括偶发带情绪的任务(如客户服务)和探索性开放式查询 [50] 亟待解决的技术缺口 - 上下文可观测性缺失,团队缺乏系统方法衡量不同上下文对模型性能的影响 [43] - 可组合记忆需实现用户归属、可移植性与安全性,并设置权限层级区分不同层面的记忆 [44] - 应开发领域感知型DSL替代不稳定的text-to-SQL,直接映射到经过验证的业务逻辑流程 [45] - 需设计延迟感知型UX,区分即时响应任务和可接受延迟的深度分析任务 [46][47] 未来基础设施发展方向 - 即将出现记忆组件、编排层、上下文可观测性工具等基础设施工具浪潮 [49] - 生成式AI的下一个竞争壁垒将来自上下文质量、记忆系统设计、编排可靠性和信任导向型UX [52] - 创业者需重点关注上下文预算、记忆系统边界、输出溯源、多模型路由和用户数据信任度这五个硬核问题 [53]
微调已死!「共识机制」实现提示词自我进化,性能飙升
量子位· 2025-10-28 09:18
AI范式转变 - 人工智能领域正经历从“模型微调”向“上下文工程”的范式转变 [1] - “上下文工程”通过引入明确指令和丰富知识,无需高昂训练成本或开源模型参数,提供更强可解释性 [1] - “微调已死”成为AI领域近期广泛认可的热门话题 [2] 单一提示词的局限性 - 单一提示词表达能力有限,难以全面严谨地表述复杂任务的所有需求 [4] - 多提示词相互协作是自然解决方案,单个提示词无法处理的输入可由其他提示词弥补性能损失 [4] C-Evolve算法核心思想 - 基于“共识机制”的提示词组进化算法C-Evolve通过进化算法生成一组提示词 [6] - 该组提示词对输入信息独立处理后,通过提取所有输出结果的共识以实现最优任务性能 [6] - 算法创新性提出“共识表决得分”评估单个提示词在成组工作时的性能潜力,并采用海岛算法提升组内多样性 [6] 共识机制技术细节 - 共识机制由一组独立、同功能的提示词共同完成 [11] - 对于封闭回答类问题采用多数表决输出高频一致答案,对于开放式提问则用LLM表决筛选最具代表性的输出 [13] - 优化目标是寻找在共识机制下最优的一组提示词 [13] 基于海岛的进化算法 - 算法采用基于海岛的进化算法,在相互独立的海岛内并行迭代种群 [14] - 进化过程包含基于个体独立性能的预热阶段和基于跨海岛分组协作表现的共识进化阶段 [14] - 预热阶段将个体独立得分作为进化算法的适应度评分 [16] 共识表决阶段 - 共识表决阶段以个体组成提示组之后的性能作为进化的适应度 [23] - 算法构建提示组,从各岛屿中分别采样一个个体,并基于共识机制测试这些组的评估性能 [23] - 采用指数平滑后的共识表决得分作为适应度评分,赋予最新采样出的组更高权重以抑制早期历史结果影响 [26][28] 算法性能表现 - C-Evolve同时适用于Qwen3-8B开源模型和GPT-4.1-mini闭源模型 [29] - 在Qwen3-8B模型上,C-Evolve在IFBench任务得分为70.67,相比Baseline的50.03提升显著;在GPT-4.1-mini模型上,C-Evolve得分为70.64,相比Baseline的44.24提升显著 [30] - 算法在Hover、MATH、HotpotQA等多个任务上均取得性能提升,例如在Qwen3-8B的MATH任务上从37.66提升至50.33 [30] 算法优势与意义 - C-Evolve通过多提示词共识机制突破单一系统提示词的性能局限,显著提升系统整体性能 [7][32] - 该方法无需参数微调即可实现算法效能的显著提升,为挖掘成熟商业LLM的模型能力提供了新思路 [34] - “共识机制”模拟生物进化与群体协作,提升了提示词性能并增强了模型在复杂任务中的适应能力 [34]
长上下文窗口、Agent崛起,RAG已死?
机器之心· 2025-10-19 17:17
RAG技术演进与行业观点 - 行业出现“RAG已死”的论调,Chroma公司CEO Jeff Huber主张以“上下文工程”框架取代对RAG术语的狭义依赖 [1][2] - RAG自2022年以来成为解决LLM输入长度限制(如GPT-3.5的4K tokens)的行业标准解决方案,其核心逻辑类似于搜索引擎 [3][4] - 长上下文窗口的崛起和Agent能力的进化正在动摇RAG的核心地位,引发其是否过时的讨论 [5][6] RAG的进化:智能体检索 - LlamaIndex提出RAG正在演进为“智能体检索”,AI智能体成为更强大的RAG架构核心,超越了早期“朴素的区块检索”阶段 [7][8] - 技术演进分为四个阶段:从基础的Top-k检索,到引入轻量级agent的自动路由模式,再扩展到多个知识库的复合检索API,最终构建完全由agent驱动的双层智能系统 [9][10][11][13][15][17][18][19] - 高级检索服务通过分层、智能的能力,成为高级AI智能体不可或缺的“知识骨干”,简单的RAG已经过时 [21] RAG作为工程学科的深化 - 行业专家认为RAG正进化为构建可靠、高效AI应用的核心工程学科,其本质(为LLM提供外部知识)是永恒需求 [22][23][24] - 需要升级评估范式,传统搜索引擎基准(如BEIR)与RAG目标不符,新基准FreshStack更注重覆盖率、多样性和相关性等真实性能指标 [26][27][28][29][33] - 新一代检索模型具备推理能力(如Promptriever)和采用无损压缩技术(如延迟交互模型ColBERT),小模型(150M参数)在特定任务上可超越大模型(7B参数) [34][35][39] 对RAG架构的批判与替代方案 - 批评者指出RAG架构存在“原罪”:切分导致上下文割裂、向量搜索在专业领域失灵、系统复杂性和延迟问题突出 [37][38][41][48] - 智能体(Agent)和长上下文窗口(如Claude Sonnet 4达200K、Gemini 2.5达1M、Grok 4-fast达2M tokens)被视为更优替代方案,采用“调查”而非“检索”范式 [42][43][44][45][49] - 在新范式下,RAG被“降级”为Agent工具箱中的一个组件,与代码解释器、API调用等工具并列,场景需求决定架构选择 [47][50][51][52][54] 行业共识与未来展望 - 行业共识是初级的、朴素的RAG(Naive RAG)已无法满足复杂需求,但其核心思想——为LLM提供外部知识——是永恒的 [50][51] - 未来技术图景是多元化融合:Agent驱动的工程化RAG适用于海量数据初筛,而“长上下文窗口 + Agent调查”范式在深度分析场景具优势 [52][54] - 开发者需理解不同技术范式优劣,根据具体应用场景灵活组合,构建最高效可靠的解决方案 [52]
腾讯研究院AI速递 20251017
腾讯研究院· 2025-10-17 07:06
谷歌视频生成模型Veo 3.1 - 谷歌发布视频生成模型Veo 3.1,具备更强叙事与音频控制、首尾帧与多图参考等精控功能,并接入Gemini API与Vertex AI [1] - 模型支持720p或1080p分辨率24fps视频,原生时长4-8秒,使用Extend功能最长可扩展至148秒,可合成多人物场景并实现音画同步 [1] - 用户已在Flow中生成超过2.75亿个视频,但成片质感较Veo 3进步有限,基础物理表现有所改善但人物表演与复杂调度仍存在问题 [1] Anthropic轻量模型Claude Haiku 4.5 - Anthropic发布轻量级模型Claude Haiku 4.5,编码性能可与Claude Sonnet 4相媲美,成本仅为其三分之一(每百万输入token 1美元,输出5美元),推理速度提升一倍多 [2] - 在计算机使用基准OSWorld上得分50.7%超越Sonnet 4的42.2%,数学推理测试中借助Python工具成绩高达96.3%远超Sonnet 4的70.5% [2] - 模型主打实时低延迟任务场景如聊天助手、客服、协同编程,通过严格安全性评估,偏差行为发生率显著低于其他Claude模型 [2] 阿里通义千问记忆功能 - 阿里通义千问正式上线Qwen Chat Memory功能,使AI能够记录并理解用户在过去对话中的重要信息,包括个人偏好、兴趣方向或特定任务背景 [3] - 该功能可跨越多轮甚至多天对话保留个性化认知,是AI助手向长期陪伴型智能体迈出的关键一步 [3] - 所有记忆内容可由用户查看、管理和删除,用户拥有完整控制权,首先在网页版Qwen Chat上线,未来推广至更多终端 [3] 字节跳动语音模型升级 - 火山引擎升级豆包语音合成模型2.0和声音复刻模型2.0,通过Query-Response能力实现情境理解与语气把控,可通过细节描述精准生成对应情感 [4] - 语音合成2.0提供默认模式、语音指令和引入上文三种模式,可控制整段情绪基调、方言类型、语速音调等,模型能自动理解上下文情绪连贯生成 [4] - 声音复刻2.0可精准复现动漫人物和真人音色语速情绪,对公式朗读测试准确率接近90%,在教育场景专项优化 [4] 谷歌与耶鲁大学AI抗癌研究 - 谷歌与耶鲁大学联合发布270亿参数大模型Cell2Sentence-Scale(C2S-Scale),基于Gemma模型构建,提出并验证让肿瘤对免疫系统更易被识别的全新抗癌假设 [5][6] - 模型通过双环境虚拟筛选流程对4000多种药物进行模拟,发现激酶CK2抑制剂silmitasertib仅在免疫信号活跃环境中显著增强抗原呈递,该预测已在体外实验中多次验证 [6] - 研究展示AI模型生成原创科学假设的潜力,有望打开人类抗癌新途径,模型及代码已在Hugging Face和GitHub全面开放 [6] AI模型训练与工程挑战 - Anthropic预训练团队负责人强调预训练核心是推动损失函数下降,如何平衡预训练和后训练、各自作用叠加还是互补仍在早期探索阶段 [7] - 当前AI研究最大瓶颈是计算资源受限而非算法突破,真正的挑战在于如何有效利用算力并解决规模扩展中的工程难题 [7] - 对齐问题核心是让模型分享人类目标,预训练与后训练各有优势,后训练迭代快适合调整模型,某些对齐可融入预训练增强鲁棒性和智能性 [7] 上下文工程技术 - LangChain创始工程师与Manus联合创始人探讨上下文工程,强调AI Agents执行复杂长期任务时上下文窗口会因大量工具调用急剧膨胀导致性能下降 [8] - 有效的上下文工程通过卸载、精简、检索、隔离和缓存等技术,将恰到好处的信息填入上下文窗口,Manus设计了基于多层阈值的自动化流程协同使用压缩和总结 [8] - 核心设计哲学是避免上下文过度工程化,最大性能飞跃来自简化架构和信任模型,优先选择上下文工程而非过早模型专业化 [8] AI在开发领域的应用现状 - Google Cloud DORA 2025报告显示90%开发者已在日常工作中使用AI,每天中位数使用时长2小时约占工作日四分之一,但只有24%表示高度信任AI输出 [9] - AI不是单向效率药丸而是放大镜,在文化健康协作顺畅团队中作为加速器提升效率,但在环境存在问题的团队会放大裂缝导致交付更加不稳定 [9] - 报告首次提出七种典型团队人设和DORA AI能力模型,包括用户导向、版本控制、数据可用性等七项关键能力 [9] NVIDIA发展历程与AI战略 - 黄仁勋回顾1993年红杉100万美元投资NVIDIA,三十年后成长为超过1万亿美元市值实现100万倍回报,强调从第一性原理推演未来是突破关键 [10] - CUDA的诞生让GPU从图形设备变成通用加速平台,2012年AlexNet在ImageNet竞赛获胜成为转折点,NVIDIA为神经网络开发CUDNN库使模型训练速度成倍提升 [11] - AI工厂核心是系统整合而非芯片性能,从建筑供电到软件栈提供完整算力生产线,主权AI成为新一轮国家竞争核心 [11]
从技术狂欢到企业落地,智能编程的全球破局战
AI前线· 2025-10-13 21:54
行业现状与趋势 - 智能编程是AI应用领域增长最为迅猛的赛道之一 [2] - 全球已有60%的开发者在使用AI构建工具,行业渗透速度远超预期 [3][10] - 智能编程正从单一的代码补全功能阶段,加速迈向AI自主开发时代,重塑软件开发的底层逻辑 [3][5] - 智能编程的未来将成为数字世界与物理世界的连接器,随着物理世界智能化程度提升,设备控制、场景联动等需求将依赖大量代码生成,形成正向循环 [10] 技术能力与突破 - 在中简单任务(如基础代码补全、简单接口开发)中,国内模型的表现已与海外模型相近,阿里开源的通义千问AI编程大模型Qwen3-Coder编程能力登顶全球开源模型阵营,并超越GPT-4.1等闭源模型,比肩全球最强的编程模型Claude 4 [3][16] - 技术发展围绕解决真实软件构建痛点展开,通过三大核心能力突破实现开发流程系统性重构:面向真实软件构建的场景深耕、Spec驱动下的生产力质变、持续增强上下文工程 [5][6][7][9] - 阿里云的大语言模型已支持7小时不间断独立工作,使生产力提升10倍,开发者可同时委派8-10个任务 [7][8] - 上下文工程被定义为当前驾驭大语言模型的最重要能力,阿里云通过向量化检索+文件解锁的混合策略实现全球领先,能快速关联历史代码与业务规则 [9] 产品布局与市场策略 - 阿里云针对国内外市场需求差异,通过通义灵码、Qoder等产品进行破局 [3] - 通义灵码聚焦国内市场,强调合规适配与企业级服务,已服务超百万月活开发者,并服务了90%的上市商业银行和超过70%的中国车企 [19][21] - Qoder面向全球市场,定位为创新验证平台,上架5天就有超10万开发者使用 [20] - 公司通过全球创新→本土适配→生态落地的迭代闭环,以及工具+平台+服务的生态协同策略应对竞争 [17][18][19][20] 企业落地实践与成效 - 企业级落地面临复杂场景适配难、安全合规风险高、知识传承与资产复用不足等挑战 [10][11][14] - 中华财险代码生成占比达到41.26%,生成了257万行代码,代码生成占比从最初的28%提升至46%,平均每百名开发者可提升约6人的生产力 [12] - 海信集团开发人员中日均活跃用户占比78%,代码生成占比约48%,代码采纳率超过30%,整体提效成果远超预期 [13] - 企业在推广智能编程时采用分场景制定目标的方式,在新系统开发中提效幅度可达50%以上,但在维护老系统时提效幅度为10%~20% [11] 行业竞争与发展路径 - 国内工具厂商正通过模型追赶+数据优势+生态协同的路径实现突围 [17] - 国内中小模型在代码补全、语法纠错等专项任务上已达到全球SOTA水平 [17] - 智能编程领域的全球竞争已进入白热化阶段,企业对智能编程的需求已从提效工具升级为生产力伙伴 [16][21] - 行业核心演进路径是从辅助编程到系统编程,再到AI自主编程,终极目标是让代码生产不再成为创新的障碍,而是成为企业发展的加速器 [7][22]
硅谷一线创业者内部研讨:为什么只有 5%的 AI Agent 落地成功,他们做对了什么?
Founder Park· 2025-10-13 18:57
文章核心观点 - AI Agent在生产环境的部署失败率高达95%,主要瓶颈并非模型智能度,而是上下文工程、安全性、记忆设计等基础设施的缺失[2][3] - 成功的AI产品开发核心在于构建复杂而强大的“上下文选择系统”,而非简单的提示工程[3] - 行业即将迎来一波专注于记忆工具包、编排层、上下文可观测性等基础设施工具的浪潮[49] 上下文工程 - 精细调整模型的需求非常少见,设计完善的检索增强生成系统通常已能满足需求,但大多数现有系统设计过于初级[5] - 先进的上下文工程是为大语言模型量身打造的特征工程,需实现可版本化、可审计、可测试[9][10] - 应采用语义与元数据双层架构,统一处理杂乱输入格式,确保检索到的是高度相关的结构化知识,而非仅是相似内容[11][12] - 文本转SQL系统在生产环境部署挑战巨大,成功团队会构建业务术语表、带约束的查询模板、验证层及反馈循环作为支撑[13][20] 安全与信任机制 - 安全性、溯源能力与权限控制是阻碍系统部署的关键障碍,而非可有可无的功能[14] - 系统必须支持基于角色的行级别访问控制,即使问题相同,也需为不同权限用户提供定制化输出[16][21] - 信任的核心在于系统能否表现出一致、可解释、可审计的行为,而非原始技术能力[18] - 5%成功部署的AI Agent共同点是采用“人在回路”设计,将AI定位为辅助工具,并构建反馈循环[18] 记忆功能设计 - 记忆功能不是简单存储,而是涉及用户体验、隐私和系统整体架构的设计决策[22] - 记忆应分为用户级、团队级和组织级三个层级,优秀团队会将其抽象为独立的上下文层与行为层,实现版本化与自由组合[23][28] - 记忆能提升用户体验与Agent流畅度,但过度个性化会触及隐私红线,共享记忆若范围不当会破坏访问控制[30][34] - 当前技术栈缺失安全、可移植、由用户掌控的内存层,这是一个重要的创业机会点[30][42] 多模型推理与编排 - 模型编排是一种新兴设计范式,企业根据任务复杂度、延迟要求、成本敏感度等因素设计智能路由逻辑[31][32] - 典型模式包括:简单查询调用本地模型、结构化查询调用领域特定语言、复杂分析调用前沿模型,并采用双模型冗余设计作为回退[35][36] - 模型选择本身可通过追踪“哪些查询在哪些模型上表现更好”来持续学习优化,路由策略需自适应而非手动调整[37] 交互界面设计 - 并非所有任务都需要聊天机器人,自然语言交互的价值在于极大降低复杂工具的使用门槛[39] - 理想应用场景包括处理情绪化任务和进行探索性、开放式的查询[40][46] - 核心是理解用户选择自然语言的根本原因来设计交互,而非将所有交互塞进聊天框架,并应提供GUI控件支持后续精细化调整[40] 未来机会与待解问题 - 重要创业机会点包括:上下文可观测性、可组合记忆、领域感知的领域特定语言[41][42][44] - 善用延迟可创造价值体验,深度分析即使耗时10秒,只要展示思考过程并给出有效答案,用户也能接受[45] - 生成式AI的下一个护城河将源于上下文质量、记忆设计、编排可靠性和信任体验四方面[50][51]
Z Potentials|陈加贝:飞书多维表创始工程师之一,开源Teable 20K星,全球首个Database Agent
Z Potentials· 2025-09-22 11:54
行业演进历程 - TOB工具与数据库领域经历了从早期依赖代码开发的传统数据库,到Airtable开启的表格式数据库新赛道,再到Notion等工具推动的"无代码"协作浪潮的技术迭代,每一次迭代都在降低企业数据管理的门槛[1] - 在高度碎片化的业务场景中,大量个性化、长尾的数据协作需求仍未被满足,企业依然依赖人工处理、多方沟通和零散工具拼凑来完成日常运营[1] - AI技术的爆发为TOB领域带来了从"工具辅助"向"智能协同"的跃迁可能,传统"数据库即存储"的理念逐渐被"数据库即协作伙伴"所替代[1] Teable产品定位与核心能力 - Teable是全球首个Database Agent,打通了"需求提出-流程落地-自动化运转"的核心枢纽,重新定义了企业协作与数据驱动的效率边界[1] - 公司将最强数据库Postgres转变成了一个"企业场景"就绪的AI数据库,实现承载严肃企业场景的海量数据库存储与计算,可根据实际需求通过编码实时生成可消费数据、批量操作数据的完全定制化应用[5] - Teable主打"Single Source of Truth(单一数据源)"与"Generate Application When You Need(按需生成应用)",先通过集中化数据库做好数据管理,再依据实际工作场景生成解决具体问题的应用[5][28] - 产品定位更强调协作属性,拟人化形容为"企业大管家",能覆盖所有协作的同事,将上下文数据汇聚整合,把手动协作流程转化为自动化操作[35] 市场需求与痛点分析 - TOB领域的市场规模非常庞大,以美股为例,TOB企业的市值占总市值比重超过一半[12] - 客户需求的规模相较现有产品所能覆盖的范围还要大一到两个数量级,大量未被满足的企业需求仍处于"水下"状态,或是依赖口口相传、非结构化信息传递,或是通过人力搬运等低效方式完成工作[12][13] - 每个行业的需求差异十分明显,例如科技、金融、制造等领域都有独特场景和痛点[13] - 以民宿老板为例,经营十几套房源背后是一整套完整的企业运营数字化需求,但这类小企业往往既没有预算购买成熟软件,市场上也缺乏适配产品[14] 开源战略与市场认可 - Teable自2023年启动开发便确立两项核心原则:坚持开源和践行"全球优先"策略[15] - 项目在2024年4月正式发布首个开源版本,发布当天就登顶GitHub当日榜单榜首,截至目前星标数已接近20K,累计下载量达到近百万次[15] - 开源版本本质上是一款无代码数据库,将原本仅能供开发者使用的Postgre数据库转化为让非技术人员也可灵活搭建业务场景的"活"数据库[18] - 开源原因包括确保数据访问完全开放,任何团队或开发者都能自由访问、维护存储在Teable中的数据,无需依赖API绑定[18] 技术实现与竞争优势 - Teable 2.0已升级为Database Agent,将产品从需手动操作的工具升级为可全自动响应业务需求的Agent[19] - 用户无需具备任何IT或表格相关的专业经验,只需通过Prompt指令即可直接生成解决特定场景问题所需的工具[5][34] - 与Airtable、Notion等产品的核心差异在于:后者仍停留在"预制组件拼接"逻辑,而Teable是工业级数据库底座,可根据需求通过编码实时生成完全定制化应用[29][30] - 与Lovable等产品的区别在于:Lovable从前端出发构建应用,而Teable的出发点是后端,优先构建可维护的业务数据体系[26] 实际应用场景 - 发票处理案例:用户只需把发票拖进来,简单描述需求,Teable就能自动读取所有关键信息,直接生成规整的数据表,并可设置自动化流程同步到报销系统[21][22] - 内容生产与营销案例:用户可一次性提交100个SKU的需求,Teable会作为"批量Agent调用器"自动为每个SKU生成配图、营销文案甚至相关视频[24] - 医疗场景案例:医生与护士所需应用虽不同却共享同一套数据,医生需要数据密集型表格分析治疗效果,护士需要移动办公功能记录患者信息,所有信息最终同步至同一数据库[28] 商业模式与市场拓展 - Teable采用Open Core模式,开源版提供"活"的Postgres产品形态,商业版叠加企业场景所需的高级管理服务及Database Agent核心能力[31] - 在交付Database Agent产品后,Teable具备"可搭建SaaS的SaaS"属性,用户可凭借对行业与业务的理解在Teable上搭建完整的SaaS解决方案[32] - Database Agent能力实现了"搭建方"向"需求方"的降维,目标市场准入门槛将大幅降低十倍甚至更多,未来核心服务方向聚焦于缺乏能力或预算搭建业务系统的中小企业[34] AI产品发展理念 - 在AI时代产品打造的核心机会点在于"上下文工程(context engineering)"的落地,通过细分领域的上下文工程优化高效解决该领域需求[39] - Cursor与Lovable本质上是对代码上下文的优化,Manus、Genspark聚焦于搜索与分析场景的上下文优化,而Teable聚焦于业务数据上下文的优化[39] - 长期愿景是从Database Agent升级为真正的"商业操作系统",成为完整掌握团队及企业全部上下文信息与智能的超级智能体,从"工作执行助手"升级为具备启发式指导能力的"军师"[37]
中美 Agent 创业者闭门:一线创业者的教训、抉择与机会
Founder Park· 2025-09-04 20:22
文章核心观点 - Agent行业在2025年成为AI领域最热话题 但实际落地产品稀少 面临技术、商业化和交互设计等多重挑战 行业正从通用化转向垂直深耕 核心竞争壁垒将围绕环境理解、学习记忆和场景优化能力构建 [5][8][36] 技术实施挑战 - 新一代Agent Model的规划与工具调用能力提升 取代了大量基于规则的工作流编排等外围工程 导致早期工程化工作被大模型能力迭代淹没 [6][10] - 隐性知识获取是核心挑战 包括默会知识(如广告创意规则)、组织共识性知识(如字节各小组Golang使用差异)和企业自定义规则(如ACV计算标准) [11][12] - 环境构建成为实施重点 包含三要素:执行能力(Computer Use)、业务连接(企业系统工具化)和上下文载体(领域术语与企业知识) 其中Context质量决定实际落地效果 [13][14][15] 技术路线选择 - Workflow-based与Agentic技术路线将长期并行 Workflow适用于规则驱动型任务(如订单处理可节省10多人人力) Agentic更适合多步骤灵活任务(如数据分析) [16][17][19] - 企业过往积累的流程机器人和系统集成(如RPA资产)可转化为Agent工具 实现技术路线平滑过渡 [18] 商业化路径 - 大客户(KA)市场预算充足但实施成本高、决策链长 中小客户(SMB)市场呈现民主化机遇 AI将大组织专属运营能力标准化赋能中小企业 [21] - 分层并进策略:通过SMB市场验证产品价值和商业模式 用标准化案例撬动KA市场建立标杆 [21] - 巨头对AI推进持谨慎态度 因生产力提升难以量化 且更关注实际收入而非创新 [22] 产品战略方向 - 通用Agent留存率仅约10% 因场景深度不足(仅60分水平) 垂直Agent留存率可达20%以上 需从通用转向垂直深耕 [23][27] - PPT Agent案例显示 通过专用模型训练(内容检索与排版视觉)、工作流补齐(美化/按大纲制图)和企业知识库对接 可显著提升输出质量 [26][27] 人机交互设计 - GUI操作价值存在争议 但短期内难以绕过现有GUI应用体系 且GUI承载丰富上下文信息 若视觉理解能力提升可能重新凸显价值 [28][29] - 交互颗粒度设计需平衡用户偏好询问与自主推进 关键是通过学习机制记忆用户修正反馈(如LemonAI旅游规划案例) [30] - 借鉴管理学情境领导理论 需建立共享上下文机制使Agent理解权限边界和协作规则 最先进AI产品正尝试让Agent主动提出建议和请求协助 [31][32] 多Agent协作 - 多Agent落地核心矛盾在于上下文共享精度:共享过多退化为单体Agent 抽取不准导致交接失败 [33] - 有效路径采用任务分解加专家模型组合(类似MapReduce模式) 并引入异步协作机制平衡一致性、延迟和成本 [34] 模型能力演进 - Claude Code代表"模型即Agent"路径 Cursor代表"Agent下沉环境"路径 长期护城河在于环境操作、学习闭环、场景优化和多Agent协作标准 [36][37] - 需关注四大技术拐点:长期规划与连续行动能力(如Claude Code)、多模态深度融合、界面自动生成、Context Engineering与记忆机制 [38][39] - 多模型分工比单一超级模型更务实 各模型能力侧重不同:ChatGPT强于战略思考 Gemini覆盖面广 Claude规划与代码能力最强 [40][41][43] 学习记忆机制 - 学习能力是核心挑战 需从认知科学角度构建三类记忆:Semantic Memory(概念记忆)、Episodic Memory(情景记忆)和Procedural Memory(程序记忆) [42][44][45] - 当前AI缺乏Episodic Memory 因企业过程数据稀缺 需通过过程数据收集、人机协作轨迹学习和场景化学习机制建立情景记忆 [44][46] - 前沿探索包括LemonAI通过记录用户修改反馈改进推荐算法 实现从结果导向到过程导向的转变 [47]