为什么95%的智能体都部署失败了?这个圆桌讨论出了一些常见陷阱
机器之心·2025-10-28 17:37

AI智能体部署失败的核心原因 - 95%的AI智能体在生产环境部署失败,主要问题并非模型能力不足,而是基础框架、上下文工程、安全性和记忆设计等支撑技术尚未成熟 [1] - 真正的差距在于上下文工程,多数创始人实际构建的是上下文选择系统而非AI产品 [3] - 成功部署的5%智能体共性在于采用人机协作设计,让AI扮演助手而非自主决策者,以解决信任问题 [3] 上下文工程的最佳实践 - 微调往往非必要,构建良好的RAG系统已足够高效,但绝大多数现有RAG系统过于粗糙 [7][8] - 高级上下文工程应被视为面向LLM的原生特征工程,使其成为可测试、可版本化、可审计的数据工件 [12][13] - 采用语义层加元数据层的双层架构,在混乱数据源间建立秩序,确保检索结果的相关性而不仅是相似性 [14][15] - text-to-SQL部署困难源于自然语言模糊性及企业术语的上下文依赖,成功方案需工程化的抽象与保护措施 [16][17] 信任与治理框架 - 安全、权限和数据溯源是AI系统落地的关键阻力,而非简单的合规清单项目 [18][19] - AI答案需根据员工权限和上下文进行差异化处理,避免组织性错误 [20] - 领先团队在统一目录中嵌入访问策略,并在索引和查询阶段同时生效 [21] - 信任问题是人性瓶颈,成功系统设计需包含人机协同环节,使AI可监督、可纠正、可解释 [21] 记忆系统设计 - 记忆是涉及用户体验、隐私和系统影响的设计决策,而非单一功能 [22][23] - 记忆分为用户层面(偏好)、团队层面(查询、仪表盘)和组织层面(知识、政策)三个层级 [27] - 记忆即个性化,可改善用户体验,但需平衡个性化与隐私保护,避免越界成为监控 [29][30] - 目前缺乏安全、可移植的记忆层原语,这是亟待解决的关键问题 [31] 多模型推理与编排 - 生产环境需基于任务复杂度、延迟限制、成本敏感度等因素运行模型路由逻辑 [34] - 模型编排更接近编译器设计,是在异构模型、工具和验证间运行决策DAG [34] - 采用自适应路由策略,将简单问题交给小型快速模型,复杂任务路由到前沿模型,并通过反馈循环持续优化 [34] 自然语言交互的适用场景 - 并非所有任务都需要聊天机器人,自然语言交互在降低复杂工具学习门槛时最具价值 [39][40] - 混合交互模式的核心逻辑是以聊天开启零学习门槛操作,再提供GUI控件进行精准调整 [41] - 自然语言处理理想应用场景包括偶发带情绪的任务(如客户服务)和探索性开放式查询 [50] 亟待解决的技术缺口 - 上下文可观测性缺失,团队缺乏系统方法衡量不同上下文对模型性能的影响 [43] - 可组合记忆需实现用户归属、可移植性与安全性,并设置权限层级区分不同层面的记忆 [44] - 应开发领域感知型DSL替代不稳定的text-to-SQL,直接映射到经过验证的业务逻辑流程 [45] - 需设计延迟感知型UX,区分即时响应任务和可接受延迟的深度分析任务 [46][47] 未来基础设施发展方向 - 即将出现记忆组件、编排层、上下文可观测性工具等基础设施工具浪潮 [49] - 生成式AI的下一个竞争壁垒将来自上下文质量、记忆系统设计、编排可靠性和信任导向型UX [52] - 创业者需重点关注上下文预算、记忆系统边界、输出溯源、多模型路由和用户数据信任度这五个硬核问题 [53]