Agentic RAG
搜索文档
写在 Manus“卖身”后:企业级 Agent 只会更像软件,而非魔法
AI前线· 2025-12-31 12:33
行业趋势:Agent从“魔法”走向“工程化”产品 - 生成式AI时代的创业公司面临巨大挑战,通用级Agent的落地被认为是“巨头的游戏”,因其涉及复杂的工程交付与产品优化问题,创业公司难以组建庞大团队进行长线研发和贴身服务[2] - 企业级Agent的落地面临四大核心工程问题:模型幻觉必须被管理、系统集成受限于数据孤岛、复杂的运维需求(版本回归、评测、灰度等)、以及Token成本的可控性(包括失败重试、长链路等带来的不可预测成本)[3] - 企业客户的核心需求务实,不关心Token增量数字或产品想象空间,更聚焦于Agent能否“现在就少干活,少做回归、少挨骂”[4] - Agent的发展趋势是越来越像软件产品而非魔法,企业正将其驯化成“可控、可审计、可观测”的系统组件,这条务实路线虽短期不性感,但更容易在全球化竞争中存活[7][8] - 行业专家判断,Agent将是2026年最主要的AI商业化机遇,其背后的产品思维、工程能力、交付能力、进化能力和全球化能力将成为企业服务领域的竞争重点[35] 技术演进:从传统RAG到Agentic RAG - 传统RAG技术存在显著局限性,其两段式流水线(检索、生成)的每一段都可能出现问题[11] - 检索层问题包括:召回偏差(Top‑k里缺关键证据)、断章取义(丢失关键限定条件)、语料过期或错误、多文档冲突导致模型错误融合[14] - 生成层问题包括:证据利用失败、证据到答案需要推理时出现幻觉、模型因训练目标导致的过度概括、以及系统指令与用户指令冲突[15] - 腾讯云智能体开发平台提出“Agentic RAG”作为解决方案,其核心是赋予系统“思考,行动”的循环能力,而非简单的“检索,生成”[16] - Agentic RAG的关键能力包括:任务分解与规划、条件化检索、自我反思与纠错、工具使用、以及多智能体协作[19] - Agentic RAG的目标是压缩幻觉出现空间,通过反复验证事实、查询多来源来确保答案准确性,并能自主改进查询策略及持续整合新数据[16][17][18] - 该技术构建维护成本和技术整合复杂度较高,但腾讯云凭借此能力入选了IDC报告领导者象限[18] 平台能力:腾讯云智能体开发平台的差异化策略 - 在Multi-Agent领域,腾讯云同时支持“零代码自由转交协同”与“工作流编排”,并新增Plan-and-Execute(试用阶段),以覆盖探索型与生产型智能的不同需求[23] - “自由协同”提高灵活性,适合需求不清的探索任务;“工作流编排”提高可控性,适合流程明确的高稳定性任务;Plan-and-Execute则用于复杂任务拆解[24][25] - 平台通过AI技术在中国ToB软件行业的定制化需求与高利润标品之间找到了折中点,既能面向混沌由AI新建流程,又能面向确定流程交付确定结果[24] - 平台推出全流程AI原生的Widget功能,支持通过自然语言生成和模型原生输出Widget组件,是国内首家实现全流程AI native Widget应用方式的厂商,降低了交互式组件的开发门槛[26][27] - 平台的产品思维是让AI主动靠近业务的实际需求和情况,提高端到端复杂任务的完成率,其本质是拥抱变化和持续进化[28] 市场验证:亚太区压力测试与标杆案例 - IDC《2025年亚太区AI赋能前台对话式AI软件厂商评估》报告准入门槛极高,要求供应商具备可商业化产品、本地机构、区域营收占比超10%、以及该地区FOC AI收入超过300万美元等条件[31] - 亚太区(尤其是东南亚)是企服“压力测试场”,核心挑战包括语言与语境的极端多样性,以及严格的区域监管和部署要求[30] - 腾讯云入选IDC报告领导者象限,是唯一一家中国厂商,其核心能力包括成熟的产品优化、本地化支持以及灵活的部署方式[5][32] - 腾讯云在亚太地区(不包括印度)拥有客户基础,并在新加坡、马来西亚、印尼、泰国和香港等地设有本地化的销售和支持团队,并为受监管行业提供从私有化部署到SaaS的多种选项[32] - 全球跨境物流服务商DHL是腾讯云智能体开发平台的标杆客户,通过接入平台将传统AI客服升级为“大模型客服”,集成到多个客户触点,自动化处理超过40类复杂任务[33] - DHL案例成效显著:人工维护的知识条数从超900条下降至119条问答,转人工客服绝对数减少200人次/天,机器人解决率从69%提升至74%[33] 行业动态:巨头收购与竞争格局 - Meta于12月30日正式宣布全资收购Manus,收购金额高达数十亿美元,成为Meta成立以来仅次于WhatsApp(190亿美元)和Scale AI的第三大收购案[2] - Manus创始人肖弘将出任Meta副总裁,核心技术团队整体并入Meta AI部门,公司将继续在新加坡独立运营[2]
搜索智能体RAG落地不佳?UIUC开源s3,仅需2.4k样本,训练快效果好
机器之心· 2025-06-17 08:10
核心观点 - Agentic RAG 当前面临优化目标偏离、检索与生成耦合、评价标准不准确等挑战 [8][9][14] - s3 方法通过 Search-Select-Serve 范式和 Gain Beyond RAG 奖励函数,显著提升训练效率和生成效果 [1][16][17] - s3 仅需 2.4k 训练样本,在多个领域问答任务中超越数据规模大百倍的基线模型 [1][22][25] RAG 发展轨迹 - Classic RAG:使用固定 query 和 BM25 等检索器,生成器对结果无反馈 [7] - Pre-RL-Zero Active RAG:引入多轮 query 更新和 prompt 引导检索,如 IRCoT 和 Self-RAG [7] - RL-Zero 阶段:强化学习驱动检索行为,代表方法包括 DeepRetrieval 和 Search-R1 [7] 当前 RL-based Agentic RAG 的挑战 - 优化目标偏离:Exact Match 指标过于苛刻,导致模型优化答案 token 对齐而非搜索行为 [9][10] - 检索与生成耦合:无法区分性能提升来自更好的搜索还是更强的语言生成对齐能力 [11][12] - 评价标准不准确:传统 QA 指标与搜索质量关联有限,search-oriented 指标无法体现信息利用效果 [14] s3 方法设计 - 核心思想:只训练搜索器、冻结生成器,以生成结果提升为奖励 [16] - Gain Beyond RAG:衡量搜索到的上下文相比初始 top-k 检索结果是否带来真实增益 [17] - Generation Accuracy:结合 span 匹配和 LLM 判断,与人类判断一致率达 96.4% [18][32] 训练与优化 - 采用 PPO 进行策略优化,预筛除 naive RAG 能答对的样本,集中训练需要新检索信息的任务 [19][20] - 训练总时间仅需 114 分钟,比 Search-R1 的 3780 分钟大幅减少 [21][22] - 训练样本仅需 2.4k 条,比基线方法减少约 70 倍 [1][22][25] 实验分析 通用 QA 任务 - s3 在五个数据集上实现最优表现,平均准确率优于 Search-R1 和 DeepRetrieval [23][24][25] - 使用不同下游 LLM(Qwen2.5-7B/14B-Instruct、Claude-3-Haiku)均展现稳定性能 [24] 医学 QA 任务 - s3 在医学领域展现强泛化能力,在 MedQA-US、MedMCQA 等数据集上优于基线 [26][27] - 使用不同语料库(Wikipedia2018 和 MedCorp)均保持稳定性能,无过拟合趋势 [27] 消融实验 - 原始问题作为检索起点有助于明确搜索目标,避免策略偏离主题 [31] - 文档选择机制减少输入 token 2.6 至 4.2 倍,提升效率并减少噪声干扰 [31] - s3 设计在准确性、训练效率和推理速度上达到最优平衡 [29][30]