Reflection - 财报，业绩电话会，研报，新闻

Reflection

搜索文档

自动驾驶之心· 2025-10-18 12:00

AI Agent技术当前面临的挑战 - 当前AI Agent在用户体验上与传统task bot相比并无显著提升，甚至更差[1] - Planning阶段耗时巨大，工具增多后模型准确率下降，使用旗舰模型进一步增加延时[2] - Planning质量不高，模型构建的复杂工作流可用率远低于人类水平，简单工作流使用判别式小模型性能更好[2] - Reflection策略容易陷入自我内耗和死循环[3] Planning速度问题的本质与解决方案 - 核心问题是工具发现和参数对齐成本被低估，从编译时确定的工具编排变为运行时动态选择，搜索空间随工具数量指数级膨胀[5] - 解决方案包括工具层缩小范围分层治理，先用意图分类器将请求路由到具体域，每个域只暴露5-10个核心工具[5] - 将串行改为DAG并行执行，LLMCompiler支持将调用计划编译成有向无环图，并行化可使链路耗时缩短20%[6] - 在项目开始节点增加路由策略，简单任务路由给SLM或专用执行器，复杂规划才使用强推理模型[6] Planning质量问题的本质与提升方案 - 本质原因是模型生成的文字描述计划缺乏可执行性和全局约束，传统workflow有明确的分支条件和异常处理[8] - HiPlan方案将计划拆分为里程碑和局部提示两层，高层管战略目标，低层负责战术细节，里程碑可离线积累复用[8] - Routine实践提供结构化计划框架，强制模型输出符合语法的计划，可将企业场景工具调用准确率提升平均20多个百分点[10] - 搜索式规划如LATS引入MCTS，展开多条路径用Verifier评分选最优，HyperTree和Graph-of-Thoughts支持非树形图结构[12] - 基于强化学习的多轮训练可有效提升agent长程任务性能，例如RAGEN、LMRL-Gym等研究实现明显指标提升[14] Reflection死循环问题的根源与修复方法 - 根本原因是缺少细粒度可计算信号和明确停机条件，模型反思仅靠主观判断易强化错误假设[15] - UFO研究使用最简单的一元反馈如Try again进行多轮RL，不需要详细错误诊断即可学会自我改进[17] - Tool-Reflection-Bench将错误修复过程变为明确可控动作，模型学会基于证据诊断错误并提出可执行后续调用[18] - 工程层面可设置max_rounds硬性上限、no-progress-k连续无改进则停、state-hash去重、cost-budget预算终止等机制[20] AI Agent技术发展趋势与价值 - Agent现阶段问题需结合强化学习，构建多轮交互特定环境，让模型学到稳定推理执行能力[20] - 端到端RL将整个Agent视为策略网络，直接从环境反馈学习，涌现规划、工具使用、反思等能力，是未来技术趋势[20] - AI Agent是LLM在现实场景业务落地最有价值的技术方向，Agent能力正逐步内化为模型能力[21] - RL契合Agent在垂直领域现实环境的问题模拟，工具高度封装化和运行环境可迁移性使sim2real难题不再成为掣肘[21] - 通过RL训练的Agent模型具备很高实用价值且价值持续扩大，同时降低了应用下限并提升了能力上限[21]