文章核心观点 - 在大模型工具使用(Tool-Use)场景中,工具检索的核心瓶颈并非模型能力,而在于工具文档质量参差不齐、描述不完整,导致与用户自然语言查询之间存在语义鸿沟[2][3] - 针对此问题,研究提出了一种“先优化文档,再训练模型”的系统性解决方案,即通过对工具文档进行结构化扩展来提升其表达质量,从而显著提升工具检索效果,该方法比单纯增加模型复杂度更直接有效[8][9][22] - 实验证明,仅通过简单的文档结构化扩展,无需复杂模型,就能带来稳定且显著的检索性能提升,文档质量本身就是检索系统的重要组成部分[16][17][20] 背景:Tool Retrieval的隐形障碍 - 随着API数量扩展至数千甚至上万,工具检索已成为Tool-Use系统中的关键前置步骤[6] - 当前工具文档存在结构不统一、描述不完整、粒度差异大等问题,与自然语言用户查询之间存在明显的语义鸿沟,这严重制约了检索模型的匹配效果[6] 核心解决方案:结构化文档扩展 - 研究提出了一个低成本、自动化的文档扩展流程,为原始工具文档补充结构化的tool_profile字段,包括核心功能、关键词标签、适用场景和限制条件等[10] - 扩展流程采用“LLM扩展→LLM校验→再生成修正→人工抽检”的管道,使用Qwen3-32B进行扩展,LLaMA-3.1-70B进行一致性验证,GPT-4o进行修正,确保生成内容忠实于原文[10][11] 构建的三个关键组件 - TOOL-REX基准:在原有ToolRet基准上,通过上述自动化流程构建了包含结构化tool_profile的扩展版工具检索基准[10] - 大规模训练语料:基于扩展后的文档,构建了包含50k embedding训练样本的大规模结构化工具检索训练语料,是目前该领域最大的语料之一[12][13] - 两个专用模型:基于新数据训练了两个专用模型:用于高效召回的稠密检索模型Tool-Embed和用于精细排序的LLM重排模型Tool-Rank,填补了领域空白[14] 实验结果与性能提升 - 实验表明,仅将工具文档替换为结构化扩展版本,就能带来明显的检索性能提升[16] - 专用模型Tool-Embed与Tool-Rank在ToolRet和TOOL-REX基准上取得了新的SOTA性能。例如,在TOOL-REX基准上,Tool-Embed-4B模型在Web、Code、Customized三类工具上的平均N@10、R@10、C@10指标分别达到46.28、55.93、37.61和55.87、70.48、68.81以及54.54、62.97、48.40[15] - 结合Tool-Rank-4B模型后,在TOOL-REX基准上的综合性能进一步提升,例如在Customized工具上,N@10、R@10、C@10分别达到59.97、68.05、53.29[15] - 性能提升源于更完整、结构化的语义表达,而非更复杂的模型或推理[17] 深层发现与分析 - 不同结构化字段在检索流程中作用不同:function与tags字段对稠密检索阶段影响显著,而when_to_use等场景描述在重排阶段更重要[18] - 扩展后的文档不仅能提升训练效果,也能在评测中带来更稳定的检索表现,减少因描述不完整导致的语义匹配误差[19]
结构化扩展拿下Agent工具检索新SOTA,精准找到API|ICLR'26
量子位·2026-03-18 18:21