结构化扩展拿下Agent工具检索新SOTA，精准找到API｜ICLR'26

文章核心观点 - 在大模型工具使用（Tool-Use）场景中，工具检索的核心瓶颈并非模型能力，而在于工具文档质量参差不齐、描述不完整，导致与用户自然语言查询之间存在语义鸿沟[2][3] - 针对此问题，研究提出了一种“先优化文档，再训练模型”的系统性解决方案，即通过对工具文档进行结构化扩展来提升其表达质量，从而显著提升工具检索效果，该方法比单纯增加模型复杂度更直接有效[8][9][22] - 实验证明，仅通过简单的文档结构化扩展，无需复杂模型，就能带来稳定且显著的检索性能提升，文档质量本身就是检索系统的重要组成部分[16][17][20] 背景：Tool Retrieval的隐形障碍 - 随着API数量扩展至数千甚至上万，工具检索已成为Tool-Use系统中的关键前置步骤[6] - 当前工具文档存在结构不统一、描述不完整、粒度差异大等问题，与自然语言用户查询之间存在明显的语义鸿沟，这严重制约了检索模型的匹配效果[6] 核心解决方案：结构化文档扩展 - 研究提出了一个低成本、自动化的文档扩展流程，为原始工具文档补充结构化的tool_profile字段，包括核心功能、关键词标签、适用场景和限制条件等[10] - 扩展流程采用“LLM扩展→LLM校验→再生成修正→人工抽检”的管道，使用Qwen3-32B进行扩展，LLaMA-3.1-70B进行一致性验证，GPT-4o进行修正，确保生成内容忠实于原文[10][11] 构建的三个关键组件 - TOOL-REX基准：在原有ToolRet基准上，通过上述自动化流程构建了包含结构化tool_profile的扩展版工具检索基准[10] - 大规模训练语料：基于扩展后的文档，构建了包含50k embedding训练样本的大规模结构化工具检索训练语料，是目前该领域最大的语料之一[12][13] - 两个专用模型：基于新数据训练了两个专用模型：用于高效召回的稠密检索模型Tool-Embed和用于精细排序的LLM重排模型Tool-Rank，填补了领域空白[14] 实验结果与性能提升 - 实验表明，仅将工具文档替换为结构化扩展版本，就能带来明显的检索性能提升[16] - 专用模型Tool-Embed与Tool-Rank在ToolRet和TOOL-REX基准上取得了新的SOTA性能。例如，在TOOL-REX基准上，Tool-Embed-4B模型在Web、Code、Customized三类工具上的平均N@10、R@10、C@10指标分别达到46.28、55.93、37.61和55.87、70.48、68.81以及54.54、62.97、48.40[15] - 结合Tool-Rank-4B模型后，在TOOL-REX基准上的综合性能进一步提升，例如在Customized工具上，N@10、R@10、C@10分别达到59.97、68.05、53.29[15] - 性能提升源于更完整、结构化的语义表达，而非更复杂的模型或推理[17] 深层发现与分析 - 不同结构化字段在检索流程中作用不同：function与tags字段对稠密检索阶段影响显著，而when_to_use等场景描述在重排阶段更重要[18] - 扩展后的文档不仅能提升训练效果，也能在评测中带来更稳定的检索表现，减少因描述不完整导致的语义匹配误差[19]