让AI智能体「记住」失败经验：微软提出Re-TRAC框架，4B性能SOTA，30B超越358B

文章核心观点 - 当前基于ReAct框架的深度搜索智能体存在线性设计缺陷，导致其在多轮复杂搜索任务中无法记忆和利用历史探索经验，造成冗余搜索和资源浪费 [2][5] - 研究团队提出Re-TRAC框架，通过递归轨迹压缩和结构化状态表示，将独立尝试转变为渐进式学习过程，使智能体能够跨轮次传递经验，实现更高效的智能搜索 [2][7] - Re-TRAC框架显著提升了模型性能，特别是让小参数模型在多个基准测试中达到或超越更大规模模型的水平，为资源受限场景提供了高效解决方案 [12][14][25] 现有深度搜索智能体的困境与ReAct框架的局限性 - 现有智能体无法记住之前的探索经验，每次搜索都从头开始，导致大量冗余搜索和资源浪费 [2] - ReAct框架采用“思考→调用工具→观察→再思考”的线性推理方式，在需要多轮探索的深度搜索任务中，容易陷入局部最优、重复探索和低效搜索的困境 [2][5] - 受限于上下文长度，单次探索难以生成足够多样的路径，无法覆盖宽广的搜索空间，导致模型潜能无法充分发挥 [5] Re-TRAC框架的核心思想与设计 - 核心思想是将探索从一系列独立尝试转变为渐进式学习过程 [7] - 在每个探索轨迹结束时生成一个结构化的状态表示，记录三个维度的信息：当前最可能的答案与关键推理、已搜集的证据库与来源验证、不确定项与待探索方向 [7][10] - 该结构化状态会被添加到下一轮探索的输入中，指导智能体进行更高效的搜索，避免冗余和重复 [7] Re-TRAC模型的性能评估结果 - 研究团队在五个具有挑战性的搜索导向基准上评估了Re-TRAC：BrowseComp、BrowseComp-ZH、XBench、GAIA和HLE [9] - 小模型（4B参数）性能突出：RE-TRAC-4B在所有小于15B参数的基线模型中表现最佳 [12] - 在BrowseComp上准确率达30.0% [16] - 在BrowseComp-ZH上准确率达36.1% [16] - 在GAIA上准确率达70.4%，超过AgentCPM-Explore-4B的63.9%和NestBrowse-4B的68.9% [12][16] - 在XBench上准确率达76.6%，远超InfoAgent-14B的40.4%（提升近90%），也超过NestBrowse-4B的74.0% [12][16] - 在HLE上准确率达22.2% [16] - 中等模型（30B参数）实现突破：RE-TRAC-30B在除HLE外的所有基准上都击败了参数规模大得多的MiniMAX-M2-229B模型 [13] - 在BrowseComp上准确率达53.0%，甚至超过了GLM-4.7-358B的52.0% [16] - 在GAIA上准确率达78.2%，击败了所有评估的闭源模型 [16] - 在BrowseComp和BrowseComp-ZH上排名第二 [16] - 在XBench上准确率达83.0% [11] Re-TRAC作为通用测试扩展的应用效果 - Re-TRAC可以作为无需训练的测试扩展直接应用于前沿大模型 [17] - 在BrowseComp300子集上的应用结果显示，Re-TRAC在所有测试模型上都达到了最佳或具有竞争力的性能 [18] - o4-mini准确率从25.7%提升到46.8% [24] - o3准确率从54.9%提升到69.8% [24] - GPT-5-medium准确率从48.3%提升到66.6% [24] - DeepSeek-V3.2准确率从45.3%提升到60.8% [24] - GLM-4.7准确率从37.7%提升到60.7% [24] - 该框架通过继承之前轮次的状态，使搜索空间逐步收敛，从而减少冗余工具调用与重复探索，提升探索效率 [18] Re-TRAC模型的训练方法 - 研究团队开发了一种后训练方法，构建了基于结构化状态表示的监督微调数据 [19] - 通过实体树方法从维基百科合成33K个问答对，并收集GLM-4.7在这些问题上的Re-TRAC轨迹，经过过滤后得到104k个训练样本 [20] - 经过SFT训练后，模型性能得到大幅提升，例如Qwen3-4B-Instruct在多个基准上的提升： - BrowseComp准确率从2.7%提升到30.0% [20] - BrowseComp-ZH准确率从6.9%提升到36.1% [20] - GAIA准确率从24.4%提升到70.4% [20] - XBench准确率从45.0%提升到76.6% [20] - 这表明通过简单的SFT训练配合Re-TRAC框架，可以产生性能强大的搜索智能体，达到甚至超过通过大规模强化学习训练的模型的效果 [21]