行业技术突破:无数据自我进化智能体框架 - Meta与UIUC联合提出Dr Zero框架,使智能体能在零训练数据条件下实现高效自我进化,解决了多轮搜索智能体在无数据自我进化中面临的问题多样性受限、多步推理与工具使用需大量计算资源等难题[1] - 框架核心创新是提出了“跳步分组相对策略优化”方法,通过聚类结构相似的问题来构建鲁棒的群组级基准,在保证训练有效性的同时避免了昂贵的嵌套采样需求[1] 技术原理与设计 - Dr Zero是一个学习系统,其核心设计包含提议者-解决者协同进化、跳步分组相对策略优化和难度引导奖励机制三个方面[6] - 系统包含由大型语言模型担任的提议者和解决者,两者协同进化:提议者利用外部搜索引擎生成多样化且结构复杂的题目,解决者尝试回答这些问题,两者能力在迭代中相互促进[7][9] - HRPO方法将结构相似的问题进行聚类构建组级基准,模型只需每个提示生成单个问题,通过与同组内其他问题对比获得评估,大幅降低了计算成本[12] - 难度引导奖励机制激励提议者生成复杂、多跳、有难度但可通过搜索引擎验证的查询,避免生成无法评估的开放或主观问题[13] 性能表现与实验结论 - 实验显示,在复杂问答任务中,该框架无需人工标注数据,性能即超越全监督基线高达14.1%[2] - 在多个开放领域问答基准上的表现,与使用人工标注数据训练的全监督搜索智能体基线相当或更优[16] - 与现有无数据方法相比,Dr Zero在所有任务中均表现最佳,性能平均分别超越SQLM和R-Zero达39.9%和27.3%,在复杂多跳任务上性能较优化后的R-Zero*平均提升83.3%[17] - 框架显示出明确的模型规模效应,7B参数规模的模型在复杂的多跳推理数据集上表现突出,实现了7.67%的相对提升,表明框架具有良好的可扩展性[18]
自进化Agent新突破,Meta推出Dr.Zero:自发涌现复杂推理、搜索能力