Workflow
阿里通义开源「推理+搜索」预训练新框架:小模型媲美大模型,多个开放域问答数据集表现显著提升
量子位·2025-05-31 11:34

阿里通义实验室新研究框架MaskSearch - 公司推出全新通用预训练框架MaskSearch,旨在提升大模型"推理+搜索"能力,在开放域问答任务上较基线方法取得显著性能提升 [1][2] - 框架创新性地引入检索增强型掩码预测任务(RAMP),使模型在预训练阶段即学习通用任务分解、推理策略及搜索引擎使用方法 [5][11] - 兼容监督微调(SFT)和强化学习(RL)两种训练方法,其中RL在HotpotQA等领域内任务中展现出更高性能上限 [6][19][20] 核心技术架构 - 预训练阶段对命名实体、日期、数值等关键信息进行掩码处理,模型需调用外部知识库预测被遮蔽内容,提升多领域适应能力 [11][13] - 监督微调采用Agent合成与蒸馏方法生成思维链数据:多智能体协同生成推理链,LLM筛选正确答案;教师模型迭代提升数据质量 [12][14] - 强化学习采用动态采样策略优化(DAPO)算法,构建混合奖励系统评估输出格式与答案一致性,Qwen2.5-72B作为评判模型 [15] 实验性能表现 - 基于Qwen和LLaMA模型的实验显示,两阶段训练显著提升搜索推理能力:小模型(1B)性能提升显著,7B大模型召回率持续增长 [18][22] - 课程学习策略验证有效:按掩码数量分层训练时,Qwen2.5-7B在验证集得分明显高于混合训练,下游任务表现同步提升 [16][24][26] - 基于困惑度的难度导向掩码策略在特定数据集提升召回率,但需与模型当前能力匹配;基于模型的奖励函数综合表现最优 [27][30][33] 行业技术突破 - 突破传统任务特定训练局限,通过通用预训练框架实现跨领域检索推理能力,小模型可媲美大模型表现 [3][4][18] - 首次将检索行为融入预训练目标,使模型自主掌握多步搜索与推理流程,为LLM智能体开发提供新范式 [5][20][33] - 实验证明RAMP作为可扩展学习信号的有效性,尤其在Bamboogle等领域外数据集性能提升显著 [18][22]