阿里通义开源「推理+搜索」预训练新框架:小模型媲美大模型,多个开放域问答数据集表现显著提升
在推理+搜索方向,通义实验室搜索团队已提出ZeroSearch、OmniSearch等工作,通过在特定的下游任务进行强化学习训练,让大模型在与 环境交互的过程中学习使用搜索引擎。 该团队认为, 仅在特定任务上训练会导致模型的泛化能力受限 ,难以适应更多场景下的检索推理任务。 受BERT模型在预训练过程中使用的掩码 (Mask) 预测任务启发,MaskSearch引入了 检索增强型掩码预测任务 。 也就是让模型使用搜索工具,预测文本中被遮蔽的部分,在预训练过程中有效学习通用的任务分解、推理等智能体策略,同时熟练掌握搜索引 擎的使用方法,为其后续适配多领域任务奠定基础。 通义实验室 投稿 量子位 | 公众号 QbitAI 为提升大模型" 推理+ 搜 索 "能力,阿里通义实验室出手了。 最新研究开源 全新 通用 预训练框架 —— MaskSearch ,在域内及跨域开放域问答任务上均较基线方法取得显著性能提升。 小模型甚至能媲美大模型表现。 不仅如此,MaskSearch可以兼容 监 督微 调 ( S FT) 和强化学习 (RL) 两种训练方法。 通过加入预训练的二阶段训练,MaskSearch相比只在下游任务进行 ...