Workflow
Revela
icon
搜索文档
ICLR 2026 Oral | Revela:用语言建模重新定义稠密检索器训练
机器之心· 2026-03-26 19:41
研究背景与问题 - 稠密检索器是RAG系统的核心组件,负责从海量文档中快速找出语义最相关的段落[2] - 传统基于对比学习的稠密检索器训练存在根本性局限:严重依赖高成本的人工标注数据、难负样本挖掘复杂、与语言模型的预训练目标(下一词预测)不兼容[4] - 这些问题在专业领域(如代码、法律)和推理密集型检索场景下尤为突出[2] 解决方案与核心创新 - 研究团队提出名为Revela的新方法,其核心洞察是将稠密检索器的训练目标统一到语言建模框架之下[6] - 核心创新是引入批内注意力机制,将检索器的相似度分数作为权重,使语言模型在预测下一个词时能动态参考批次内其他相关文档,从而实现检索器与语言模型的联合端到端训练[6] - 该训练过程完全自监督,无需任何人工标注的查询-文档对[6] - 该成果获得了ICLR 2026 Oral(录取率约1.1%)和AAAI 2026 FrontierIR最佳论文奖[2] 方法架构与技术细节 - Revela架构由检索器和语言模型两部分组成,在训练过程中联合优化[10] - 在Transformer Block内部,每一层并行运行标准自注意力和批内注意力两条路径,最终输出相加后驱动下一词预测目标[13] - 批内注意力的Key和Value来自其他文档的自注意力输出,而非最终输出,这一设计使检索器的相似度分数能直接参与语言模型的反向传播,实现端到端优化[13] - 训练时,将文档切分为文本块并分批,确保每个批次内包含语义相关的片段,以构建有意义的跨文本依赖信号[14] 关键优势 - 训练目标与预训练高度一致:使用与大模型预训练相同的语言建模目标,能充分激活预训练模型已有的语义理解能力[11] - 完全自监督,无需标注:利用原始文本自身的上下文关系作为训练信号,大幅降低对人工标注的依赖,在数据稀缺的专业领域具备天然优势[11] - 可扩展性强:实验表明,随着检索器规模(从135M到3B)、语言模型规模和批大小的增大,性能持续稳定提升,展现出良好的扩展特性[11] 实验效果与性能表现 - 在代码检索基准(CoIR)上,Revela-3B在10项任务平均nDCG@10达到60.1%,在无需任何标注数据的前提下,超越了使用海量标注数据训练的7B参数有监督模型E5-Mistral-7b-Instruct(57.3%)以及OpenAI Ada-002(45.6%)、Voyage-Code-002(56.3%)两个商业API[18] - 在0.5B参数规模下,Revela即超越了同样覆盖代码语料、用2.7亿标注对训练的E5-PT,领先约10个百分点[18] - 在推理密集检索基准(BRIGHT)上,Revela-3B平均nDCG@10达到20.1%,仅凭维基百科文本训练,便超越了E5-Mistral-7b-Instruct(17.9%)以及OpenAI、Voyage、Cohere等主流商业API[21] - 在通用检索基准(BEIR)上,Revela-3B与弱监督基线E5-PT持平(均为45.6%),但所用训练数据约为其1/1000,使用计算资源仅为其1/10,极大降低了训练成本[22] 未来展望与行业意义 - 该方法为稠密检索器的训练开辟了新的、更自然的路径,将训练与语言建模范式统一[24] - 未来值得探索的方向包括:动态索引构建、模型与数据的进一步扩展、以及利用检索器学到的语义关联反哺语言模型本身的训练[24] - 该研究在自监督检索学习领域具有创新价值,获得了顶级会议的高度认可[24]