Revela - 财报，业绩电话会，研报，新闻

Revela

搜索文档

ICLR 2026 Oral | Revela：用语言建模重新定义稠密检索器训练

机器之心· 2026-03-26 19:41

研究背景与问题 - 稠密检索器是RAG系统的核心组件，负责从海量文档中快速找出语义最相关的段落[2] - 传统基于对比学习的稠密检索器训练存在根本性局限：严重依赖高成本的人工标注数据、难负样本挖掘复杂、与语言模型的预训练目标（下一词预测）不兼容[4] - 这些问题在专业领域（如代码、法律）和推理密集型检索场景下尤为突出[2] 解决方案与核心创新 - 研究团队提出名为Revela的新方法，其核心洞察是将稠密检索器的训练目标统一到语言建模框架之下[6] - 核心创新是引入批内注意力机制，将检索器的相似度分数作为权重，使语言模型在预测下一个词时能动态参考批次内其他相关文档，从而实现检索器与语言模型的联合端到端训练[6] - 该训练过程完全自监督，无需任何人工标注的查询-文档对[6] - 该成果获得了ICLR 2026 Oral（录取率约1.1%）和AAAI 2026 FrontierIR最佳论文奖[2] 方法架构与技术细节 - Revela架构由检索器和语言模型两部分组成，在训练过程中联合优化[10] - 在Transformer Block内部，每一层并行运行标准自注意力和批内注意力两条路径，最终输出相加后驱动下一词预测目标[13] - 批内注意力的Key和Value来自其他文档的自注意力输出，而非最终输出，这一设计使检索器的相似度分数能直接参与语言模型的反向传播，实现端到端优化[13] - 训练时，将文档切分为文本块并分批，确保每个批次内包含语义相关的片段，以构建有意义的跨文本依赖信号[14] 关键优势 - 训练目标与预训练高度一致：使用与大模型预训练相同的语言建模目标，能充分激活预训练模型已有的语义理解能力[11] - 完全自监督，无需标注：利用原始文本自身的上下文关系作为训练信号，大幅降低对人工标注的依赖，在数据稀缺的专业领域具备天然优势[11] - 可扩展性强：实验表明，随着检索器规模（从135M到3B）、语言模型规模和批大小的增大，性能持续稳定提升，展现出良好的扩展特性[11] 实验效果与性能表现 - 在代码检索基准（CoIR）上，Revela-3B在10项任务平均nDCG@10达到60.1%，在无需任何标注数据的前提下，超越了使用海量标注数据训练的7B参数有监督模型E5-Mistral-7b-Instruct（57.3%）以及OpenAI Ada-002（45.6%）、Voyage-Code-002（56.3%）两个商业API[18] - 在0.5B参数规模下，Revela即超越了同样覆盖代码语料、用2.7亿标注对训练的E5-PT，领先约10个百分点[18] - 在推理密集检索基准（BRIGHT）上，Revela-3B平均nDCG@10达到20.1%，仅凭维基百科文本训练，便超越了E5-Mistral-7b-Instruct（17.9%）以及OpenAI、Voyage、Cohere等主流商业API[21] - 在通用检索基准（BEIR）上，Revela-3B与弱监督基线E5-PT持平（均为45.6%），但所用训练数据约为其1/1000，使用计算资源仅为其1/10，极大降低了训练成本[22] 未来展望与行业意义 - 该方法为稠密检索器的训练开辟了新的、更自然的路径，将训练与语言建模范式统一[24] - 未来值得探索的方向包括：动态索引构建、模型与数据的进一步扩展、以及利用检索器学到的语义关联反哺语言模型本身的训练[24] - 该研究在自监督检索学习领域具有创新价值，获得了顶级会议的高度认可[24]

语言建模

对比学习

自监督学习

Artificial Intelligence

Artificial Intelligence

Revela

Voyage-Code-002