Embedding黑箱成为历史!这个新框架让模型“先解释,再学Embedding”
量子位·2025-10-21 17:05

文章核心观点 - GRACE框架是一种创新的可解释生成式Embedding框架,其核心思想是“让模型先解释,再学Embedding”,将对比学习信号从惩罚式损失转变为奖励信号,通过强化学习驱动模型生成解释性推理链后再进行表征学习 [1][6][7] - 该方法解决了传统文本表征模型将大语言模型视为“哑巴编码器”的黑箱缺陷,使得Embedding过程从纯粹统计结果转变为可审查的透明表征,在保持甚至提升性能的同时获得了高可解释性 [4][5][27] - 在MTEB基准测试的56个数据集上,GRACE在多个骨干模型上均实现了性能全面提升,特别是在检索、配对分类和聚类任务上表现显著领先,且未损害模型原有的通用任务能力 [20][22][23] 技术框架与方法 - GRACE框架包含三个核心模块:生成式思维链模块首先生成输入文本的解释性推理链;可解释表征模块将“输入+推理链”拼接后通过Masked Mean Pooling得到Embedding;奖励驱动学习模块将对比学习目标重新定义为奖励函数进行强化学习优化 [8][9][11] - 训练流程采用有监督与无监督统一的框架,有监督阶段基于包含150万样本的E5训练集学习语义关系,无监督阶段借鉴SimCSE思路对同一文本生成多个推理链作为正样本,该双模式设计使GRACE可适配任何预训练大语言模型而无需大规模新标注数据 [12][13][17][18] - 奖励函数设计包含三个关键部分:对比奖励用于提升查询与正样本相似度并惩罚负样本;一致性奖励确保不同生成的推理链保持相似性以防止不稳定;困难负样本奖励重点区分最容易混淆的负样本 [16] 性能表现与实验结果 - 在MTEB全套56个数据集的综合评测中,GRACE在平均得分上全面超越所有基线模型,以Qwen3-4B模型为例,GRACE版本平均得分达51.03,显著高于基线模型的45.49和SimCSE增强版的50.11,在检索任务上从37.42提升至43.67,重排序任务从48.16提升至52.34 [22] - 对通用领域任务的测试表明GRACE避免了传统对比学习导致的灾难性遗忘问题,Qwen3-4B模型在GRACE监督训练下通用任务平均性能从60.73提升至61.13,而非GRACE的对比学习训练则导致性能暴跌至8.51,差异达52.22 [23][24] - 实验覆盖了四类主流大语言模型骨干网络,包括Qwen2.5-1.5B/3B、LLaMA-3.2-3B和Qwen3-4B,GRACE在所有模型上都表现出稳定的性能提升和可解释性优势,验证了框架的普适性 [21][22]