对比学习
搜索文档
 Embedding黑箱成为历史!这个新框架让模型“先解释,再学Embedding”
 量子位· 2025-10-21 17:05
UIUC团队 投稿 量子位 | 公众号 QbitAI 让模型先解释,再学Embedding! 来自UIUC、ANU、港科大、UW、TAMU等多所高校的研究人员,最新推出 可解释的生成式Embedding框架——GRACE 。 过去几年,文本表征 (Text Embedding) 模型经历了从BERT到E5、GTE、LLM2Vec,Qwen-Embedding等不断演进的浪潮。这些模型 将文本映射为向量空间,用于语义检索、聚类、问答匹配等任务。 简单来说, GRACE不再是"把文本压成向量",而是"让模型先解释,再学Embedding" —— 模型首先生成每个文本的"推理说明(rationale)",然后再将这些rationale编码成Embedding。奖励信号会鼓励模型产生更有逻辑、更语义 一致的推理。 方法总览:生成、表征、优化三位一体 概括而言,GRACE包含三个关键模块: 然而,大多数方法有一个共同缺陷: 它们把大语言模型当成"哑巴编码器"使用—— 输入文本,输出向量,却无法告诉我们为什么这两个文本相似 。 这种 "对比学习+池化" 的做法虽然有效,但本质上抛弃了大语言模型 (LLM) 的推理与生成能 ...
 对比学习视角,GRPO即DPO?
 自动驾驶之心· 2025-10-19 00:03
 文章核心观点 - 文章分享了作者在强化学习(RL)领域优化GRPO(Generalized Reinforcement Policy Optimization)算法的研究历程,重点描述了从最初尝试到最终发现2-GRPO有效性的过程 [2][3][4][5] - 研究揭示了在特定条件下,极简化的采样策略(如2-GRPO)可能与传统认知相悖但依然有效,并将GRPO与DPO(Direct Preference Optimization)联系起来 [4][5]   研究动机与初始尝试 - 研究动机源于对GRPO算法推理速度过慢的不满,旨在进行效率优化 [2] - 初始尝试方向为树状采样,希望借鉴TreePO的思路,通过预填充减少生成时间,但在Qwen2.5-7B-Math上的初步实验表明正确率高度依赖第一个句子,存在不平衡问题,因此放弃 [2][3] - 第二次尝试基于投机采样思想,即采到正确样本就停止,但工程实现中引入过多CPU操作可能导致气泡,未能实现时间优化 [3]   方案演进与关键发现 - 第三个方案利用历史信息估计题目正确率,并基于贝叶斯方法(Beta分布和Thompson采样)动态分配采样预算,实验结果显示在降低采样数量的同时保持了性能 [4] - 后续消融实验发现,在保持总采样量不变的情况下,将每个提示的采样次数从16降至8,性能几乎无差异 [4] - 进一步实验扩展到不同采样次数(32, 16, 8, 4)和模型规模(7B, 1.5B, deepseek-distill),均发现性能差异不大,挑战了常规认知 [4] - 受到与同行讨论启发,将GRPO与DPO及对比学习联系起来,提出了2-GRPO有效的理论依据,即其奖励归一化机制与对比学习原理相似 [5]   社区介绍 - 文章末尾部分介绍了“大模型之心Tech知识星球”,这是一个面向大模型技术的综合性社区 [7][8][9][10] - 社区聚焦于学术界和大模型应用一线,覆盖RAG、Agent、大模型微调、部署等多个子方向 [9] - 社区提供前沿技术文章、大佬交流、独家招聘信息、时效技术总结等内容 [10]
 攻克结构化长文档检索难题!新框架让模型告别“结构性失明”
 量子位· 2025-09-25 19:42
 技术框架创新 - 提出SEAL对比学习框架 通过结构感知学习和元素感知对齐解决AI模型对HTMLMarkdown长文档的结构性失明问题 [1][8] - 该方法将文档宏观层级结构和微观元素语义同时融入统一Embedding空间 显著增强预训练语言模型对结构化数据的理解能力 [3] - 结构感知学习通过对比保留标签与去除标签的文档版本 使模型学习文档内在骨架和逻辑功能区分 [11][12][13] - 元素感知对齐采用基于元素的Mask机制 迫使模型通过上下文推断文档相关性 深化对文本片段语义角色的理解 [14][15]   性能表现 - 在BGE-M3模型上实现MRR@10指标从73.96%提升至77.84% 绝对提升3.88个百分点 [4][17][19] - SEAL框架在BGE-M3模型上实现HitRate@1达66.26% HitRate@5达93.77% NDCG@10达82.59% 全面超越基线模型 [4][19] - 在bge-large-zh模型上应用SEAL后 MRR@10从72.21%提升至76.57% HitRate@1从59.08%提升至64.30% [4][19] - 线上AB测试验证了该方法在实际应用场景中的有效性 [4][19]   数据集贡献 - 开源万词级别长文档数据集StructDocRetrieval 文档词数远超MS MARCO数据集(后者大多文档不足700字) [5][20][21][22] - 数据集采用HTML格式包含丰富结构语义标注 填补了长文档结构标注数据领域的空白 [21][23][24] - 该数据集为社区评估和开发长文档检索模型提供了新的Benchmark标准 [25]   应用前景 - 技术可应用于RAG等下游任务 为AI助手精准定位技术文档答案提供可靠信息来源 [25] - 在企业知识管理和法律科技等专业领域展现出广阔应用前景 [25]
 何恺明改进了谢赛宁的REPA:极大简化但性能依旧强悍
 机器之心· 2025-06-12 17:57
 扩散生成模型与表征学习   - 扩散生成模型在建模复杂数据分布方面表现出色,但与表征学习领域关联不大[2]   - 扩散模型训练目标包含重构回归项,但缺乏为生成学习表征的显式正则化项,与图像识别领域以表征学习为核心的范式差异明显[3]   - 自监督学习中对比学习通过样本对学习表征,已有效解决分类、检测等识别任务,但尚未在生成模型中探索应用[4][5]     REPA方法的局限性   - 谢赛宁团队提出表征对齐(REPA)方法,利用预训练表征模型能力实现生成模型内部表征与外部预训练表征对齐[6]   - REPA依赖额外预训练、额外模型参数和外部数据访问,操作复杂且不够独立极简[7][8]     分散损失(Dispersive Loss)创新   - MIT团队提出分散损失作为即插即用正则化器,将自监督学习集成到扩散生成模型,无需预训练、额外参数或外部数据[9][10]   - 分散损失核心思想是在标准回归损失外增加正则化内部表征的目标,鼓励隐藏空间表征分散[10][13]   - 该方法行为类似"没有正例对的对比损失",无需双视图采样、数据增强或额外编码器,仅需增加可忽略计算开销的正则化损失[13]     分散损失技术实现   - 目标函数由标准扩散损失L_Diff和批次依赖的分散损失L_Disp组成,加权系数λ控制正则化强度[14]   - 直接应用于中间表示层,不增加额外可学习参数或修改原始L_Diff实现[15][16]   - 通过适当移除正例项可从现有对比损失推导分散损失,形成鼓励表征分散的通用目标类别[18]     分散损失变体与性能   - 开发基于InfoNCE、Hinge和Covariance的三种分散损失变体,均比对应对比损失更简洁[19][24][26]   - 实验显示采用ℓ₂距离的InfoNCE变体表现最佳,使FID分数降低11.35%[31][34]   - 在DiT和SiT模型上分散损失均优于基线,对更强模型改进更显著,验证其正则化作用[36][37]     方法优势与应用   - 相比REPA无需DINOv2等预训练模型(11B参数/1.42亿图像训练),实现完全独立[41][42][43]   - 可泛化应用于一步式扩散模型,在MeanFlow上实现持续改进并达到SOTA性能[44][45]