Workflow
对比学习
icon
搜索文档
打破机器人“数据饥荒”僵局:锦秋被投企业星尘智能联合清华、MIT等发布CLAP框架|Jinqiu Spotlight
锦秋集· 2026-01-21 23:36
文章核心观点 - 锦秋基金被投企业星尘智能与顶尖学术机构联合提出CLAP框架,该框架通过对比学习将人类视频中的运动空间与机器人动作空间对齐,使机器人能够直接从海量互联网视频中学习技能,有望解决机器人学习长期面临的“数据饥荒”与“视觉纠缠”难题,并显著降低机器人技能获取的成本与门槛 [4][9][10] 技术框架详解 - CLAP框架旨在建立统一的视觉-语言-动作模型,其核心是通过对比学习进行隐空间动作预训练,将人类视频中的状态转移映射到一个量化的、物理上可执行的动作码本上,从而弥合无标注人类视频与有标注机器人轨迹之间的语义鸿沟 [9][14] - 研究团队基于两种VLA建模范式进行分层策略训练:CLAP-NTP是一种自回归模型,擅长指令跟随与任务规划;CLAP-RF则采用Rectified Flow策略,面向高频率、精细化的操控 [10][16] - 为解决模型微调中的灾难性遗忘问题,框架引入了知识匹配正则化策略,确保机器人在学习新技能时不会丢失已掌握的能力 [11][16] 实验结果与性能 - 在真实世界任务性能测试中,CLAP框架显著优于基线方法。例如,在“Pick and Place”任务中,CLAP-RF的拾取成功率为90%,放置成功率为85%;在“Pack the Doll”任务中,CLAP-RF的成功率为70% [20] - 在环境扰动下的鲁棒性评估中,CLAP-RF同样表现优异。在原始设置下,其“Pick and Place”成功率为90%,“Close”成功率为70%;在背景变化和光照变化等干扰下,性能保持稳定,平均成功率高达66.7%,远超其他基线模型 [21] 产业应用前景 - CLAP框架使机器人能够从YouTube、抖音等平台的“数以亿计”的人类行为视频中学习技能,极大扩展了可用训练数据的规模,解决了机器人学习的“数据饥荒”问题 [4][10] - 这种“看视频学技能”的方式显著降低了机器人技能获取的硬件、环境和人工标注成本,有望大幅降低企业部署机器人的成本和周期,加速机器人在服务业、制造业等领域的规模化应用 [4][10][11]
让机器人看视频学操作技能,清华等全新发布的CLAP框架做到了
机器之心· 2026-01-19 11:51
文章核心观点 - 清华大学、星尘智能、港大、MIT联合提出了一种名为CLAP的对比学习隐空间动作预训练框架,该框架能够将视频中提纯的运动空间与机器人的动作空间进行对齐,使机器人能够直接从海量人类行为视频中学习技能,从而解决机器人学习领域长期存在的“数据饥荒”难题 [2][3] 技术原理与创新 - CLAP框架的核心创新在于解决了“视觉纠缠”问题,通过对比学习将视频中的状态转移映射到一个量化的、物理上可执行的动作码本上,有效避免了模型学到与操控无关的视觉噪声 [3] - 该框架构建了一个统一的视觉-语言-动作模型,能够同时利用机器人数据的动作精确性与大规模无标注人类视频的语义多样性 [8] - 框架采用两阶段方法:首先通过CLAP进行跨模态对齐,建立共享的潜在动作空间;随后进行分层策略训练,通过连续训练CLAP-NTP和CLAP-RF两个模型,将语义理解与控制动力学解耦 [8][10] - 研究团队提出了知识匹配微调策略,这是一种正则化方法,旨在高效适配新本体形态并防止预训练先验在微调过程中发生灾难性遗忘 [10] 模型架构与性能 - 研究基于两种视觉-语言-动作建模范式进行训练:CLAP-NTP是一种自回归模型,在指令跟随与对象泛化方面表现突出;CLAP-RF是一种基于Rectified Flow的策略,面向高频率、精细化的操控 [4][10] - 在真实世界任务性能测试中,CLAP-RF在任务平均成功率上达到61.0%,优于To.5 12的60.0%和UniVLA的35.0% [14] - 在环境扰动下的鲁棒性评估中,CLAP-RF的平均成功率为66.7%,显著高于To.5 [12]的56.7%和UniVLA的16.7% [15] 产业应用与影响 - CLAP框架使得机器人能够从YouTube、抖音等平台的海量视频中学习技能,极大扩展了可用训练数据的规模,并显著降低了机器人技能获取的成本和门槛 [4] - 该技术有望加速机器人在服务业、制造业等领域的规模化应用,因为当机器人能够通过观看视频快速掌握新技能时,企业部署机器人的成本和周期将大幅降低 [6]
Nature子刊:王珊珊/张康合作开发新型AI模型,让AI自主找病灶,无需医生手动标注
生物世界· 2026-01-10 11:06
研究背景与问题 - 现有依赖专家注释的深度学习模型在开放临床环境中缺乏泛化能力 [3] 研究成果发布 - 中国科学院深圳先进技术研究院与澳门科技大学/温州医科大学团队于2026年1月6日在《Nature Biomedical Engineering》发表了一项研究 [3] 核心模型介绍 - 研究团队提出了一种名为AFLoc的通用视觉-语言模型,其特点是无需医生提前标注病灶即可自动定位 [4] - AFLoc模型基于多层次语义结构的对比学习,通过将多粒度医学概念与图像特征对齐来适应病理的多样化表现形式 [7] 模型验证与性能 - 模型在包含22万对影像-报告的胸部X射线数据集上进行了初步实验 [9] - 在涵盖34种胸部病理的8个外部数据集上验证,AFLoc在无需标注的定位和分类任务中优于当前最先进方法 [9] - 模型在组织病理学和视网膜眼底图像等其他模态上也展现出强大泛化能力 [9] - 在五种不同类型病理图像的定位任务中,AFLoc的表现甚至超越了人类基准 [4][9] 应用潜力 - 该成果凸显了AFLoc在降低标注需求以及适应复杂临床环境应用方面的潜力 [10]
DiffusionDriveV2核心代码解析
自动驾驶之心· 2025-12-28 17:23
DiffusionDriveV2模型整体架构 - 模型是一个用于端到端自动驾驶的强化学习约束截断扩散模型,整体架构包括环境编码、轨迹规划、模式选择等模块 [3] - 环境编码部分融合了来自摄像头和激光雷达的BEV特征以及自车状态信息,其中BEV特征经过上采样和下采样处理,自车状态通过编码器处理,两者拼接后作为后续处理的键值对 [5][6] - 解码部分参考了目标检测中的DETR思想,使用查询机制,输出被分割为轨迹查询和智能体查询,用于后续的轨迹规划和交互 [7] 轨迹规划模块核心技术 - 轨迹规划模块利用多尺度BEV特征,通过上采样和特征拼接,增强空间信息的利用 [8] - 采用基于锚点的扩散模型进行轨迹生成,首先通过K-Means聚类从真实轨迹数据中生成一系列轨迹锚点,然后在锚点上加入经过设计的高斯噪声以启动扩散过程 [9][10][11] - 将带噪声的轨迹锚点通过位置编码转换为查询向量,并与时间编码、BEV特征、智能体查询特征以及自车查询特征进行多轮交叉注意力计算,以融合多源信息 [12][13][14][15][16][17] - 融合后的轨迹特征通过一个前馈网络,并利用时间特征进行尺度和偏移调制,最终预测出分类分数和去噪后的轨迹偏移量,该偏移量与原始噪声轨迹相加得到最终预测轨迹 [18][19][20][21][22] 模式选择与轨迹评估机制 - 模型包含一个模式选择器,用于从多个生成的轨迹模态中做出最终决策 [23] - 在轨迹生成(反向去噪)过程中,记录网络所有中间去噪结果以及最终输出 [25] - 使用一个综合评分器对生成的所有模态轨迹进行评估,评分维度包括安全性、舒适性、规则遵守、进度和物理可行性,并通过加权平均计算综合分数 [27] - 安全性检查包括碰撞检测和驶出道路判断,舒适性评估加速度和曲率连续性,规则遵守评估交通灯和车道保持,进度评估是否到达目标,物理可行性检查动力学约束 [27] 强化学习训练与优化策略 - 提出锚点内GRPO强化学习优化方法,在每个轨迹锚点对应的组内进行策略优化,以保持多模态能力同时提升轨迹质量,其损失函数涉及对去噪过程概率的对数求和与优势函数的加权 [28] - 优势函数通过计算组内奖励的相对均值和标准差进行估计,无需额外价值模型,并且通过只保留优于真实轨迹的样本进行对比学习来定义“好”的轨迹 [28][29] - 对优势函数进行截断处理,将所有负优势设为0,并对发生碰撞的轨迹施加-1的强惩罚,以提供清晰一致的学习信号 [30] - 在训练损失中结合了强化学习损失和模仿学习损失,以防止过拟合并保证通用驾驶能力 [39] 噪声设计与损失函数 - 针对轨迹近端与远端尺度不一致的问题,创新性地提出使用乘性高斯噪声替代传统的加性噪声,通过一个纵向和一个横向的乘法噪声因子来调整轨迹点,从而保持探索轨迹的平滑性和结构完整性 [33] - 在训练阶段引入探索噪声,在验证阶段使用确定性推理,并详细计算了每一步噪声对应的对数概率 [37][38] - 总体训练损失由轨迹恢复损失和分类置信度损失两部分组成,通过权重系数进行平衡 [42] - 轨迹恢复损失采用L1损失函数,分类损失使用带权重的焦点损失函数 [41][43]
Embedding黑箱成为历史!这个新框架让模型“先解释,再学Embedding”
量子位· 2025-10-21 17:05
文章核心观点 - GRACE框架是一种创新的可解释生成式Embedding框架,其核心思想是“让模型先解释,再学Embedding”,将对比学习信号从惩罚式损失转变为奖励信号,通过强化学习驱动模型生成解释性推理链后再进行表征学习 [1][6][7] - 该方法解决了传统文本表征模型将大语言模型视为“哑巴编码器”的黑箱缺陷,使得Embedding过程从纯粹统计结果转变为可审查的透明表征,在保持甚至提升性能的同时获得了高可解释性 [4][5][27] - 在MTEB基准测试的56个数据集上,GRACE在多个骨干模型上均实现了性能全面提升,特别是在检索、配对分类和聚类任务上表现显著领先,且未损害模型原有的通用任务能力 [20][22][23] 技术框架与方法 - GRACE框架包含三个核心模块:生成式思维链模块首先生成输入文本的解释性推理链;可解释表征模块将“输入+推理链”拼接后通过Masked Mean Pooling得到Embedding;奖励驱动学习模块将对比学习目标重新定义为奖励函数进行强化学习优化 [8][9][11] - 训练流程采用有监督与无监督统一的框架,有监督阶段基于包含150万样本的E5训练集学习语义关系,无监督阶段借鉴SimCSE思路对同一文本生成多个推理链作为正样本,该双模式设计使GRACE可适配任何预训练大语言模型而无需大规模新标注数据 [12][13][17][18] - 奖励函数设计包含三个关键部分:对比奖励用于提升查询与正样本相似度并惩罚负样本;一致性奖励确保不同生成的推理链保持相似性以防止不稳定;困难负样本奖励重点区分最容易混淆的负样本 [16] 性能表现与实验结果 - 在MTEB全套56个数据集的综合评测中,GRACE在平均得分上全面超越所有基线模型,以Qwen3-4B模型为例,GRACE版本平均得分达51.03,显著高于基线模型的45.49和SimCSE增强版的50.11,在检索任务上从37.42提升至43.67,重排序任务从48.16提升至52.34 [22] - 对通用领域任务的测试表明GRACE避免了传统对比学习导致的灾难性遗忘问题,Qwen3-4B模型在GRACE监督训练下通用任务平均性能从60.73提升至61.13,而非GRACE的对比学习训练则导致性能暴跌至8.51,差异达52.22 [23][24] - 实验覆盖了四类主流大语言模型骨干网络,包括Qwen2.5-1.5B/3B、LLaMA-3.2-3B和Qwen3-4B,GRACE在所有模型上都表现出稳定的性能提升和可解释性优势,验证了框架的普适性 [21][22]
对比学习视角,GRPO即DPO?
自动驾驶之心· 2025-10-19 00:03
文章核心观点 - 文章分享了作者在强化学习(RL)领域优化GRPO(Generalized Reinforcement Policy Optimization)算法的研究历程,重点描述了从最初尝试到最终发现2-GRPO有效性的过程 [2][3][4][5] - 研究揭示了在特定条件下,极简化的采样策略(如2-GRPO)可能与传统认知相悖但依然有效,并将GRPO与DPO(Direct Preference Optimization)联系起来 [4][5] 研究动机与初始尝试 - 研究动机源于对GRPO算法推理速度过慢的不满,旨在进行效率优化 [2] - 初始尝试方向为树状采样,希望借鉴TreePO的思路,通过预填充减少生成时间,但在Qwen2.5-7B-Math上的初步实验表明正确率高度依赖第一个句子,存在不平衡问题,因此放弃 [2][3] - 第二次尝试基于投机采样思想,即采到正确样本就停止,但工程实现中引入过多CPU操作可能导致气泡,未能实现时间优化 [3] 方案演进与关键发现 - 第三个方案利用历史信息估计题目正确率,并基于贝叶斯方法(Beta分布和Thompson采样)动态分配采样预算,实验结果显示在降低采样数量的同时保持了性能 [4] - 后续消融实验发现,在保持总采样量不变的情况下,将每个提示的采样次数从16降至8,性能几乎无差异 [4] - 进一步实验扩展到不同采样次数(32, 16, 8, 4)和模型规模(7B, 1.5B, deepseek-distill),均发现性能差异不大,挑战了常规认知 [4] - 受到与同行讨论启发,将GRPO与DPO及对比学习联系起来,提出了2-GRPO有效的理论依据,即其奖励归一化机制与对比学习原理相似 [5] 社区介绍 - 文章末尾部分介绍了“大模型之心Tech知识星球”,这是一个面向大模型技术的综合性社区 [7][8][9][10] - 社区聚焦于学术界和大模型应用一线,覆盖RAG、Agent、大模型微调、部署等多个子方向 [9] - 社区提供前沿技术文章、大佬交流、独家招聘信息、时效技术总结等内容 [10]
攻克结构化长文档检索难题!新框架让模型告别“结构性失明”
量子位· 2025-09-25 19:42
技术框架创新 - 提出SEAL对比学习框架 通过结构感知学习和元素感知对齐解决AI模型对HTMLMarkdown长文档的结构性失明问题 [1][8] - 该方法将文档宏观层级结构和微观元素语义同时融入统一Embedding空间 显著增强预训练语言模型对结构化数据的理解能力 [3] - 结构感知学习通过对比保留标签与去除标签的文档版本 使模型学习文档内在骨架和逻辑功能区分 [11][12][13] - 元素感知对齐采用基于元素的Mask机制 迫使模型通过上下文推断文档相关性 深化对文本片段语义角色的理解 [14][15] 性能表现 - 在BGE-M3模型上实现MRR@10指标从73.96%提升至77.84% 绝对提升3.88个百分点 [4][17][19] - SEAL框架在BGE-M3模型上实现HitRate@1达66.26% HitRate@5达93.77% NDCG@10达82.59% 全面超越基线模型 [4][19] - 在bge-large-zh模型上应用SEAL后 MRR@10从72.21%提升至76.57% HitRate@1从59.08%提升至64.30% [4][19] - 线上AB测试验证了该方法在实际应用场景中的有效性 [4][19] 数据集贡献 - 开源万词级别长文档数据集StructDocRetrieval 文档词数远超MS MARCO数据集(后者大多文档不足700字) [5][20][21][22] - 数据集采用HTML格式包含丰富结构语义标注 填补了长文档结构标注数据领域的空白 [21][23][24] - 该数据集为社区评估和开发长文档检索模型提供了新的Benchmark标准 [25] 应用前景 - 技术可应用于RAG等下游任务 为AI助手精准定位技术文档答案提供可靠信息来源 [25] - 在企业知识管理和法律科技等专业领域展现出广阔应用前景 [25]
何恺明改进了谢赛宁的REPA:极大简化但性能依旧强悍
机器之心· 2025-06-12 17:57
扩散生成模型与表征学习 - 扩散生成模型在建模复杂数据分布方面表现出色,但与表征学习领域关联不大[2] - 扩散模型训练目标包含重构回归项,但缺乏为生成学习表征的显式正则化项,与图像识别领域以表征学习为核心的范式差异明显[3] - 自监督学习中对比学习通过样本对学习表征,已有效解决分类、检测等识别任务,但尚未在生成模型中探索应用[4][5] REPA方法的局限性 - 谢赛宁团队提出表征对齐(REPA)方法,利用预训练表征模型能力实现生成模型内部表征与外部预训练表征对齐[6] - REPA依赖额外预训练、额外模型参数和外部数据访问,操作复杂且不够独立极简[7][8] 分散损失(Dispersive Loss)创新 - MIT团队提出分散损失作为即插即用正则化器,将自监督学习集成到扩散生成模型,无需预训练、额外参数或外部数据[9][10] - 分散损失核心思想是在标准回归损失外增加正则化内部表征的目标,鼓励隐藏空间表征分散[10][13] - 该方法行为类似"没有正例对的对比损失",无需双视图采样、数据增强或额外编码器,仅需增加可忽略计算开销的正则化损失[13] 分散损失技术实现 - 目标函数由标准扩散损失L_Diff和批次依赖的分散损失L_Disp组成,加权系数λ控制正则化强度[14] - 直接应用于中间表示层,不增加额外可学习参数或修改原始L_Diff实现[15][16] - 通过适当移除正例项可从现有对比损失推导分散损失,形成鼓励表征分散的通用目标类别[18] 分散损失变体与性能 - 开发基于InfoNCE、Hinge和Covariance的三种分散损失变体,均比对应对比损失更简洁[19][24][26] - 实验显示采用ℓ₂距离的InfoNCE变体表现最佳,使FID分数降低11.35%[31][34] - 在DiT和SiT模型上分散损失均优于基线,对更强模型改进更显著,验证其正则化作用[36][37] 方法优势与应用 - 相比REPA无需DINOv2等预训练模型(11B参数/1.42亿图像训练),实现完全独立[41][42][43] - 可泛化应用于一步式扩散模型,在MeanFlow上实现持续改进并达到SOTA性能[44][45]