Workflow
CLAP框架
icon
搜索文档
打破机器人“数据饥荒”僵局:锦秋被投企业星尘智能联合清华、MIT等发布CLAP框架|Jinqiu Spotlight
锦秋集· 2026-01-21 23:36
文章核心观点 - 锦秋基金被投企业星尘智能与顶尖学术机构联合提出CLAP框架,该框架通过对比学习将人类视频中的运动空间与机器人动作空间对齐,使机器人能够直接从海量互联网视频中学习技能,有望解决机器人学习长期面临的“数据饥荒”与“视觉纠缠”难题,并显著降低机器人技能获取的成本与门槛 [4][9][10] 技术框架详解 - CLAP框架旨在建立统一的视觉-语言-动作模型,其核心是通过对比学习进行隐空间动作预训练,将人类视频中的状态转移映射到一个量化的、物理上可执行的动作码本上,从而弥合无标注人类视频与有标注机器人轨迹之间的语义鸿沟 [9][14] - 研究团队基于两种VLA建模范式进行分层策略训练:CLAP-NTP是一种自回归模型,擅长指令跟随与任务规划;CLAP-RF则采用Rectified Flow策略,面向高频率、精细化的操控 [10][16] - 为解决模型微调中的灾难性遗忘问题,框架引入了知识匹配正则化策略,确保机器人在学习新技能时不会丢失已掌握的能力 [11][16] 实验结果与性能 - 在真实世界任务性能测试中,CLAP框架显著优于基线方法。例如,在“Pick and Place”任务中,CLAP-RF的拾取成功率为90%,放置成功率为85%;在“Pack the Doll”任务中,CLAP-RF的成功率为70% [20] - 在环境扰动下的鲁棒性评估中,CLAP-RF同样表现优异。在原始设置下,其“Pick and Place”成功率为90%,“Close”成功率为70%;在背景变化和光照变化等干扰下,性能保持稳定,平均成功率高达66.7%,远超其他基线模型 [21] 产业应用前景 - CLAP框架使机器人能够从YouTube、抖音等平台的“数以亿计”的人类行为视频中学习技能,极大扩展了可用训练数据的规模,解决了机器人学习的“数据饥荒”问题 [4][10] - 这种“看视频学技能”的方式显著降低了机器人技能获取的硬件、环境和人工标注成本,有望大幅降低企业部署机器人的成本和周期,加速机器人在服务业、制造业等领域的规模化应用 [4][10][11]
星尘智能x清华x MIT发布CLAP框架!让机器人看视频学操作技能
具身智能之心· 2026-01-20 08:33
文章核心观点 - 星尘智能与多所高校联合提出了一种名为“对比学习隐空间动作预训练”(CLAP)的新框架,该框架能够将人类视频中的运动空间与机器人的动作空间进行对齐,使机器人能够直接从海量互联网视频中学习技能,从而解决机器人学习领域的“数据饥荒”难题 [2][3][4] 技术框架与创新 - CLAP框架通过对比学习,将视频中的状态转移映射到一个**量化、物理上可执行的动作码本**上,有效解决了以往潜在动作模型中普遍存在的“视觉纠缠”问题 [3][4][7] - 框架基于两种视觉-语言-动作(VLA)建模范式:**CLAP-NTP**(一种自回归模型,擅长指令跟随与对象泛化)和 **CLAP-RF**(一种基于Rectified Flow的策略,面向高频、精细化操控) [4][8] - 研究团队提出**知识匹配(KM)正则化策略**,有效缓解了模型微调过程中的灾难性遗忘现象,确保机器人在学习新技能时不会丢失已掌握的能力 [5][8] - 该框架构建了一个统一的VLA框架,能够同时利用**机器数据的动作精确性**与**大规模无标注人类视频演示的语义多样性** [9] 性能与实验结果 - 大量实验表明,CLAP**显著优于强基线方法**,使得从人类视频中学到的技能能有效迁移到机器人执行中 [5][12] - 在原始设置的真实世界任务中,CLAP-RF模型的**任务平均成功率(Task Mean)达到61.0%**,优于To.5基线方法的60.0%和UniVLA基线方法的35.0% [14] - 在环境扰动下的鲁棒性评估中,CLAP-RF模型的**平均成功率(Mean)达到66.7%**,显著高于To.5基线方法的56.7%和UniVLA基线方法的16.7% [15] 产业应用与价值 - CLAP框架使机器人能够从**YouTube、抖音等平台的海量视频**中学习技能,极大扩展了可用训练数据的规模,显著降低了机器人技能获取的成本和门槛 [4] - 该技术有望**加速机器人在服务业、制造业等领域的规模化应用**,因为企业部署机器人的成本和周期将因机器人能通过观看视频快速掌握新技能而大幅降低 [5]
让机器人看视频学操作技能,清华等全新发布的CLAP框架做到了
机器之心· 2026-01-19 11:51
文章核心观点 - 清华大学、星尘智能、港大、MIT联合提出了一种名为CLAP的对比学习隐空间动作预训练框架,该框架能够将视频中提纯的运动空间与机器人的动作空间进行对齐,使机器人能够直接从海量人类行为视频中学习技能,从而解决机器人学习领域长期存在的“数据饥荒”难题 [2][3] 技术原理与创新 - CLAP框架的核心创新在于解决了“视觉纠缠”问题,通过对比学习将视频中的状态转移映射到一个量化的、物理上可执行的动作码本上,有效避免了模型学到与操控无关的视觉噪声 [3] - 该框架构建了一个统一的视觉-语言-动作模型,能够同时利用机器人数据的动作精确性与大规模无标注人类视频的语义多样性 [8] - 框架采用两阶段方法:首先通过CLAP进行跨模态对齐,建立共享的潜在动作空间;随后进行分层策略训练,通过连续训练CLAP-NTP和CLAP-RF两个模型,将语义理解与控制动力学解耦 [8][10] - 研究团队提出了知识匹配微调策略,这是一种正则化方法,旨在高效适配新本体形态并防止预训练先验在微调过程中发生灾难性遗忘 [10] 模型架构与性能 - 研究基于两种视觉-语言-动作建模范式进行训练:CLAP-NTP是一种自回归模型,在指令跟随与对象泛化方面表现突出;CLAP-RF是一种基于Rectified Flow的策略,面向高频率、精细化的操控 [4][10] - 在真实世界任务性能测试中,CLAP-RF在任务平均成功率上达到61.0%,优于To.5 12的60.0%和UniVLA的35.0% [14] - 在环境扰动下的鲁棒性评估中,CLAP-RF的平均成功率为66.7%,显著高于To.5 [12]的56.7%和UniVLA的16.7% [15] 产业应用与影响 - CLAP框架使得机器人能够从YouTube、抖音等平台的海量视频中学习技能,极大扩展了可用训练数据的规模,并显著降低了机器人技能获取的成本和门槛 [4] - 该技术有望加速机器人在服务业、制造业等领域的规模化应用,因为当机器人能够通过观看视频快速掌握新技能时,企业部署机器人的成本和周期将大幅降低 [6]