星尘智能x清华x MIT发布CLAP框架！让机器人看视频学操作技能

文章核心观点 - 星尘智能与多所高校联合提出了一种名为“对比学习隐空间动作预训练”（CLAP）的新框架，该框架能够将人类视频中的运动空间与机器人的动作空间进行对齐，使机器人能够直接从海量互联网视频中学习技能，从而解决机器人学习领域的“数据饥荒”难题 [2][3][4] 技术框架与创新 - CLAP框架通过对比学习，将视频中的状态转移映射到一个量化、物理上可执行的动作码本上，有效解决了以往潜在动作模型中普遍存在的“视觉纠缠”问题 [3][4][7] - 框架基于两种视觉-语言-动作（VLA）建模范式：CLAP-NTP（一种自回归模型，擅长指令跟随与对象泛化）和 CLAP-RF（一种基于Rectified Flow的策略，面向高频、精细化操控） [4][8] - 研究团队提出知识匹配（KM）正则化策略，有效缓解了模型微调过程中的灾难性遗忘现象，确保机器人在学习新技能时不会丢失已掌握的能力 [5][8] - 该框架构建了一个统一的VLA框架，能够同时利用机器数据的动作精确性与大规模无标注人类视频演示的语义多样性 [9] 性能与实验结果 - 大量实验表明，CLAP显著优于强基线方法，使得从人类视频中学到的技能能有效迁移到机器人执行中 [5][12] - 在原始设置的真实世界任务中，CLAP-RF模型的任务平均成功率（Task Mean）达到61.0%，优于To.5基线方法的60.0%和UniVLA基线方法的35.0% [14] - 在环境扰动下的鲁棒性评估中，CLAP-RF模型的平均成功率（Mean）达到66.7%，显著高于To.5基线方法的56.7%和UniVLA基线方法的16.7% [15] 产业应用与价值 - CLAP框架使机器人能够从YouTube、抖音等平台的海量视频中学习技能，极大扩展了可用训练数据的规模，显著降低了机器人技能获取的成本和门槛 [4] - 该技术有望加速机器人在服务业、制造业等领域的规模化应用，因为企业部署机器人的成本和周期将因机器人能通过观看视频快速掌握新技能而大幅降低 [5]