Workflow
隐空间动作预训练
icon
搜索文档
让机器人看视频学操作技能,清华等全新发布的CLAP框架做到了
机器之心· 2026-01-19 11:51
文章核心观点 - 清华大学、星尘智能、港大、MIT联合提出了一种名为CLAP的对比学习隐空间动作预训练框架,该框架能够将视频中提纯的运动空间与机器人的动作空间进行对齐,使机器人能够直接从海量人类行为视频中学习技能,从而解决机器人学习领域长期存在的“数据饥荒”难题 [2][3] 技术原理与创新 - CLAP框架的核心创新在于解决了“视觉纠缠”问题,通过对比学习将视频中的状态转移映射到一个量化的、物理上可执行的动作码本上,有效避免了模型学到与操控无关的视觉噪声 [3] - 该框架构建了一个统一的视觉-语言-动作模型,能够同时利用机器人数据的动作精确性与大规模无标注人类视频的语义多样性 [8] - 框架采用两阶段方法:首先通过CLAP进行跨模态对齐,建立共享的潜在动作空间;随后进行分层策略训练,通过连续训练CLAP-NTP和CLAP-RF两个模型,将语义理解与控制动力学解耦 [8][10] - 研究团队提出了知识匹配微调策略,这是一种正则化方法,旨在高效适配新本体形态并防止预训练先验在微调过程中发生灾难性遗忘 [10] 模型架构与性能 - 研究基于两种视觉-语言-动作建模范式进行训练:CLAP-NTP是一种自回归模型,在指令跟随与对象泛化方面表现突出;CLAP-RF是一种基于Rectified Flow的策略,面向高频率、精细化的操控 [4][10] - 在真实世界任务性能测试中,CLAP-RF在任务平均成功率上达到61.0%,优于To.5 12的60.0%和UniVLA的35.0% [14] - 在环境扰动下的鲁棒性评估中,CLAP-RF的平均成功率为66.7%,显著高于To.5 [12]的56.7%和UniVLA的16.7% [15] 产业应用与影响 - CLAP框架使得机器人能够从YouTube、抖音等平台的海量视频中学习技能,极大扩展了可用训练数据的规模,并显著降低了机器人技能获取的成本和门槛 [4] - 该技术有望加速机器人在服务业、制造业等领域的规模化应用,因为当机器人能够通过观看视频快速掌握新技能时,企业部署机器人的成本和周期将大幅降低 [6]