让机器人看视频学操作技能,清华等全新发布的CLAP框架做到了
机器之心·2026-01-19 11:51
近日, 清华大学与星尘智能、港大、MIT 联合提出基于对比学习的隐空间动作预训练(Contrastive Latent Action Pretraining, CLAP)框架。这个框架能够将视频中 提纯的运动空间与机器人的动作空间进行对齐,也就是说,机器人能够直接从视频中学习技能! 引言 长期以来,机器人学习面临着一个令人头疼的「 数据饥荒」难题:互联网上有着数以亿计的人类行为视频,但专门用于训练机器人的数据却寥寥无几。 这种数据不对称现象的根源在于,收集机器人操作数据需要昂贵的硬件设备、专业的操作环境,以及大量的人工标注工作,成本高昂且效率低下。相比之下,人 类行为视频数据虽然丰富,但由于视觉表征与机器人动作空间之间存在巨大的语义鸿沟,传统方法难以有效利用这些资源。 现有的潜在动作模型(Latent Action Models)试图利用视频数据,但往往会遭遇「 视觉纠缠」(visual entanglement)问题 —— 模型学到的更多是与实际操控无关 的视觉噪声,而非真实的操控技能。 此外,该框架还解决了机器人学习中的一个关键技术挑战 —— 知识迁移问题。通过 知识匹配(Knowledge Matchi ...