文章核心观点 - 锦秋基金被投企业星尘智能与顶尖学术机构联合提出CLAP框架,该框架通过对比学习将人类视频中的运动空间与机器人动作空间对齐,使机器人能够直接从海量互联网视频中学习技能,有望解决机器人学习长期面临的“数据饥荒”与“视觉纠缠”难题,并显著降低机器人技能获取的成本与门槛 [4][9][10] 技术框架详解 - CLAP框架旨在建立统一的视觉-语言-动作模型,其核心是通过对比学习进行隐空间动作预训练,将人类视频中的状态转移映射到一个量化的、物理上可执行的动作码本上,从而弥合无标注人类视频与有标注机器人轨迹之间的语义鸿沟 [9][14] - 研究团队基于两种VLA建模范式进行分层策略训练:CLAP-NTP是一种自回归模型,擅长指令跟随与任务规划;CLAP-RF则采用Rectified Flow策略,面向高频率、精细化的操控 [10][16] - 为解决模型微调中的灾难性遗忘问题,框架引入了知识匹配正则化策略,确保机器人在学习新技能时不会丢失已掌握的能力 [11][16] 实验结果与性能 - 在真实世界任务性能测试中,CLAP框架显著优于基线方法。例如,在“Pick and Place”任务中,CLAP-RF的拾取成功率为90%,放置成功率为85%;在“Pack the Doll”任务中,CLAP-RF的成功率为70% [20] - 在环境扰动下的鲁棒性评估中,CLAP-RF同样表现优异。在原始设置下,其“Pick and Place”成功率为90%,“Close”成功率为70%;在背景变化和光照变化等干扰下,性能保持稳定,平均成功率高达66.7%,远超其他基线模型 [21] 产业应用前景 - CLAP框架使机器人能够从YouTube、抖音等平台的“数以亿计”的人类行为视频中学习技能,极大扩展了可用训练数据的规模,解决了机器人学习的“数据饥荒”问题 [4][10] - 这种“看视频学技能”的方式显著降低了机器人技能获取的硬件、环境和人工标注成本,有望大幅降低企业部署机器人的成本和周期,加速机器人在服务业、制造业等领域的规模化应用 [4][10][11]
打破机器人“数据饥荒”僵局:锦秋被投企业星尘智能联合清华、MIT等发布CLAP框架|Jinqiu Spotlight
锦秋集·2026-01-21 23:36