模仿学习 - 财报，业绩电话会，研报，新闻

模仿学习

搜索文档

AAAI 2026 Oral | 机器人也能“看人学活”？一次示范就能学会新任务！

具身智能之心· 2025-12-12 09:22

研究背景与问题 - 从人类示范中学习是机器人执行任务的一种潜力巨大的方式但现有方法通常依赖粗对齐的视频对只能学习全局或任务级别的特征忽略了复杂操作和泛化所需的细粒度帧级动态信息[3] - 现有模型在已见任务上表现良好但面对人类展示的从未见过的新任务时表现不佳原因在于主流方法依赖粗糙的人机视频对齐机器人只能大概知道人在干什么却不知道人手具体如何动作[8] - 数据不够精细导致模型学不到关键动作细节许多方法将整段视频压缩成固定长度向量丢失了细节使得模型无法理解动作间的微小差别从而缺乏真正的泛化能力[8] 解决方案与核心创新 - 复旦大学和上海创智学院提出了一种范式转变将细粒度的人机动作对齐视为一个条件视频生成问题[3] - 核心创新是让机器人看着人类做然后脑补出自己应该怎么做即直接生成一段对应的机器人操作视频该方法要求模型逐帧预测机器人下一步如何移动从而在生成过程中学会动作细节和理解操作逻辑[8] - 为支持该方法研究团队引入了一个全新的第三人称数据集H&R 该数据集包含2,600段通过VR远程操控系统采集的精准同步的人类和机器人动作视频涵盖4类基础任务和6类复杂长程任务[3][9] Human2Robot技术框架 - 该方法分为两个阶段第一阶段是视频预测机器人看到人类操作时模型直接生成一段机器人应该如何动作的视频模型先学会生成单帧再进阶训练整个视频以掌握完整的动作演化过程[12][13][14] - 视频预测模型包含三个关键组件 Spatial UNet负责捕捉机械臂形状和手部动作等关键信息 Spatial-Temporal UNet负责理解动作连贯性并学会逐帧预测的时间关系 Behavior Extractor负责提取人手的位置、速度和方向等运动线索[15] - 第二阶段是动作解码由于视频渲染速度慢不适合实时操作因此只取一次去噪后的中间特征这些特征已包含机械臂下一步的位置、动作趋势和物体相对关系然后训练一个动作解码器来输出机器人的关节角或位姿[16][21] 实验结果与性能 - 在已见任务上 Human2Robot方法在所有任务上均取得最高成功率对比基线方法DP、XSkill和VPP Human2Robot保持超过10–20个百分点的优势[20] - 具体数据表明在Push & Pull任务上Human2Robot成功率为100% 在Pick & Place任务上为90% 在Rotation任务上为90% 平均成功率为93%[19] - 引入KNN推断的Human2Robot在所有任务上仍优于各基线方法相比完整版本 KNN策略仅带来约10–20%的成功率下降处于可接受范围内[20] 泛化能力评估 - 该方法能够实现对新的位置、物体、实例甚至全新任务类别的一次性泛化对于一个没见过的任务只需要给一段人类完成任务的视频即可让机器人完成这个任务[4] - 在六类泛化设置中 Human2Robot在位置、外观、实例与背景变化下均保持领先并能完成组合任务与全新任务而XSkill与VPP在后两者上均失败[27] - 泛化优势被认为源于H&R数据集提供的明确人机动作对应关系以及视频条件提供的细粒度动态信息这使得策略具备了跨任务泛化能力[27] 消融研究与有效性验证 - 测试了直接从人类视频预测机器人动作的方式该方法平均成功率仅为23% 动作执行抖动明显对抓取等关键行为不敏感说明仅依靠人类视频推断机器人动作映射较为困难[25] - 为验证视频生成预训练的必要性设计了未进行预训练的变体结果显示该方法几乎无法完成任务最简单的推拉任务成功率仅为20% 抓取放置任务仅为10% 证明视频预训练对于建立动作先验至关重要[26] - 可视化分析表明仅经过一步去噪的预测已包含足够的动作信息可有效支持后续的动作规划 30步去噪结果与真实机器人视频高度一致验证了所提出视频预测模型架构的有效性[24]