Workflow
RSS 2025|从说明书学习复杂机器人操作任务:NUS邵林团队提出全新机器人装配技能学习框架Manual2Skill
机器之心·2025-05-29 12:53

视觉语言模型在机器人装配领域的应用 - 视觉语言模型(VLMs)为真实环境中的机器人操作任务提供了极具潜力的解决方案 [2] - 机器人难以胜任复杂的长时程任务(如家具装配),主要受限于人类演示数据和训练样本的稀缺性 [3] - Manual2Skill框架利用VLMs将基于说明书的视觉指令转化为机器人装配技能,弥合了抽象指令与物理执行之间的鸿沟 [9] Manual2Skill框架的核心阶段 - 阶段I:通过VLMs(GPT-4o)对说明书示意图和预装配场景图像进行联合推理,生成层级化装配图 [10] - 阶段II:预测每个装配步骤中所有部件的6D位姿,实现部件间的精确物理对齐 [12] - 阶段III:将预测位姿转化为真实世界的机器人动作,实现装配计划的自主执行 [18] 实验验证与结果 - 在102本真实宜家家具说明书上测试,对于部件数≤6的家具能较准确地生成装配图 [23] - 在50件家具的仿真测试中达成58%成功率,显著超越现有启发式方法 [29] - 在四款真实宜家家具上测试,框架在真实机器人装配任务中表现出色 [29] - 可零样本推广至轮轴、玩具飞机甚至机械臂等手册引导式装配任务,成功率100% [33] 技术优势与创新 - 通过整合多模态输入(多张图像的视觉信息与文本指令)完成关键子阶段 [11] - 分步骤预测位姿的方法能更好地学习基本连接方式,提高预测精度 [12] - 使用复合损失函数确保预测的鲁棒性与准确性,能处理可变数量的输入部件 [17] - 采用启发式抓取策略和稳健的运动规划算法实现机械臂的精确控制 [18]