NovaFlow 框架概述 - 提出一种名为 NovaFlow 的全新自动操作框架,其核心目标是绕过机器人学习中的数据瓶颈,实现无需真实演示或训练的零样本复杂操控任务 [2] - 该框架的关键创新在于将任务理解与底层控制解耦,并利用大型视频生成模型中蕴含的常识知识,而非依赖昂贵的机器人亲身经历数据 [4] - 通过让机器人观看由视频模型生成的任务视频,并从中提炼出“可执行3D对象流”作为任务表征,指导机器人执行动作 [2] 核心技术:可执行3D对象流 - 引入核心中间表征“可执行3D对象流”,本质是目标物体在三维空间中运动轨迹的点云集合,只描述物体本身应如何移动 [5] - 这种以物体为中心的设计是实现跨不同机器人平台泛化的关键,使得方法与具体机器人形态无关 [5] - 该动作流作为抽象的任务表征,可被后续模块转化为针对刚性、关节体和可变形物体的具体机器人动作序列 [7][15] 动作流生成器工作流程 - 流程始于使用先进视频生成模型,根据初始场景RGB-D图像和文本指令生成一段任务教学视频 [9][12] - 通过单目视频深度估计算法将2D视频提升至3D空间,并利用第一帧真实深度图对估计深度进行校准,以解决系统性误差 [13] - 使用3D点追踪模型密集追踪场景运动,再通过开放词汇对象检测分割模型提取目标物体的运动轨迹,得到纯净的3D对象流 [14] - 为应对视频模型可能产生的“幻觉”,引入拒绝采样步骤,利用视觉语言模型评估并选择最合理的候选动作流 [14] 动作流执行器控制策略 - 针对刚性物体和铰接物体,通过分析动作流中关键点变化,计算物体在每个时间步的6D位姿,进而生成机械臂末端执行器的位姿序列和关节指令 [20] - 针对可变形物体,将3D动作流用作密集追踪目标,指导基于模型的规划器进行操作,通过粒子动力学模型预测形态变化并优化机器人动作以拟合理想状态 [20] 实验验证与性能表现 - 在Franka机械臂和波士顿动力Spot四足机器人上进行了广泛实验,任务涵盖刚性物体、铰接物体和可变形物体三大类 [16] - 实验结果显示,NovaFlow在所有零样本方法中表现最佳,其成功率甚至超过了使用10个和30个真实示教数据训练的模仿学习策略 [18][19] - 成功率的优势归因于其精确的3D动作表示,相比依赖2D光流的方法,具备更好的3D感知和长期一致性 [19] 挑战与未来方向 - 当前方法的主要局限性在于物理执行的“最后一公里”,如抓取失败或意外物理动态导致的执行偏差,暴露了开环规划系统的脆弱性 [23] - 未来的重要研究方向是开发闭环反馈系统,通过实时感知环境反馈来动态调整生成的动作流,以增强对现实世界不确定性和干扰的鲁棒性 [23]
机器人「看片」自学新技能:NovaFlow从生成视频中提取动作流,实现零样本操控
机器之心·2025-10-09 10:24