研究背景与问题 - 当前主流机器人视觉-语言-动作模型依赖单一或固定视角观测与共享视觉编码器,在复杂多任务操控场景中存在3D感知不完整和任务干扰严重两大核心挑战[3][5] - 固定视角易导致目标物体或机械臂末端被遮挡,造成场景理解缺失与动作预测失误,例如“将糖放入橱柜”任务中前视摄像头仅能捕捉橱柜而肩视摄像头仅能看到糖[7] - 共享编码器在处理视觉与语义差异大的任务时特征会相互纠缠,限制模型在多任务场景下的泛化能力与扩展性[7] 核心技术创新 - 提出Task-Aware View Planning框架,通过多视角探索策略动态选择最优虚拟摄像头位姿并进行重渲染,采用“Look-at模型”将摄像头位姿表示为5维向量确保视角可解释与优化[9][11] - 任务感知混合专家编码器通过跨模态专家路由融合语言指令与场景视觉信息,动态选择适配当前任务的专家编码器,并设置8个门控对应18项任务实现参数复用[12] - 采用三阶段训练策略:先进行固定视角预训练,再通过PPO算法训练视角探索策略,最后微调任务感知编码器与动作预测网络实现端到端协同[20] 实验性能表现 - 在RLBench基准测试的18项操控任务中平均成功率达到86.6%,超越RVT2的81.4%和ARP+的84.9%等固定视角基线模型[14] - 消融实验表明移除任务感知编码器后平均成功率降至85.6%,而用随机视角替代动态探索后性能骤降至8.9%,证明核心模块不可或缺[15][21] - 在未训练的“打开抽屉”任务中实现12.0%的zero-shot成功率,而无任务感知编码器的模型成功率为0,显示其知识迁移能力[16][22] 泛化能力与效率 - 真实世界鲁棒性测试显示在未知背景和物体场景下成功率分别达到90.0%,远高于Diffusion Policy的70.0%和60.0%[18][19] - 尽管动态视角重渲染增加计算成本,但平均推理时间仅0.436秒,较ARP+的0.394秒仅增加10.7%,通过采样加速与摄像头缓存实现性能平衡[22] - 在真实机器人平台Dobot Nova2上执行“堆叠碗碟”等任务时成功率显著超越Diffusion Policy,证明其在真实场景的适配性[23] 行业应用前景 - 该框架为家庭服务机器人和工业协作机器人等复杂场景应用提供技术支撑,首次实现“任务引导视角选择”与“视角适配动作预测”的协同优化[25] - 未来将优化反光或透明物体对点云重建的影响,并探索多传感器融合进一步扩展机器人操控的任务边界[25]
突破机器人空间感知瓶颈!中山大学与拓元智慧团队提出TAVP框架
 具身智能之心·2025-10-29 08:03
