Workflow
任务感知视图规划(TAVP)
icon
搜索文档
学会see和act:机器人操作中的任务感知视角规划
具身智能之心· 2025-08-14 08:03
研究背景与动机 - 现有视觉-语言-动作模型依赖固定视角和共享视觉编码器 限制3D感知能力并引发任务干扰 影响鲁棒性和泛化性[2] - 固定视角在复杂场景中问题突出 在杂乱或动态环境中易导致目标物体被遮挡 使场景理解不完整[2] - 共享编码器处理视觉和语义差异大任务时会因任务干扰限制模型在多任务中的泛化性和扩展性[2] 核心方法框架 - 提出任务感知视图规划框架 整合主动视图规划与任务特定表征学习[3] - 框架包含TaskMoE模块和MVEP策略[3] TaskMoE模块设计 - 通过动态专家路由机制融合指令和场景线索引导专家选择 实现自适应任务敏感专家选择[10] - 采用解耦门控策略将路由门数量与任务总数解耦 促进语义相似任务参数共享同时隔离差异大任务[10] MVEP视角策略 - 选择能最大化捕获操作目标相关信息区域的K个视角 提升动作预测准确性[6] - 采用球坐标解耦相机位置和方向 每个相机姿态用5维向量表示[10] - 通过可微分采样将相机姿态参数建模为高斯分布样本[10] 训练策略 - 分三阶段训练:先训练固定视角变体 再优化MVEP 最后微调除MVEP外整个模型[7][8] - 损失函数包含粗/细接地模块热图交叉熵损失 末端执行器旋转损失及gripper状态二分类损失[7] - 引入伪环境交互机制减少物理交互成本 定义任务损失/置信度/多样性三个奖励项[8][11] 性能表现 - 在RLBench的18个任务中平均成功率86.7% 较基准ARP+的84.9%提升1.8个百分点[13][14] - 在易受遮挡任务中成功率提升达56% 简单任务中仍有4%提升[13] - 具体任务表现:插入钉子任务成功率96.0% vs ARP+的78.4% 放进橱柜任务76.0% vs 69.6%[14] 消融实验 - 移除TaskMoE后平均成功率从86.67%降至85.56%[15][18] - 用随机视角替代主动探索后成功率仅8.89%[15][18] 参数敏感性 - 视角数量K从2增至4时 平均成功率从27.2%提升至55.2%[16][17] - 径向约束在0.90-1.04m时平均成功率56.0% 优于基准范围0.75-1.3m的49.6%[17][19] 效率与泛化 - 推理延迟增加约10.7% 从0.394s增至0.436s 但平衡了性能与效率[20] - TaskMoE显著提升对未见任务泛化性 在打开抽屉任务中成功率12.0% vs 无模块的0[24] - 在已见任务中带TaskMoE平均成功率49.6% 是无模块24.0%的两倍多[24]