Workflow
机器人操作
icon
搜索文档
学会see和act:机器人操作中的任务感知视角规划
具身智能之心· 2025-08-14 08:03
研究背景与动机 - 现有视觉-语言-动作模型依赖固定视角和共享视觉编码器 限制3D感知能力并引发任务干扰 影响鲁棒性和泛化性[2] - 固定视角在复杂场景中问题突出 在杂乱或动态环境中易导致目标物体被遮挡 使场景理解不完整[2] - 共享编码器处理视觉和语义差异大任务时会因任务干扰限制模型在多任务中的泛化性和扩展性[2] 核心方法框架 - 提出任务感知视图规划框架 整合主动视图规划与任务特定表征学习[3] - 框架包含TaskMoE模块和MVEP策略[3] TaskMoE模块设计 - 通过动态专家路由机制融合指令和场景线索引导专家选择 实现自适应任务敏感专家选择[10] - 采用解耦门控策略将路由门数量与任务总数解耦 促进语义相似任务参数共享同时隔离差异大任务[10] MVEP视角策略 - 选择能最大化捕获操作目标相关信息区域的K个视角 提升动作预测准确性[6] - 采用球坐标解耦相机位置和方向 每个相机姿态用5维向量表示[10] - 通过可微分采样将相机姿态参数建模为高斯分布样本[10] 训练策略 - 分三阶段训练:先训练固定视角变体 再优化MVEP 最后微调除MVEP外整个模型[7][8] - 损失函数包含粗/细接地模块热图交叉熵损失 末端执行器旋转损失及gripper状态二分类损失[7] - 引入伪环境交互机制减少物理交互成本 定义任务损失/置信度/多样性三个奖励项[8][11] 性能表现 - 在RLBench的18个任务中平均成功率86.7% 较基准ARP+的84.9%提升1.8个百分点[13][14] - 在易受遮挡任务中成功率提升达56% 简单任务中仍有4%提升[13] - 具体任务表现:插入钉子任务成功率96.0% vs ARP+的78.4% 放进橱柜任务76.0% vs 69.6%[14] 消融实验 - 移除TaskMoE后平均成功率从86.67%降至85.56%[15][18] - 用随机视角替代主动探索后成功率仅8.89%[15][18] 参数敏感性 - 视角数量K从2增至4时 平均成功率从27.2%提升至55.2%[16][17] - 径向约束在0.90-1.04m时平均成功率56.0% 优于基准范围0.75-1.3m的49.6%[17][19] 效率与泛化 - 推理延迟增加约10.7% 从0.394s增至0.436s 但平衡了性能与效率[20] - TaskMoE显著提升对未见任务泛化性 在打开抽屉任务中成功率12.0% vs 无模块的0[24] - 在已见任务中带TaskMoE平均成功率49.6% 是无模块24.0%的两倍多[24]
VLA之外,具身+VA工作汇总
具身智能之心· 2025-07-14 10:21
具身智能领域研究进展 2025年核心研究方向 - 扩散策略优化:多篇研究聚焦扩散策略在机器人操作中的应用,包括Latent Space强化学习[2]、流轨迹简化处理[2]、推理时模态组合[2]以及接触式操作的慢快策略学习[2] - 多模态融合:涉及视觉-触觉策略[3][5]、雷达-相机融合抓取[3]、跨模态表示学习[7][9]以及视觉-语言模型课程设计[3] - 通用化策略开发:包括跨机械臂适配的抓取策略[3]、零样本仿真到现实迁移[3][6]、物体中心表示法[7]以及大规模仿真训练[3][6] 技术方法创新 - 模仿学习革新:提出无机器人的人类视频训练[4]、单次演示学习[2][5]、演示数据生成[3]以及去噪加速策略[5][8] - 世界模型构建:Robotic World Model强调神经模拟器优化[2],LaDi-WM利用潜在扩散进行预测操作[7],Unified World Models耦合视频与动作扩散[6] - 高效策略架构:包括混合专家去噪器[6]、一致性蒸馏[8][9]、稀疏可重用策略[8]以及十亿参数级Transformer扩展[11] 应用场景突破 - 灵巧操作:涵盖双手协调策略[2][5]、非抓取式操作[5]、透明物体抓取[3]以及不规则物体追踪[4] - 跨领域迁移:研究分割掩码跨载体迁移[4]、人类视频到机器人动作转换[3][5]以及跨形态技能表示[6] - 实时控制优化:开发高频重规划策略[3]、事件相机驱动跑酷[5]以及流匹配快速策略[6][7] 数据集与训练范式 - 超大规模训练:Dex1B项目使用10亿演示数据训练灵巧操作[9],DataMIL研究数据选择对模仿学习影响[6] - 仿真-现实协同:Sim-and-Real联合训练方法在平面推动[5]和操作策略[5][6]中验证有效性 - 新兴训练技术:包括无数据模仿学习[5]、强化与模仿学习交错[5]以及人类视频预训练[7][11]