ODYSSEY框架核心创新 - 提出分层视觉-语言规划器 将基于自我中心感知的长期指令分解为可执行动作 弥合自我中心感知与语言任务间差距 [4] - 设计首个适用于复杂地形的四足机器人全身控制策略 协调运动和操作 实现从模拟到现实的有效迁移 [4] - 构建首个长期移动操作基准测试 覆盖广泛现实世界室内外场景 提供语义推理/任务规划/导航/操作能力全面测试平台 [4] - 实现模拟到现实迁移 现实部署展现强大泛化能力和鲁棒性 验证非结构化环境部署可行性 [4] 研究背景与动机 - 移动操作在动态非结构化环境中至关重要 需结合移动性/操作/实时感知实现复杂任务如微妙调整位置抓取物体 [5] - 现有研究局限:大型语言模型多局限于桌面场景 未解决移动平台感知受限和执行器范围有限问题 [5] - 开放世界环境中操作策略泛化能力不足 非结构化环境中高平台机动性与精确末端执行器控制的双重需求研究不足 [5] - 研究动机为解决上述局限 提出统一移动操作框架实现四足机器人开放世界长期任务执行 [5] 技术架构设计 - 全身控制策略定义为单一网络 将观测向量映射到目标动作 观测包括运动指令/末端执行器目标/局部地面高度图/重力向量等 [9] - 输出动作为默认关节配置偏移量 通过PD控制器转换为扭矩 [9] - 全局规划器融合RGB和LiDAR流构建空-语义表示 利用预训练基础模型映射实例图 [10] - GPT-4.1分解自然语言指令为原子动作 输出粗略目标航路点 投影到2D占用图生成无碰撞目标姿态 [10] - Qwen2.5-VL-72B-Instruct根据RGB观测推断任务相关接触点 投影到深度图像恢复3D位置 根据几何约束确定末端执行器朝向 [10] 训练方法 - 采用两阶段训练:第一阶段固定机械臂关节训练静态负载运动 引入步态奖励和频率奖励改善探索效率 [11] - 第二阶段控制所有18个关节 扩展奖励函数包括末端执行器跟踪项 采用地形不变采样策略提高交互精度 [11] - 全程运用领域随机化增强不同负载适应性 [11] 基准测试构建 - 资产库包含50个刚体物体/15个容器/30个关节结构/10个可拖动物体 [20] - 10个真实场景涵盖室内家居/超市/餐厅/室外庭院等 [20] - 从物体布局/物理属性/环境条件/地形复杂性四维度引入变化确保泛化能力 [20] - 多阶段任务套件包括短期操作技能和长期移动操作任务 长期任务由2-3个子目标组成 共246个室内和58个室外变化 [20] - 模块化评估协议同时评估整体任务成功率和每个动作成功率 [20] 性能评估结果 - 短期任务评估显示在所有数据集实现显著改进 仅依赖单个自我中心摄像头下优于PerAct的精细操作能力 [17] - 在未见数据集上性能保持稳定 PerAct性能急剧下降 表明具备处理未见物体配置的泛化能力 [17] - 长期任务评估涵盖8个移动操作任务 整体成功率均达40%以上 原子技能成功率保持60%以上 [19][29] - 导航成功率表现优异:室内导航成功率97.4%-98.4% 室外导航成功率95.6% [19] - 抓取成功率72.7%-85.0% 放置成功率76.5%-96.8% 推/拉操作成功率71.0%-94.1% [19] 模拟到现实迁移 - 使用Unitree Go2四足机器人和Arx5机械臂构建平台 配备MID-360 LiDAR定位和D435i/D405 RealSense相机 [36] - 现实世界测试两个长期任务("导航到抓取"和"抓取和放置") 使用五种不同物体 [36] - 成功实现任务规划和执行从模拟到现实的迁移 [37] - 存在模拟到现实差距:抓取小物体时因末端执行器跟踪和视觉感知不准确导致失败 [37] 未来发展方向 - 将基准测试扩展为全面评估范式 评估视觉-语言模型和移动操作器的跨体现语义推理和运动-操作协调能力 [38] - 探索主动感知新兴能力 使动态场景理解和自适应运动协同作用 实现更有效现实世界交互 [38] - 解决杂乱非结构化环境中新行为 进一步弥合高层规划和低层控制间差距 [38]
浙大具身智能VLN+VLA统一框架:ODYSSEY
具身智能之心·2025-08-25 08:04