研究背景 - 视觉导航是具身智能中的重要研究领域,要求智能体在不熟悉的环境中导航以到达特定目标,图像目标导航(ImageNav)任务在家庭机器人、增强现实系统和视觉障碍人士辅助等领域有潜在应用 [5] - 现有ImageNav方法分为模块化方法和端到端方法,模块化方法将任务分解为多个独立子任务,端到端方法直接从数据中学习感知-动作策略 [5] - 现有方法在导航效率和鲁棒性方面仍面临挑战,语义特征向量无法提供目标方位信息,可能导致多余动作影响效率,且用户与智能体视角不一致会导致性能下降 [5] 研究方法 - 提出RSRNav方法,通过在导航过程中持续推理目标与当前观测之间的空间关系来引导导航动作,解决现有方法导航效率低下和对视角不一致敏感的问题 [5] - 通过计算目标图像与当前观测图像特征之间的相关性来建模空间关系,设计了从"极简关系"到"方向感知关系"三种逐步增强的关系建模版本 [5] - 使用强化学习训练导航策略,奖励信号由两个子奖励函数组成,分别指导智能体学习接近目标和调整角度 [13] 技术实现 - 采用简单ResNet-9网络对目标图像和当前图像进行编码,不进行任何预训练 [8] - 逐步强化相关性计算,从极简关系(两个相关性分数)到密集关系(全局相似性矩阵)再到方向感知关系(多尺度相关性向量) [12][13] - 使用PPO算法进行端到端训练,策略网络设置为2层GRU,嵌入大小为128,在4×3090 GPUs上训练400M步 [19] 实验结果 - 在"用户匹配目标"设置下,RSRNav的SPL为56.6%,SR为83.2%,显著优于其他方法 [20] - 在Gibson数据集上,"极简关系"SPL为16.1%,"密集关系"SPL为53.2%,"方向感知关系"SPL提高到61.2% [22] - 在更极端的目标相机设置下(高度、俯仰角和视场角变化更大),RSRNav仍表现出色,SPL为22.8%,SR为40.2% [23] 应用潜力 - RSRNav在跨域泛化方面表现优异,在MP3D和HM3D数据集上均取得最佳性能,显示出处理视角不一致和泛化到新场景的强能力 [20] - 方法具有最小参数数量,在保持高性能的同时更适合实际应用 [22] - 可视化显示RSRNav导航路径更直接,能更精确调整角度对准目标 [23]
重塑具身导航策略!RSRNav:基于空间关系推理的图像目标导航
具身智能之心·2025-07-02 18:18