图像目标导航

搜索文档
图像目标导航的核心究竟是什么?
具身智能之心· 2025-07-04 20:07
研究背景与核心问题 - 图像目标导航需要两种关键能力:核心导航技能(如检测自由空间、障碍物)和通过比较视觉观察与目标图像计算方向信息 [2] - 当前主流方法依赖专门的图像匹配或预训练计算机视觉模块进行相对位姿估计 [2] - 研究聚焦于是否可以通过强化学习对完整智能体进行端到端训练来解决该任务 [2] 核心研究内容与方法 - 探讨了多种架构设计对任务性能的影响,核心在于如何支持图像间的隐式对应计算 [3] - 主要架构包括Late Fusion、ChannelCat、SpaceToDepth + ChannelCat、Cross-attention [4] - 实验设计使用Habitat模拟器和Gibson数据集,动作空间包括前进、左右转向和停止 [7] - 评估指标包括成功率(SR)和SPL(成功路径长度与最优路径长度的比值) [7] 主要发现 - 早期patch级融合(如ChannelCat、Cross-attention)比晚期融合(Late Fusion)更关键,能更好支持隐式对应计算 [8] - ChannelCat(ResNet9)在Sliding=True时SR达83.6%,远高于Late Fusion的13.8% [6] - Cross-attention(DEBiT-b)在Sliding=True时SR达90.5% [6] - 低容量架构(如ResNet9)在Sliding=False时SR从83.6%降至31.7%,而DEBiT受影响较小(从90.5%降至81.7%) [8][9] - 能力迁移性:将Sliding=True训练的感知模块权重迁移到Sliding=False并微调后,SR从31.7%提升至38.5% [10][11] 导航与相对位姿估计的关联 - 导航性能与相对位姿估计性能存在相关性,DEBiT在两者上均表现最优 [12] - 导航成功率(SR)与相对位姿估计精度(误差<2m, 20°)呈正相关 [12] 结论 - 支持早期局部融合(如交叉注意力、ChannelCat)的结构对任务成功至关重要 [15] - 模拟器的Sliding设置显著影响性能,但通过迁移感知模块权重可部分迁移至真实环境 [15] - 导航性能与相对位姿估计能力相关,验证了方向信息提取的核心作用 [15] - 简单低容量架构仅通过RL训练难以成功解决图像目标导航,预训练仍不可或缺 [15]
重塑具身导航策略!RSRNav:基于空间关系推理的图像目标导航
具身智能之心· 2025-07-02 18:18
研究背景 - 视觉导航是具身智能中的重要研究领域,要求智能体在不熟悉的环境中导航以到达特定目标,图像目标导航(ImageNav)任务在家庭机器人、增强现实系统和视觉障碍人士辅助等领域有潜在应用 [5] - 现有ImageNav方法分为模块化方法和端到端方法,模块化方法将任务分解为多个独立子任务,端到端方法直接从数据中学习感知-动作策略 [5] - 现有方法在导航效率和鲁棒性方面仍面临挑战,语义特征向量无法提供目标方位信息,可能导致多余动作影响效率,且用户与智能体视角不一致会导致性能下降 [5] 研究方法 - 提出RSRNav方法,通过在导航过程中持续推理目标与当前观测之间的空间关系来引导导航动作,解决现有方法导航效率低下和对视角不一致敏感的问题 [5] - 通过计算目标图像与当前观测图像特征之间的相关性来建模空间关系,设计了从"极简关系"到"方向感知关系"三种逐步增强的关系建模版本 [5] - 使用强化学习训练导航策略,奖励信号由两个子奖励函数组成,分别指导智能体学习接近目标和调整角度 [13] 技术实现 - 采用简单ResNet-9网络对目标图像和当前图像进行编码,不进行任何预训练 [8] - 逐步强化相关性计算,从极简关系(两个相关性分数)到密集关系(全局相似性矩阵)再到方向感知关系(多尺度相关性向量) [12][13] - 使用PPO算法进行端到端训练,策略网络设置为2层GRU,嵌入大小为128,在4×3090 GPUs上训练400M步 [19] 实验结果 - 在"用户匹配目标"设置下,RSRNav的SPL为56.6%,SR为83.2%,显著优于其他方法 [20] - 在Gibson数据集上,"极简关系"SPL为16.1%,"密集关系"SPL为53.2%,"方向感知关系"SPL提高到61.2% [22] - 在更极端的目标相机设置下(高度、俯仰角和视场角变化更大),RSRNav仍表现出色,SPL为22.8%,SR为40.2% [23] 应用潜力 - RSRNav在跨域泛化方面表现优异,在MP3D和HM3D数据集上均取得最佳性能,显示出处理视角不一致和泛化到新场景的强能力 [20] - 方法具有最小参数数量,在保持高性能的同时更适合实际应用 [22] - 可视化显示RSRNav导航路径更直接,能更精确调整角度对准目标 [23]