Workflow
无人机目标导航
icon
搜索文档
哈工深提出UAV-ON:开放世界空中智能体目标导向导航基准测试
具身智能之心· 2025-08-19 09:54
研究背景 - 提出首个大规模开放世界环境中基于语义目标指令的无人机目标导航基准UAV-ON,定义超过11000个导航任务,涵盖14个高保真户外场景 [2] - 现有无人机导航研究多依赖视觉语言导航(VLN)范式,限制其在开放世界环境中的可扩展性和自主性 [2] - 目标导航(ObjectNav)仅基于语义线索定位目标物体,但在大规模非结构化户外环境中的空中导航潜力尚未充分探索 [2] 任务定义 - UAV-ON定义开放世界环境中的实例级目标导航任务,无人机需根据语义指令导航到目标物体 [5] - 任务要求无人机在复杂真实环境中执行离散参数化动作,处理障碍物规避和碰撞动力学等现实挑战 [2] 环境感知与动作空间 - 无人机配备多视角RGB-D相机(前方、左方、右方和下方),获取多模态观测,不依赖全局定位信号如GPS [7] - 动作空间采用参数化设计,包括平移(前进、左移、右移、上升、下降)、旋转(左转、右转)和停止 [7][14] - 动作物理执行并需通过碰撞检测,任何与障碍物接触视为失败 [14] UAV-ON基准 - 包含14个高保真户外环境,涵盖村庄、城镇、城市、公园等多样化景观 [12] - 目标物体放置采用基于提示的对象映射策略,利用大型语言模型生成候选物体并手动筛选 [12] - 场景水平尺度从350×250到1400×1250单位,共放置1270个目标物体,覆盖约900万平方单位区域 [15] 数据集分析 - 训练集使用10个环境生成10000个导航episode,测试集包含1000个episode分布在10个训练环境和4个额外环境 [15] - 评估指标包括成功率(SR)、Oracle成功率(OSR)、成功距离(DTS)和路径长度加权成功率(SPL) [15] 基线方法与实验结果 - 基线方法包括随机策略(Random)、基于CLIP的启发式探索(CLIP-H)和空中目标导航智能体(AOA) [15] - AOA-V在Oracle成功率(OSR)上表现最佳,但成功率(SR)和SPL较低 [16] - AOA-F在成功率(SR)和SPL上表现更一致,但探索范围略逊于AOA-V [17] - CLIP-H在SPL上表现较好,但对语义目标理解有限 [17] - 随机策略在所有指标上表现最差 [17] 终止行为与安全导航 - AOA-V探索能力强但停止动作不稳定,AOA-F运动和停止动作较平衡但接近障碍物时易失败 [20] - CLIP-H停止动作可靠性高但探索不够积极,随机策略无目标意图表现最差 [20] - 所有方法碰撞率超过30%,与现实世界无人机安全运行要求存在显著差距 [20] 结论与未来工作 - UAV-ON验证了语义推理、障碍物感知探索和目标定位的复合挑战 [24] - 需开发更安全可靠的控制策略以满足复杂环境中无人机自主运行需求 [24]