Workflow
哈工大提出UAV-ON:面向空中智能体的开放世界目标导航基准测试
具身智能之心·2025-08-05 08:03

研究背景与动机 - 无人机在货物运输、紧急救援、环境监测等领域的应用日益广泛,随着智慧城市和低空空域管理的发展,无人机需要在复杂、动态的开放环境中实现自主导航 [2] - 现有研究多依赖视觉-语言导航(VLN)范式,这类方法需要详细的分步语言指令,限制了在开放世界中的可扩展性和自主性 [2] - 目标导航(ObjectNav)作为一种替代方案,要求智能体基于语义线索定位目标,无需密集的指令序列,但现有研究主要集中在地面室内场景,在大规模、非结构化的户外空中环境中仍未得到充分探索 [2] UAV-ON基准概述 - UAV-ON是首个针对无人机在开放世界中进行实例级目标导航的大规模基准 [4] - 包含14个基于Unreal Engine构建的高保真户外环境,覆盖城市、森林、山地、水域等多种场景,空间尺度从350×250到1400×1250单位不等,总水平面积约900万平方单位 [4] - 定义了1270个标注目标,每个目标对应一个实例级语义指令,包含类别、大致尺寸和自然语言描述,引入了现实中的歧义性和推理挑战 [4] 任务设置 - 无人机被随机放置在环境中,仅依靠前、左、右、下四个方向的RGB-D传感器获取的第一视角信息进行导航,需自主避障和路径规划,无全局地图或外部信息支持 [6] - 任务终止条件为:无人机发出停止指令、碰撞障碍物,或达到最大步数(150步);若停止时与目标距离≤20单位,则判定为成功 [6] 任务定义与仿真器设计 - 任务开始时,无人机的初始姿态为6自由度位姿,目标指令包含目标类别、尺寸和视觉描述,目标被限定在以起始位置为中心、半径50单位的水平范围内 [7] - 无人机配备四个同步RGB-D相机,分别朝向前后左右和下方,获取的RGB和深度图像记为和,所有视图分辨率和视场一致且时间同步 [9] - 采用参数化连续动作,包括平移(前进、左右移动、上升、下降)、旋转(左右旋转)和停止,每个动作对应连续的距离或角度参数 [9] 数据集与评估指标 - 训练集包含10个环境、10000个导航episode,任务数量根据环境空间大小和目标分布比例分配 [9] - 测试集包含1000个episode,覆盖10个训练环境和4个新环境,混合了熟悉场景、新场景及已知/未知目标类别 [9] - 采用四个经典导航指标:成功率(SR)、潜在成功率(OSR)、成功距离(DTS)、成功加权路径长度(SPL) [10] 基线方法与实验结果 - 实验实现了四种基线方法:随机策略(Random)、CLIP启发式探索(CLIP-H)、空中目标导航智能体(AOA) [13] - AOA-V(AOA Variable-step)OSR最高(26.30%),但SR(4.20%)和SPL(0.87%)较低,反映出LLM在同时处理语义理解、运动规划和终止控制时的注意力分散问题 [14] - AOA-F(AOA Fixed-step)SR(7.30%)和SPL(4.06%)更稳定,尤其在大型、视觉显著目标上表现较好 [16] - CLIP-H SPL较高(4.15%),但OSR(11.90%)和SR(6.20%)较低,说明其对语义目标的理解有限 [16] - 随机策略所有指标均最差(SR 3.70%,OSR 8.00%),验证了无目标导向的盲目探索无效性 [16] - 所有方法的碰撞率均超过30%(如AOA-F达65.5%),远高于实际应用的安全要求,凸显了当前导航策略在避障和鲁棒控制上的不足 [15]