Workflow
目标导航
icon
搜索文档
哈工大提出UAV-ON:面向空中智能体的开放世界目标导航基准测试
具身智能之心· 2025-08-05 08:03
研究背景与动机 - 无人机在货物运输、紧急救援、环境监测等领域的应用日益广泛,随着智慧城市和低空空域管理的发展,无人机需要在复杂、动态的开放环境中实现自主导航 [2] - 现有研究多依赖视觉-语言导航(VLN)范式,这类方法需要详细的分步语言指令,限制了在开放世界中的可扩展性和自主性 [2] - 目标导航(ObjectNav)作为一种替代方案,要求智能体基于语义线索定位目标,无需密集的指令序列,但现有研究主要集中在地面室内场景,在大规模、非结构化的户外空中环境中仍未得到充分探索 [2] UAV-ON基准概述 - UAV-ON是首个针对无人机在开放世界中进行实例级目标导航的大规模基准 [4] - 包含14个基于Unreal Engine构建的高保真户外环境,覆盖城市、森林、山地、水域等多种场景,空间尺度从350×250到1400×1250单位不等,总水平面积约900万平方单位 [4] - 定义了1270个标注目标,每个目标对应一个实例级语义指令,包含类别、大致尺寸和自然语言描述,引入了现实中的歧义性和推理挑战 [4] 任务设置 - 无人机被随机放置在环境中,仅依靠前、左、右、下四个方向的RGB-D传感器获取的第一视角信息进行导航,需自主避障和路径规划,无全局地图或外部信息支持 [6] - 任务终止条件为:无人机发出停止指令、碰撞障碍物,或达到最大步数(150步);若停止时与目标距离≤20单位,则判定为成功 [6] 任务定义与仿真器设计 - 任务开始时,无人机的初始姿态为6自由度位姿,目标指令包含目标类别、尺寸和视觉描述,目标被限定在以起始位置为中心、半径50单位的水平范围内 [7] - 无人机配备四个同步RGB-D相机,分别朝向前后左右和下方,获取的RGB和深度图像记为和,所有视图分辨率和视场一致且时间同步 [9] - 采用参数化连续动作,包括平移(前进、左右移动、上升、下降)、旋转(左右旋转)和停止,每个动作对应连续的距离或角度参数 [9] 数据集与评估指标 - 训练集包含10个环境、10000个导航episode,任务数量根据环境空间大小和目标分布比例分配 [9] - 测试集包含1000个episode,覆盖10个训练环境和4个新环境,混合了熟悉场景、新场景及已知/未知目标类别 [9] - 采用四个经典导航指标:成功率(SR)、潜在成功率(OSR)、成功距离(DTS)、成功加权路径长度(SPL) [10] 基线方法与实验结果 - 实验实现了四种基线方法:随机策略(Random)、CLIP启发式探索(CLIP-H)、空中目标导航智能体(AOA) [13] - AOA-V(AOA Variable-step)OSR最高(26.30%),但SR(4.20%)和SPL(0.87%)较低,反映出LLM在同时处理语义理解、运动规划和终止控制时的注意力分散问题 [14] - AOA-F(AOA Fixed-step)SR(7.30%)和SPL(4.06%)更稳定,尤其在大型、视觉显著目标上表现较好 [16] - CLIP-H SPL较高(4.15%),但OSR(11.90%)和SR(6.20%)较低,说明其对语义目标的理解有限 [16] - 随机策略所有指标均最差(SR 3.70%,OSR 8.00%),验证了无目标导向的盲目探索无效性 [16] - 所有方法的碰撞率均超过30%(如AOA-F达65.5%),远高于实际应用的安全要求,凸显了当前导航策略在避障和鲁棒控制上的不足 [15]
大话一下!具身里面视觉语言导航和目标导航有什么区别?
具身智能之心· 2025-08-01 18:30
机器人导航技术演变 - 技术路线从传统建图定位导航发展到基于大模型方案的导航,后者分为视觉语言导航(VLN)和目标导航两类 [1] - VLN是"听懂指令走对路",目标导航是"看懂世界自己找路",代表从被动执行到主动探索的跃迁 [1][7] 视觉语言导航(VLN)技术架构 - 任务包含理解语言指令、感知环境、规划运动策略三方面,系统由视觉语言编码器、环境历史信息表征、动作策略模块构成 [2] - 主流范式采用预训练视觉语言模型,利用LLM进行指令拆解和任务拆分 [2] - 序列决策过程中,隐式端到端方法用隐变量累积历史信息,显式端到端方法采用拓扑图/BEV语义地图等建模环境 [4] - 策略网络学习从数据标注转向LLM先验知识蒸馏,数据增强是关键 [4] 目标导航技术特征 - 需在陌生环境中仅凭目标描述(坐标/图片/自然语言)自主完成探索与路径规划 [5] - 需实现语义解析(识别空间特征与视觉属性)、环境建模(构建空间拓扑)、动态决策(避障)等复合能力 [7] 商业落地现状 - 终端配送领域:美团无人车实现动态路径重规划,Starship Technologies在欧美高校社区部署配送机器人 [9] - 服务领域:嘉楠科技、云迹科技、擎朗智能的机器人实现药品/文件/餐食配送,美国Aethon公司TUG系列投入应用 [10] - 人形机器人领域:宇树科技Unitree通过Habitat预训练,智元机器人集成工业导航模块,特斯拉Optimus展示端到端操作能力 [10] 行业人才需求 - 导航技术被公认为具身智能最先落地的子领域,相关岗位年薪达七位数 [10] 技术学习挑战 - 需融合自然语言处理、计算机视觉、强化学习、图神经网络等多领域知识,存在知识碎片化与入门门槛高的问题 [11]
具身目标导航是怎么找到目标并导航的?
具身智能之心· 2025-07-13 12:13
机器人导航技术演进 - 技术路线从传统建图定位导航向基于大模型方案演变 分为视觉语言导航(VLN)和目标导航两类 [1] - VLN核心是"听懂指令走对路" 目标导航是"看懂世界自己找路" [1][6] 视觉语言导航(VLN)技术架构 - 任务包含三要素:理解语言指令 感知环境 规划运动策略 [2] - 系统由视觉语言编码器 环境历史信息表征 动作策略三大模块构成 [2] - 编码器采用预训练视觉语言模型 LLM用于指令拆解成为主流范式 [2] - 序列决策采用隐式端到端(隐变量表示)或显式端到端(拓扑图/BEV地图等)方法 [2] 目标导航技术突破 - 需在陌生环境中仅凭目标描述自主完成探索与路径规划 [4] - 实现从显式指令到自主决策跃迁 需融合语义解析 环境建模 动态决策能力 [6] - 关键技术包括端到端强化学习 模块化语义地图构建 LLM/VLM集成方法 [17] 商业应用现状 - 终端配送领域:美团无人车实现动态路径重规划 Starship园区配送机器人欧美落地 [8] - 服务场景:嘉楠科技 云迹科技 擎朗智能等公司实现药品/文件/餐食自主配送 [8] - 人形机器人领域:宇树科技Unitree 智元机器人 特斯拉Optimus集成导航模块 [8][9] 行业人才需求 - 导航技术被公认为具身智能最先落地的子领域 [9] - 具身公司为导航岗位开出七位数年薪 [9] 技术学习难点 - 需掌握NLP CV 强化学习 图神经网络等多领域知识 [10] - 知识碎片化严重 论文数量繁多导致入门困难 [10] 专业课程内容 - VLN课程覆盖仿真环境 基准测试 端到端方法 数据增强等模块 [13] - 目标导航课程包含语义框架 Habitat仿真 LLM/VLM系统等方向 [16] - 学习成果包括掌握3D仿真接口 复现主流框架 实现Sim2Real迁移等能力 [16][17]
机器人导航的2个模块:视觉语言导航和目标导航有什么区别?
具身智能之心· 2025-07-02 18:18
机器人导航技术演变 - 技术路线从传统建图定位导航向基于大模型方案演变 分为视觉语言导航(VLN)和目标导航两类 [1] - VLN核心是"听懂指令走对路" 目标导航核心是"看懂世界自己找路" [1][6] 视觉语言导航(VLN)技术架构 - 任务包含语言指令理解、环境感知、运动策略规划三方面 系统由视觉语言编码器、环境历史表征、动作策略模块构成 [2] - 编码器采用预训练视觉语言模型 LLM用于指令拆解和任务拆分是主流范式 [2] - 序列决策采用隐式端到端(隐变量表示)或显式端到端(拓扑图/BEV语义地图/神经辐射场建模)方法 [2] - 策略网络学习从标注数据提取模式转向LLM先验知识蒸馏 [3] 目标导航技术特征 - 需在陌生3D环境中仅凭目标描述自主完成探索与路径规划 [4] - 实现语义解析(识别空间特征与视觉属性)、环境建模(构建空间拓扑)、动态决策(避开障碍物)的交叉突破 [6] 商业落地应用 - 终端配送场景:美团无人车动态路径重规划 Starship园区配送机器人欧美落地 [8] - 医疗/酒店/餐饮场景:嘉楠科技、云迹科技、擎朗智能商用机器人实现药品/文件/餐食自主配送 美国Aethon公司TUG系列应用 [8] - 人形机器人领域:宇树科技Unitree通过Habitat预训练 智元工业场景集成导航模块 特斯拉Optimus展示端到端操作能力 [8][9] - 导航技术岗位需求旺盛 部分公司开出七位数年薪 [9] 技术学习挑战 - 需掌握自然语言处理、计算机视觉、强化学习、图神经网络等多领域知识 知识碎片化导致入门困难 [10] 相关培训课程内容 - VLN课程涵盖仿真环境、基准测试、端到端方法、数据增强策略等 目标导航课程包含语义框架、Habitat仿真、LLM/VLM驱动系统等 [13][16] - 学习成果包括掌握技术框架、3D仿真环境开发、零样本导航实现、Sim2Real部署等能力 [15][17]