Workflow
大话一下!具身里面视觉语言导航和目标导航有什么区别?
具身智能之心·2025-08-01 18:30

机器人导航技术演变 - 技术路线从传统建图定位导航发展到基于大模型方案的导航,后者分为视觉语言导航(VLN)和目标导航两类 [1] - VLN是"听懂指令走对路",目标导航是"看懂世界自己找路",代表从被动执行到主动探索的跃迁 [1][7] 视觉语言导航(VLN)技术架构 - 任务包含理解语言指令、感知环境、规划运动策略三方面,系统由视觉语言编码器、环境历史信息表征、动作策略模块构成 [2] - 主流范式采用预训练视觉语言模型,利用LLM进行指令拆解和任务拆分 [2] - 序列决策过程中,隐式端到端方法用隐变量累积历史信息,显式端到端方法采用拓扑图/BEV语义地图等建模环境 [4] - 策略网络学习从数据标注转向LLM先验知识蒸馏,数据增强是关键 [4] 目标导航技术特征 - 需在陌生环境中仅凭目标描述(坐标/图片/自然语言)自主完成探索与路径规划 [5] - 需实现语义解析(识别空间特征与视觉属性)、环境建模(构建空间拓扑)、动态决策(避障)等复合能力 [7] 商业落地现状 - 终端配送领域:美团无人车实现动态路径重规划,Starship Technologies在欧美高校社区部署配送机器人 [9] - 服务领域:嘉楠科技、云迹科技、擎朗智能的机器人实现药品/文件/餐食配送,美国Aethon公司TUG系列投入应用 [10] - 人形机器人领域:宇树科技Unitree通过Habitat预训练,智元机器人集成工业导航模块,特斯拉Optimus展示端到端操作能力 [10] 行业人才需求 - 导航技术被公认为具身智能最先落地的子领域,相关岗位年薪达七位数 [10] 技术学习挑战 - 需融合自然语言处理、计算机视觉、强化学习、图神经网络等多领域知识,存在知识碎片化与入门门槛高的问题 [11]