Workflow
视觉语言导航
icon
搜索文档
具身目标导航/视觉语言导航/点导航工作汇总!
具身智能之心· 2025-08-12 15:04
点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 最近有同学向我们咨询了一些具身导航相关的工作,今天也为大家梳理一下这几年发展的路线和方法论, 建议收藏。更多内容欢迎加入国内首个具身智能全栈学习社区:具身智能之心知识星球! 点目标导航工作汇总 Comparison of Model-Free and Model-Based Learning-Informed Planning for PointGoal Navigation RobustNav: Towards Benchmarking Robustness in Embodied Navigation 会议/年份:CoRL, 2022 论文链接:https://openreview.net/pdf?id=2s92OhjT4L 代码:https://github.com/yimengli46/bellman_point_goal 项目链接:ht ...
大话一下!具身里面视觉语言导航和目标导航有什么区别?
具身智能之心· 2025-08-01 18:30
机器人导航技术演变 - 技术路线从传统建图定位导航发展到基于大模型方案的导航,后者分为视觉语言导航(VLN)和目标导航两类 [1] - VLN是"听懂指令走对路",目标导航是"看懂世界自己找路",代表从被动执行到主动探索的跃迁 [1][7] 视觉语言导航(VLN)技术架构 - 任务包含理解语言指令、感知环境、规划运动策略三方面,系统由视觉语言编码器、环境历史信息表征、动作策略模块构成 [2] - 主流范式采用预训练视觉语言模型,利用LLM进行指令拆解和任务拆分 [2] - 序列决策过程中,隐式端到端方法用隐变量累积历史信息,显式端到端方法采用拓扑图/BEV语义地图等建模环境 [4] - 策略网络学习从数据标注转向LLM先验知识蒸馏,数据增强是关键 [4] 目标导航技术特征 - 需在陌生环境中仅凭目标描述(坐标/图片/自然语言)自主完成探索与路径规划 [5] - 需实现语义解析(识别空间特征与视觉属性)、环境建模(构建空间拓扑)、动态决策(避障)等复合能力 [7] 商业落地现状 - 终端配送领域:美团无人车实现动态路径重规划,Starship Technologies在欧美高校社区部署配送机器人 [9] - 服务领域:嘉楠科技、云迹科技、擎朗智能的机器人实现药品/文件/餐食配送,美国Aethon公司TUG系列投入应用 [10] - 人形机器人领域:宇树科技Unitree通过Habitat预训练,智元机器人集成工业导航模块,特斯拉Optimus展示端到端操作能力 [10] 行业人才需求 - 导航技术被公认为具身智能最先落地的子领域,相关岗位年薪达七位数 [10] 技术学习挑战 - 需融合自然语言处理、计算机视觉、强化学习、图神经网络等多领域知识,存在知识碎片化与入门门槛高的问题 [11]
具身目标导航是怎么找到目标并导航的?
具身智能之心· 2025-07-13 12:13
机器人导航技术演进 - 技术路线从传统建图定位导航向基于大模型方案演变 分为视觉语言导航(VLN)和目标导航两类 [1] - VLN核心是"听懂指令走对路" 目标导航是"看懂世界自己找路" [1][6] 视觉语言导航(VLN)技术架构 - 任务包含三要素:理解语言指令 感知环境 规划运动策略 [2] - 系统由视觉语言编码器 环境历史信息表征 动作策略三大模块构成 [2] - 编码器采用预训练视觉语言模型 LLM用于指令拆解成为主流范式 [2] - 序列决策采用隐式端到端(隐变量表示)或显式端到端(拓扑图/BEV地图等)方法 [2] 目标导航技术突破 - 需在陌生环境中仅凭目标描述自主完成探索与路径规划 [4] - 实现从显式指令到自主决策跃迁 需融合语义解析 环境建模 动态决策能力 [6] - 关键技术包括端到端强化学习 模块化语义地图构建 LLM/VLM集成方法 [17] 商业应用现状 - 终端配送领域:美团无人车实现动态路径重规划 Starship园区配送机器人欧美落地 [8] - 服务场景:嘉楠科技 云迹科技 擎朗智能等公司实现药品/文件/餐食自主配送 [8] - 人形机器人领域:宇树科技Unitree 智元机器人 特斯拉Optimus集成导航模块 [8][9] 行业人才需求 - 导航技术被公认为具身智能最先落地的子领域 [9] - 具身公司为导航岗位开出七位数年薪 [9] 技术学习难点 - 需掌握NLP CV 强化学习 图神经网络等多领域知识 [10] - 知识碎片化严重 论文数量繁多导致入门困难 [10] 专业课程内容 - VLN课程覆盖仿真环境 基准测试 端到端方法 数据增强等模块 [13] - 目标导航课程包含语义框架 Habitat仿真 LLM/VLM系统等方向 [16] - 学习成果包括掌握3D仿真接口 复现主流框架 实现Sim2Real迁移等能力 [16][17]
传统导航和具身目标导航到底有啥区别?
具身智能之心· 2025-07-04 17:48
机器人导航技术演变 - 技术路线从传统建图定位导航向基于大模型方案演变,分为视觉语言导航(VLN)和目标导航两类 [1] - VLN核心是"听懂指令走对路",目标导航核心是"看懂世界自己找路" [1][6] 视觉语言导航(VLN)技术架构 - 任务包含理解语言指令、感知环境、规划运动策略三方面,系统由视觉语言编码器、环境历史表征、动作策略模块构成 [2] - 主流采用预训练视觉语言模型和LLM进行指令拆解,编码器设计需解决多模态表征空间投影问题 [2] - 序列决策通过隐式端到端(隐变量)或显式端到端(拓扑图/BEV语义地图)方法实现环境建模 [2] - 策略学习从标注数据转向LLM知识蒸馏,数据增强是关键 [3] 目标导航技术突破 - 需在陌生环境中仅凭目标描述自主完成探索与路径规划,涉及语义解析、环境建模、动态决策 [4][6] - 需整合计算机视觉、强化学习与3D语义理解技术,实现从被动执行到主动决策的跃迁 [6] 商业应用现状 - 美团无人配送车、Starship Technologies园区机器人实现动态环境配送 [8] - 嘉楠科技、云迹科技、擎朗智能的医疗/酒店机器人完成药品/餐食自主配送 [8] - 人形机器人领域:宇树科技Unitree系列、智元工业机器人、特斯拉Optimus集成目标导航模块 [8][9] - 导航技术岗位需求旺盛,部分公司开出七位数年薪 [9] 技术学习挑战 - 需掌握自然语言处理、计算机视觉、强化学习、图神经网络等多领域知识 [10] - 知识碎片化且论文数量庞大,跨领域学习路径困难 [10] 专业课程内容 - VLN课程覆盖仿真环境、端到端方法、数据增强策略及实战,培养1年从业经验 [13][15][16] - 目标导航课程包含Habitat仿真、LLM/VLM驱动系统、Sim2Real部署等,实现零样本导航能力 [16][17]
港大强化学习驱动连续环境具身导航方法:VLN-R1
具身智能之心· 2025-07-04 17:48
研究背景 - 视觉语言导航(VLN)是具身人工智能的核心挑战,要求智能体理解自然语言指令并在三维环境中导航,需要实时决策能力以适应变化的环境 [5] - 现有方法通常依赖离散拓扑图进行路径规划,限制了智能体在未见或连续环境中的泛化能力,且需要额外传感器信息如深度图和导航图 [5] - 部分方法使用大型语言模型(LLM)但仍受限于预定义导航图,无法实现真正的具身导航 [6] VLN-R1框架创新 - 提出VLN-R1框架利用大型视觉语言模型(LVLM)处理第一视角视频流,实现连续环境中的视觉语言导航,相比基于离散导航图的方法更接近真实世界场景 [5] - 构建VLN-Ego数据集基于Habitat模拟器生成,包含第一视角视频流及对应未来动作预测,为LVLM训练提供丰富视觉和语言信息 [5] - 采用两阶段训练方法:先通过监督微调(SFT)使模型动作序列预测与专家演示对齐,再利用强化微调(RFT)进一步优化模型 [5] 数据集构建 - 数据来源于Habitat模拟器中的Matterport3D场景(90个场景分训练/验证/测试集) [6] - 每条样本包含三部分:自然语言导航指令、历史帧(Long-Short Memory采样)+当前帧、未来6步动作序列 [6] - 采用长短期记忆采样策略平衡近期细节与长期上下文,短期部分高密度采样,长期部分低密度采样 [6] 训练方法 - 监督微调将导航任务形式化为序列预测问题,使用交叉熵损失对预测动作编号与描述进行监督训练 [8] - 强化学习微调引入GRPO策略优化通过相对奖励对生成结果排序,提升高质量策略 [9] - 设计TDR机制在奖励函数中优先强化前期正确决策,提升整体导航成功率 [9] 实验结果 - R2R任务中VLN-R1在无深度图、地图等条件下实现SR=30.2(7B模型),显著超过传统模型 [11] - RxR任务中仅使用10K样本RFT即优于完全监督模型,体现强跨域适应能力 [12] - 2B模型经RFT后可达7B模型的SFT性能,说明RFT能有效提升小模型性能 [12] 消融实验 - 预测未来6个动作的设置能取得最佳性能,仅预测单个动作会导致性能显著下降 [14] - 长短期记忆采样策略在帧选择方面表现最佳,能有效平衡当前观察与历史上下文 [16] - RFT阶段8次生成能使模型达到收敛,TDR机制在奖励函数中表现最为有效 [16] 未来方向 - 需验证VLN-R1在现实世界中的泛化能力 [16] - 可探索在更复杂现实环境中评估及扩展动作空间实现更精细导航控制 [16] - 可研究将该方法应用于其他具身AI任务如具身问答(EQA)等 [16]
机器人导航的2个模块:视觉语言导航和目标导航有什么区别?
具身智能之心· 2025-07-02 18:18
机器人导航技术演变 - 技术路线从传统建图定位导航向基于大模型方案演变 分为视觉语言导航(VLN)和目标导航两类 [1] - VLN核心是"听懂指令走对路" 目标导航核心是"看懂世界自己找路" [1][6] 视觉语言导航(VLN)技术架构 - 任务包含语言指令理解、环境感知、运动策略规划三方面 系统由视觉语言编码器、环境历史表征、动作策略模块构成 [2] - 编码器采用预训练视觉语言模型 LLM用于指令拆解和任务拆分是主流范式 [2] - 序列决策采用隐式端到端(隐变量表示)或显式端到端(拓扑图/BEV语义地图/神经辐射场建模)方法 [2] - 策略网络学习从标注数据提取模式转向LLM先验知识蒸馏 [3] 目标导航技术特征 - 需在陌生3D环境中仅凭目标描述自主完成探索与路径规划 [4] - 实现语义解析(识别空间特征与视觉属性)、环境建模(构建空间拓扑)、动态决策(避开障碍物)的交叉突破 [6] 商业落地应用 - 终端配送场景:美团无人车动态路径重规划 Starship园区配送机器人欧美落地 [8] - 医疗/酒店/餐饮场景:嘉楠科技、云迹科技、擎朗智能商用机器人实现药品/文件/餐食自主配送 美国Aethon公司TUG系列应用 [8] - 人形机器人领域:宇树科技Unitree通过Habitat预训练 智元工业场景集成导航模块 特斯拉Optimus展示端到端操作能力 [8][9] - 导航技术岗位需求旺盛 部分公司开出七位数年薪 [9] 技术学习挑战 - 需掌握自然语言处理、计算机视觉、强化学习、图神经网络等多领域知识 知识碎片化导致入门困难 [10] 相关培训课程内容 - VLN课程涵盖仿真环境、基准测试、端到端方法、数据增强策略等 目标导航课程包含语义框架、Habitat仿真、LLM/VLM驱动系统等 [13][16] - 学习成果包括掌握技术框架、3D仿真环境开发、零样本导航实现、Sim2Real部署等能力 [15][17]
第一篇具身领域论文应该怎么展开?
具身智能之心· 2025-06-27 17:41
论文辅导服务 - 提供前沿论文辅导服务 覆盖多模态大模型 视觉语言动作 视觉语言导航 机器人抓取与导航 具身智能体泛化 3D高斯泼溅 端到端具身智能体 具身合成数据生成等领域 [2][3] - 服务范围包括CCF-A到CCF-C SCI一区到四区 EI 中文核心 毕业论文 申博等 [2] - 提供1V1定制化辅导 从选题创新点挖掘 实验设计 代码调试 论文写作到投稿策略全流程闭环辅导 [4] 导师团队 - 导师团队来自CMU Stanford MIT等名校的PhD及大厂研究员 具有ICRA NeurIPS CVPR等顶级会议审稿经验 [4] - 提供工业界和学术界双视角辅导 不仅关注论文发表 更关注落地价值 如机器人抓取鲁棒性 导航实时性优化等 [4] 优惠活动 - 前50名咨询的同学可免费匹配专属导师 进行深度Meeting 根据研究方向 学术基础 提供会议 期刊选投建议 [5]