人类感知的视觉语言导航(HA-VLN)

搜索文档
HA-VLN:具备动态多人互动的视觉语言导航基准与排行榜
具身智能之心· 2025-08-30 00:03
作者丨 Yifei Dong等 点击下方 卡片 ,关注" 具身智能之心 "公众号 动机 :传统VLN系统大多忽视了人类动态和部分可观测性,而现实世界中的导航场景往往涉及动态的人类活动,如人群移动、个人空间需求等。因此,提出了人类 感知的视觉语言导航(HA-VLN)任务,要求智能体在遵循自然语言指令的同时,能够应对动态的人类活动,预测人类运动,尊重个人空间,并调整路径以避免碰 撞。 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 主要贡献 研究背景 人类感知的视觉语言导航任务 任务动机与概述 编辑丨视觉语言导航 HAPS 2.0数据集 动机 :现有的模拟器要么忽视人类行为,要么将人类建模为静态障碍。HA-VLN模拟器通过在离散和连续的3D环境中放置多个动态移动的人类,解决了社会意识导 航中的长期挑战。它具有高保真度的运动、多人互动和现实世界的复杂性,如群体聚会、自发运动和个人空间限制。 概述 :HA-VLN模拟器基于HAPS 2.0数据集,利用486个运动序列,涵盖了室内和室外活动。它提供了两个互补模块 ...