Workflow
Zero-Shot Transfer
icon
搜索文档
VLFly:基于开放词汇目标理解的无人机视觉语言导航
具身智能之心· 2025-07-20 09:06
视觉语言导航框架VLFly - 提出针对无人机的视觉语言导航框架VLFly,实现开放词汇目标理解及零样本迁移,仅需自然语言指令和单目相机视觉信息即可导航 [8] - 框架由三大模块组成:自然语言理解、跨模态目标定位、可导航航点生成,有效弥合语义指令与连续控制命令的差距 [7][8] - 在模拟和真实环境中验证显示,VLFly在无人机VLN任务中泛化能力优于所有基线方法(成功率最高达86.4%)[8][14] 技术实现细节 - 指令编码模块使用LLaMA模型将指令转换为结构化文本提示(如"Goal Image: a photo of backpack")[11] - 目标检索模块通过CLIP模型计算文本-图像相似度,从预定义池中选择最相关目标图像(相似度分数公式见原文)[11] - 航点规划模块融合当前观测与目标图像特征,通过Transformer解码器生成未来航点轨迹(输出步数预测及相对航点)[11][12] 性能对比数据 - 在简单/中等/复杂场景中,VLFly成功率分别为86.4%/82.5%/77.3%,显著高于Seq2Seq(35.1%/21.2%/8.9%)和PPO(90.4%/11.8%/0%)[14] - 真实世界测试中,对直接指令成功率83%,间接指令70%,克服光照变化和背景杂乱等挑战 [16][18] - 导航误差(NE)在简单场景仅1.57米,优于Hybrid-APF(2.42米)和CMA(4.28米)[14] 与传统方法对比 - 传统SLAM/SfM方法无法处理高级语义意图 [9] - 端到端学习方法样本效率低且泛化能力受限 [9] - 现有VLN方法多针对地面机器人,假设离散动作空间,不适用于无人机连续控制 [9] 模块化设计优势验证 - 移除指令编码模块后间接指令性能显著下降 [20] - 替换为统一VLM模型(如BLIP)无法有效处理间接指令 [20] - 强化学习策略在未知环境中表现不佳,验证航点规划模块的泛化必要性 [20]