JanusVLN
搜索文档
最新SOTA!JanusVLN:双重隐式记忆解耦语义与空间,显著降低了计算与推理开销
具身智能之心· 2025-10-07 11:03
文章核心观点 - JanusVLN是一个创新的视觉-语言导航框架,其核心是双重隐式记忆范式,通过解耦语义与空间几何信息来解决现有方法的瓶颈[2] - 该框架仅需单目RGB视频流输入,无需昂贵传感器,即可实现强大的三维空间推理能力,并在权威基准测试中取得领先的性能[2][8] - 该方法标志着视觉-语言导航研究从“2D语义主导”迈向“3D空间与语义协同”的新阶段,为下一代具身智能体的开发指明了方向[19] 当前视觉-语言导航领域的技术瓶颈 - 现有方法依赖的显式记忆机制导致空间信息失真与丢失,难以精确编码连续的空间关系[3][5] - 存储历史图像帧的方法造成计算与推理效率低下,计算量随导航步数线性增长[5] - 无论是文本还是图像形式的显式记忆,其规模都会随导航轨迹延长而持续增长,引发“记忆爆炸”问题[5] JanusVLN的核心技术创新 - 提出双重隐式记忆,将记忆系统解耦为负责理解“是什么”的语义记忆和感知“在哪里”的空间几何记忆,均以神经网络键值缓存作为紧凑载体[7][8] - 集成预训练的3D视觉几何基础模型作为空间几何编码器,仅凭普通RGB视频流即可推断场景三维结构[8] - 采用混合增量更新策略,通过维护初始窗口和滑动窗口实现恒定大小的记忆,避免重复计算,大幅提升推理效率[8][11] 框架构成与工作原理 - 采用双编码器架构,2D视觉语义编码器提取高级语义特征,3D空间几何编码器提取蕴含三维结构的几何特征[11] - 将语义和空间几何编码器的注意力键值对缓存作为隐式记忆的载体,形成紧凑高效的双重记忆[11] - 缓存更新策略结合滑动窗口与初始窗口,滑动窗口确保对近期环境的敏锐感知,初始窗口作为“注意力接收器”提供全局上下文[11] 实验性能与结果 - 在VLN-CE R2R Val-Unseen数据集上,JanusVLN取得了导航误差4.78,成功率65.2,成功路径加权指标56.8的优异性能[13] - 在RxR Val-Unseen数据集上,JanusVLN的成功率达到56.2,成功路径加权指标47.5,标准化动态时间规整指标62.1[14] - 与依赖全景视图、深度图等多种昂贵输入的先进方法相比,JanusVLN仅凭单目RGB输入就在成功率指标上实现10.5-35.5个点的巨大提升[21] - 相较于同样使用RGB输入但采用显式记忆的先进方法,JanusVLN在成功率指标上取得3.6-10.8个点的提升,且使用更少的辅助训练数据[21]