视觉 - 语言导航 - 财报，业绩电话会，研报，新闻

视觉 - 语言导航

搜索文档

具身智能之心· 2025-12-11 10:01

文章核心观点 - 深圳大学李坚强教授团队联合北京理工莫斯科大学等机构提出了一种名为UNeMo的新型视觉-语言导航框架，该框架通过构建“多模态世界模型”与“分层预测反馈导航器”的双向协同架构，解决了现有方法中推理与决策脱节、资源消耗高的关键瓶颈，在导航成功率、效率和长轨迹鲁棒性方面均实现了显著提升，为服务机器人等实际场景落地提供了高效方案 [1][3][4][10][33] 技术架构与核心突破 - **核心架构**：UNeMo框架的核心是“多模态世界模型”与“分层预测反馈导航器”的双向协同架构，将视觉状态推理与导航决策深度绑定 [10] - **多模态世界模型**：基于条件变分自编码器构建，能够接收当前视觉特征、语言指令与候选导航动作，通过跨注意力机制融合多模态信息，预测未来视觉状态，无需额外标注数据即可通过导航结果反馈持续优化 [11][12][13] - **分层预测反馈导航器**：采用两阶段分层机制，首先生成粗粒度候选动作锁定方向，再融合预测的未来视觉状态优化出细粒度动作以修正偏差，提升复杂场景下的导航稳健性 [16] - **动态闭环优化**：框架构建了“推理-决策”相互赋能的闭环，世界模型的视觉预判提升决策精准度，导航执行结果实时反馈优化模型预测准确性，实现持续迭代 [18][19][20] 性能表现与效率优势 - **资源消耗大幅降低**：UNeMo采用FlanT5-1.5B模型，参数规模仅为对比方法NavGPT2所用FlanT5-5B模型的30%，训练时GPU显存占用从27GB降至12GB，减少56%，推理速度从每步1.1秒提升至0.7秒，效率提升40% [23][24] - **核心性能指标领先**：在R2R数据集未见过的测试环境中，UNeMo的导航成功率达到72.5%，较NavGPT2的71%提升1.5个百分点，路径效率从60%提升至61.3% [25][26] - **长轨迹导航优势突出**：在长路径导航任务中表现尤为突出，对于路径长度≥7的长轨迹，导航成功率大幅提升5.6%，提升幅度是短路径的4.7倍，有效缓解了长距离导航中的累积误差 [27][28][29] 通用性与可拓展性验证 - **跨基线验证**：团队将UNeMo架构迁移至DUET等不同类型的导航基线进行验证，证明了其协同训练架构并非局限于LLM-based基线，能灵活适配不同类型的导航系统 [30][32] - **跨数据集验证**：在目标导向导航数据集REVERIE上的实验显示，UNeMo在未见过的场景中的导航成功率与远程目标定位成功率指标上均有提升，验证了其强可拓展性 [31][32]