深大团队让机器人听懂指令精准导航！成功率可达72.5%，推理效率提升40%|AAAI2026

技术突破与核心架构 - 深圳大学李坚强教授团队联合北京理工莫斯科大学等机构提出视觉-语言导航新框架UNeMo 其核心突破在于构建了“多模态世界模型+分层预测反馈导航器”的双向协同架构将视觉状态推理与导航决策深度绑定从根本上解决现有方法的脱节问题 [1][5][20] - UNeMo通过多模态世界模型与分层预测反馈机制让导航智能体不仅能感知当前环境还能预测未来视觉状态并据此做出更聪明的决策 [3][18] - 多模态世界模型基于条件变分自编码器构建核心是精准预判未来视觉状态它通过跨注意力机制融合多模态信息且无需额外标注数据就能通过导航决策结果反向反馈持续优化预测精度形成自适应进化循环 [5][21] - 分层预测反馈导航器采用两阶段分层机制先基于当前特征生成粗粒度候选动作锁定方向再融合预测的未来视觉状态优化出细粒度动作修正偏差让智能体在复杂场景中稳健导航 [8][24] - 该框架构建了“推理-决策”相互赋能的闭环优化 MWM的视觉预判提升导航决策精准度导航的实际执行结果则实时反馈给MWM优化其预测准确性这种双向促进让智能体在导航中持续迭代 [10][26] 性能优势与实验验证 - 在VLN领域核心数据集R2R的实验中 UNeMo在轻量化配置与高性能决策的平衡上实现关键突破其采用的FlanT5-1.5B模型参数规模仅为主流方法NavGPT2所用FlanT5-5B的30% [11][27] - 在资源消耗上实现大幅优化训练时GPU显存占用从27GB降至12GB 减少56% 推理速度从每步1.1秒提升至0.7秒效率提升40% [11][27] - 在模型未见过的测试环境中其导航成功率（SR）达到72.5% 较NavGPT2的71%提升1.5个百分点路径效率（SPL）从60%提升至61.3% [12][28] - 在复杂的长路径导航场景中 UNeMo优势尤为突出短路径（长度<7）的导航成功率仅微增1.2%（从71.1%至72.3%）而长路径（长度≥7）的SR大幅提升5.6%（从64.2%至69.8%）提升幅度是短路径的4.7倍证明其能有效缓解长距离导航中的累积误差 [13][14][29][30] - 在跨场景可拓展性验证中团队将UNeMo迁移至不同类型的导航基线（DUET）与目标导向导航数据集REVERIE 实验结果显示其在unseen场景的导航成功率与远程目标定位成功率指标上均有提升验证了其强可拓展性 [15][31][32] 行业影响与落地前景 - UNeMo针对传统VLN方法推理与决策脱节、资源消耗高的问题以协同架构破解痛点其轻量化配置具备高性能、长路径导航稳健、跨场景适配性强的优势 [16][33] - 该研究为视觉-语言导航提供了高效可行的方案有助于推动服务机器人等实际场景的落地应用 [16][33] - 该论文已入选人工智能顶级会议AAAI 2026 显示了其学术价值与行业关注度 [3][18]