技术突破与核心架构 - 深圳大学李坚强教授团队联合北京理工莫斯科大学等机构提出视觉-语言导航新框架UNeMo 其核心突破在于构建了“多模态世界模型+分层预测反馈导航器”的双向协同架构 将视觉状态推理与导航决策深度绑定 从根本上解决现有方法的脱节问题 [1][5][20] - UNeMo通过多模态世界模型与分层预测反馈机制 让导航智能体不仅能感知当前环境 还能预测未来视觉状态 并据此做出更聪明的决策 [3][18] - 多模态世界模型基于条件变分自编码器构建 核心是精准预判未来视觉状态 它通过跨注意力机制融合多模态信息 且无需额外标注数据 就能通过导航决策结果反向反馈 持续优化预测精度 形成自适应进化循环 [5][21] - 分层预测反馈导航器采用两阶段分层机制 先基于当前特征生成粗粒度候选动作锁定方向 再融合预测的未来视觉状态优化出细粒度动作修正偏差 让智能体在复杂场景中稳健导航 [8][24] - 该框架构建了“推理-决策”相互赋能的闭环优化 MWM的视觉预判提升导航决策精准度 导航的实际执行结果则实时反馈给MWM优化其预测准确性 这种双向促进让智能体在导航中持续迭代 [10][26] 性能优势与实验验证 - 在VLN领域核心数据集R2R的实验中 UNeMo在轻量化配置与高性能决策的平衡上实现关键突破 其采用的FlanT5-1.5B模型参数规模仅为主流方法NavGPT2所用FlanT5-5B的30% [11][27] - 在资源消耗上实现大幅优化 训练时GPU显存占用从27GB降至12GB 减少56% 推理速度从每步1.1秒提升至0.7秒 效率提升40% [11][27] - 在模型未见过的测试环境中 其导航成功率(SR)达到72.5% 较NavGPT2的71%提升1.5个百分点 路径效率(SPL)从60%提升至61.3% [12][28] - 在复杂的长路径导航场景中 UNeMo优势尤为突出 短路径(长度<7)的导航成功率仅微增1.2%(从71.1%至72.3%) 而长路径(长度≥7)的SR大幅提升5.6%(从64.2%至69.8%) 提升幅度是短路径的4.7倍 证明其能有效缓解长距离导航中的累积误差 [13][14][29][30] - 在跨场景可拓展性验证中 团队将UNeMo迁移至不同类型的导航基线(DUET)与目标导向导航数据集REVERIE 实验结果显示其在unseen场景的导航成功率与远程目标定位成功率指标上均有提升 验证了其强可拓展性 [15][31][32] 行业影响与落地前景 - UNeMo针对传统VLN方法推理与决策脱节、资源消耗高的问题 以协同架构破解痛点 其轻量化配置具备高性能、长路径导航稳健、跨场景适配性强的优势 [16][33] - 该研究为视觉-语言导航提供了高效可行的方案 有助于推动服务机器人等实际场景的落地应用 [16][33] - 该论文已入选人工智能顶级会议AAAI 2026 显示了其学术价值与行业关注度 [3][18]
深大团队让机器人听懂指令精准导航!成功率可达72.5%,推理效率提升40%|AAAI2026