深大团队让机器人听懂指令精准导航,成功率可达72.5%,推理效率提升40%
机器人机器人(SZ:300024) 36氪·2025-12-10 15:00

行业技术突破 - 深圳大学李坚强教授团队联合北京理工莫斯科大学等机构,提出了视觉-语言导航新框架UNeMo,其核心是构建了“多模态世界模型+分层预测反馈导航器”的双向协同架构,旨在解决现有方法中视觉状态推理与导航决策脱节的问题 [1][6] - 该框架通过多模态世界模型预测未来视觉状态,并结合分层预测反馈导航器进行决策,形成了“推理-决策”相互赋能的动态闭环优化,使智能体能在复杂环境中持续迭代并做出更聪明的决策 [3][12] 技术优势与性能 - 在资源消耗方面实现大幅优化:UNeMo采用FlanT5-1.5B模型,参数规模仅为对比方法NavGPT2所用FlanT5-5B模型的30%,训练时GPU显存占用从27GB降至12GB,减少56%,推理速度从每步1.1秒提升至0.7秒,效率提升40% [14][15] - 在核心性能上实现超越:在R2R数据集的未见环境测试中,UNeMo的导航成功率(SR)达到72.5%,较NavGPT2的71%提升1.5个百分点,路径效率(SPL)从60%提升至61.3% [15][16] - 在长路径导航中表现尤为突出:在路径长度≥7的长轨迹任务中,导航成功率(SR)大幅提升5.6%(从64.2%至69.8%),提升幅度是短路径的4.7倍,有效缓解了长距离导航的累积误差 [17] 通用性与可拓展性 - 框架展现出强可拓展性:团队将UNeMo迁移至不同类型的导航基线(如DUET)与目标导向导航数据集REVERIE进行验证,实验结果显示其在未见场景的导航成功率(SR)与远程目标定位成功率(RGS)指标上均有提升 [18][19][20] - 这表明UNeMo的协同训练架构并非局限于特定类型的导航系统,能够灵活适配不同任务场景,验证了其作为通用导航架构的潜力 [20] 学术认可与影响 - 该研究成果已入选顶级人工智能会议AAAI 2026,为视觉-语言导航领域提供了高效可行的新方案,有望推动服务机器人等实际应用场景的落地发展 [3][21]