UNeMo
搜索文档
深大团队让机器人精准导航!成功率可达72.5%,推理效率+40%
具身智能之心· 2025-12-11 10:01
编辑丨 量子位 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区: 具身智能之心知识星球(戳我) ,这里包含所有你想要的! 让机器人听懂指令,精准导航再升级! 深圳大学李坚强教授团队最近联合北京理工莫斯科大学等机构,提出视觉-语言导航 ( VLN ) 新框架—— UNeMo 。 通过 多模态世界模型 与 分层预测反馈机制 ,能够让导航智能体不仅可以看到当前环境,还能预测接下来可能看到的内容,并据此做出更聪 明的决策。 相比主流方法,UNeMo可大幅度降低资源消耗,在未见过的环境中导航成功率可达72.5%,尤其是在 长轨迹导航 中表现突出。 目前,该论文已入选AAAI2026。 以下是更多详细内容。 语言推理与视觉导航的"脱节困境" 作为Embodied AI的核心任务之一,视觉-语言导航要求智能体仅凭 视觉图像 和 自然语言 指令,在未知环境中自主完成目标导航。 而随着大语言模型 ( LLM ) 的兴起,基于LLM的导航方法虽取得进展,但仍面临两大关键瓶颈: 双模块协同打造"预判+决策"闭环 推理模态单一:现有方法仅 ...
深大团队让机器人听懂指令精准导航,成功率可达72.5%,推理效率提升40%
36氪· 2025-12-10 15:00
行业技术突破 - 深圳大学李坚强教授团队联合北京理工莫斯科大学等机构,提出了视觉-语言导航新框架UNeMo,其核心是构建了“多模态世界模型+分层预测反馈导航器”的双向协同架构,旨在解决现有方法中视觉状态推理与导航决策脱节的问题 [1][6] - 该框架通过多模态世界模型预测未来视觉状态,并结合分层预测反馈导航器进行决策,形成了“推理-决策”相互赋能的动态闭环优化,使智能体能在复杂环境中持续迭代并做出更聪明的决策 [3][12] 技术优势与性能 - 在资源消耗方面实现大幅优化:UNeMo采用FlanT5-1.5B模型,参数规模仅为对比方法NavGPT2所用FlanT5-5B模型的30%,训练时GPU显存占用从27GB降至12GB,减少56%,推理速度从每步1.1秒提升至0.7秒,效率提升40% [14][15] - 在核心性能上实现超越:在R2R数据集的未见环境测试中,UNeMo的导航成功率(SR)达到72.5%,较NavGPT2的71%提升1.5个百分点,路径效率(SPL)从60%提升至61.3% [15][16] - 在长路径导航中表现尤为突出:在路径长度≥7的长轨迹任务中,导航成功率(SR)大幅提升5.6%(从64.2%至69.8%),提升幅度是短路径的4.7倍,有效缓解了长距离导航的累积误差 [17] 通用性与可拓展性 - 框架展现出强可拓展性:团队将UNeMo迁移至不同类型的导航基线(如DUET)与目标导向导航数据集REVERIE进行验证,实验结果显示其在未见场景的导航成功率(SR)与远程目标定位成功率(RGS)指标上均有提升 [18][19][20] - 这表明UNeMo的协同训练架构并非局限于特定类型的导航系统,能够灵活适配不同任务场景,验证了其作为通用导航架构的潜力 [20] 学术认可与影响 - 该研究成果已入选顶级人工智能会议AAAI 2026,为视觉-语言导航领域提供了高效可行的新方案,有望推动服务机器人等实际应用场景的落地发展 [3][21]
深大团队让机器人听懂指令精准导航!成功率可达72.5%,推理效率提升40%|AAAI2026
新浪财经· 2025-12-10 14:52
技术突破与核心架构 - 深圳大学李坚强教授团队联合北京理工莫斯科大学等机构提出视觉-语言导航新框架UNeMo 其核心突破在于构建了“多模态世界模型+分层预测反馈导航器”的双向协同架构 将视觉状态推理与导航决策深度绑定 从根本上解决现有方法的脱节问题 [1][5][20] - UNeMo通过多模态世界模型与分层预测反馈机制 让导航智能体不仅能感知当前环境 还能预测未来视觉状态 并据此做出更聪明的决策 [3][18] - 多模态世界模型基于条件变分自编码器构建 核心是精准预判未来视觉状态 它通过跨注意力机制融合多模态信息 且无需额外标注数据 就能通过导航决策结果反向反馈 持续优化预测精度 形成自适应进化循环 [5][21] - 分层预测反馈导航器采用两阶段分层机制 先基于当前特征生成粗粒度候选动作锁定方向 再融合预测的未来视觉状态优化出细粒度动作修正偏差 让智能体在复杂场景中稳健导航 [8][24] - 该框架构建了“推理-决策”相互赋能的闭环优化 MWM的视觉预判提升导航决策精准度 导航的实际执行结果则实时反馈给MWM优化其预测准确性 这种双向促进让智能体在导航中持续迭代 [10][26] 性能优势与实验验证 - 在VLN领域核心数据集R2R的实验中 UNeMo在轻量化配置与高性能决策的平衡上实现关键突破 其采用的FlanT5-1.5B模型参数规模仅为主流方法NavGPT2所用FlanT5-5B的30% [11][27] - 在资源消耗上实现大幅优化 训练时GPU显存占用从27GB降至12GB 减少56% 推理速度从每步1.1秒提升至0.7秒 效率提升40% [11][27] - 在模型未见过的测试环境中 其导航成功率(SR)达到72.5% 较NavGPT2的71%提升1.5个百分点 路径效率(SPL)从60%提升至61.3% [12][28] - 在复杂的长路径导航场景中 UNeMo优势尤为突出 短路径(长度<7)的导航成功率仅微增1.2%(从71.1%至72.3%) 而长路径(长度≥7)的SR大幅提升5.6%(从64.2%至69.8%) 提升幅度是短路径的4.7倍 证明其能有效缓解长距离导航中的累积误差 [13][14][29][30] - 在跨场景可拓展性验证中 团队将UNeMo迁移至不同类型的导航基线(DUET)与目标导向导航数据集REVERIE 实验结果显示其在unseen场景的导航成功率与远程目标定位成功率指标上均有提升 验证了其强可拓展性 [15][31][32] 行业影响与落地前景 - UNeMo针对传统VLN方法推理与决策脱节、资源消耗高的问题 以协同架构破解痛点 其轻量化配置具备高性能、长路径导航稳健、跨场景适配性强的优势 [16][33] - 该研究为视觉-语言导航提供了高效可行的方案 有助于推动服务机器人等实际场景的落地应用 [16][33] - 该论文已入选人工智能顶级会议AAAI 2026 显示了其学术价值与行业关注度 [3][18]