视觉 - 语言导航（VLN） - 财报，业绩电话会，研报，新闻

视觉 - 语言导航（VLN）

搜索文档

具身智能之心· 2025-12-25 12:01

文章核心观点 - 群核科技联合浙江大学开源的SAGE-3D数据集，将3D高斯泼溅技术从一个高保真渲染工具，升级为兼具精细语义理解和物理碰撞检测的可执行导航环境，解决了3DGS在具身智能领域“只能看，不能碰”的核心痛点，为视觉语言导航任务的训练与评估提供了新的范式[3][7][14][30] 3DGS技术在具身智能领域的应用与局限 - 3DGS因其超逼真的实时渲染和高效数据获取能力，被视为缩小“仿真到现实”差距的关键技术，在具身智能领域备受青睐[2][9] - 3DGS的两大关键优势在于：1) 更便捷可靠的物体级语义理解，因其离散高斯分布表征便于直接标注；2) 视角一致的照片级真实感呈现，能从任意可导航位置生成一致视图[9] - 然而，传统3DGS生成的数据缺乏面积、尺寸、几何结构等基础物理信息，无法反映物体真实几何形状、尺寸及运动碰撞问题，限制了其在需要物理交互的机器人导航任务中的应用[2][9] SAGE-3D数据集的核心构成与特性 - **大规模语义数据集InteriorGS**：包含1000个带精细标注的3DGS室内场景，涵盖755类物体、超过55.4万个实例，每个物体都有类别、实例ID、边界框等信息，使机器人能精准识别如“红色椅子”等精细指令[13] - **VLN基准测试SAGE-Bench**：包含基于上述1000个场景的超过554,000个对象实例的真实碰撞体数据，以及面向VLN任务的200万条“轨迹-指令”对数据[13] - **指令体系**：指令分为高层和低层。高层指令贴近真实场景（如“我渴了，去冰箱拿饮料”），低层指令聚焦基础动作（如“向前走两步”），覆盖5类语义场景和多种动作需求[13][18] - **评价体系**：从任务类型、指令层级、场景复杂度三个维度评估模型，并设计了连续成功率、累积碰撞惩罚与路径平滑度等新指标，以更系统评估导航模型的性能[13][19] SAGE-3D的技术突破与赋能 - **语义赋能**：通过InteriorGS数据集，为3DGS场景中的物体绑定目标级语义（如类别、实例ID），使其从“无意义像素”变成“可理解物体”，支撑精细的语言指令[22][31] - **物理赋能**：采用“3D高斯+网格”混合表示，在保留3DGS高保真渲染能力的同时，从原始网格中提取每个物体的碰撞体作为物理层，解决了机器人“穿墙”问题，使其从“纯视觉工具”变成“可交互环境”[22][31] - **生态完善**：通过提供大规模数据集和基准测试平台，形成了“数据-训练-评估”闭环，推动VLN技术发展[31] SAGE-Bench基准测试平台的性能表现 - **数据体量优势**：SAGE-Bench包含200万条轨迹-指令对和55.4万个精细碰撞物体，在任务量、场景数量上显著超越以往基准[16][17] - **模型性能优异**：在SAGE-Bench测试中，基于SAGE-3D训练的模型表现突出，其中NaVILA-SAGE的成功率达到0.46，远超普通VLN模型[21][24] - **强泛化能力**：仅在SAGE-3D数据上训练的模型，在传统VLN-CE基准的未见过场景中，成功率提升了31%，表明其高保真数据具有强泛化性[21][26] - **渲染效率**：3DGS-Mesh混合表示的单帧渲染平均耗时6.2毫秒，内存占用220MB，优于扫描网格数据的16.7毫秒和850MB，但达到相同性能所需的训练迭代次数更多[25] 对行业的意义与前景 - SAGE-3D重新定义了3DGS的应用边界，使其真正适配机器人导航需求[30] - 该方案为坚持“真实到仿真再到真实”路线的公司提供了新方案，在真机数据昂贵的当下，有助于在数据质量和成本之间找到平衡[30] - 未来，该技术可拓展到更复杂的户外场景，并支持多机器人协作、物体操纵等更高级任务[30]

深大团队让机器人听懂指令精准导航！成功率可达72.5%，推理效率提升40%|AAAI2026

量子位· 2025-12-10 12:26

研究突破与核心框架 - 深圳大学李坚强教授团队联合北京理工莫斯科大学等机构，提出了名为UNeMo的视觉-语言导航新框架，该论文已入选AAAI2026 [1][5] - 该框架旨在解决现有基于大语言模型的导航方法面临的两大瓶颈：推理模态单一（仅依赖语言，缺乏视觉预判）以及优化目标冲突（推理与导航策略分开训练，适配性差）[9] - 其核心突破在于构建了“多模态世界模型”与“分层预测反馈导航器”的双向协同架构，将视觉状态推理与导航决策深度绑定，形成“预判+决策”闭环 [10][11][19] 技术架构与工作原理 - 多模态世界模型基于条件变分自编码器构建，能接收当前视觉特征、语言指令与候选动作，通过跨注意力机制融合信息，预测未来视觉状态，无需额外标注数据即可通过导航结果反馈持续优化 [12][13][14] - 分层预测反馈导航器采用两阶段机制：首先生成粗粒度候选动作锁定方向，再融合预测的未来视觉状态优化出细粒度动作以修正偏差，提升复杂场景下的导航稳健性 [17] - 该架构实现了推理与决策的动态闭环赋能，MWM的视觉预判提升决策精准度，导航执行结果实时反馈优化MWM预测准确性，两者双向促进持续迭代 [20][21] 性能与效率表现 - 在核心数据集R2R的测试中，UNeMo采用FlanT5-1.5B模型，参数规模仅为对比方法NavGPT2所用FlanT5-5B模型的30% [24] - 资源消耗大幅优化：训练时GPU显存占用从27GB降至12GB，减少56%；推理速度从每步1.1秒提升至0.7秒，效率提升40% [24] - 在模型未见过的测试环境中，导航成功率（SR）达到72.5%，较NavGPT2的71%提升1.5个百分点；路径效率（SPL）从60%提升至61.3% [26][27] 复杂场景与长路径导航优势 - UNeMo在长轨迹导航中表现突出，在未见过的环境中导航成功率可达72.5% [4] - 具体在长路径（长度≥7）导航中，成功率大幅提升5.6%（从64.2%至69.8%），提升幅度是短路径（长度<7）的4.7倍，有效缓解了长距离导航的累积误差 [29][30] 架构通用性与可拓展性 - 团队将UNeMo迁移至不同类型的导航基线（如DUET）与目标导向导航数据集REVERIE进行验证 [31] - 实验结果显示，其在未见场景的导航成功率与远程目标定位成功率指标上均有提升，表明该协同训练架构能灵活适配不同类型的导航系统，具备强可拓展性 [32][33] 总结与意义 - UNeMo通过其协同架构，解决了传统VLN方法推理与决策脱节、资源消耗高的问题 [34] - 该框架具备轻量化配置、高性能、长路径导航稳健以及跨场景适配性强的优势，为视觉-语言导航提供了高效可行方案，有助于服务机器人等实际场景的落地 [34]