从任务专用到通用智能：基础模型重塑具身导航

研究团队与背景 - 北京邮电大学徐梦炜副教授研究团队专注于端侧具身智能算法和系统软件，在顶级会议及期刊发表论文50余篇，曾获中国高校首个USENIX ATC 2024最佳论文奖，推出了面向端侧异构算力芯片的高效推理引擎mllm（GitHub 1.4K Stars）[2] - 该团队联合南京大学、清华大学和北京大学，完成了关于基础模型驱动具身导航的综述论文，系统梳理了该领域的任务类型、架构设计、数据训练、部署效率及评测体系等方面[3] 具身导航问题定义与分类 - 将具身导航定义为：智能体在部分可观测环境中，基于自中心观测理解导航目标、持续做出序列决策，并通过物理动作逐步到达目标位置[6] - 从任务目标形式出发，将现有研究系统归纳为语义导航、几何导航、交互式导航，以及面向真实复杂场景的复合与通用导航[6] - 从机器人载体出发，区分轮式、足式和无人机等不同具身形态，并分析它们在感知配置、运动约束与规划复杂度上的差异[6] 具身导航关键系统设计 - 系统拆解了从输入到输出的关键设计链条，包括观测与表征、记忆机制、决策与控制[9] - 观测与表征包括自中心RGB、深度与多视角视觉输入，地图增强表示，以及相机内外参信息[9] - 记忆机制被划分为视觉记忆、文本记忆与地图增强记忆三类，分别通过历史视觉上下文、语言摘要、显式空间结构来维护记忆[9] - 在决策与控制层面，梳理了语义目标选择、离散动作预测、连续动作生成等不同动作空间设计，以及显式推理、适应性推理等不同决策机制[9] - 梳理了当前基础模型驱动具身导航系统的几种代表性架构范式，包括模块化系统、单策略系统、双系统架构以及世界模型驱动系统[12] 数据收集与模型训练 - 现有导航数据可归纳为三类：仿真与合成数据（最主要的监督来源）、真实世界与网络视频数据、通用多模态数据[15] - 基础模型驱动的具身导航系统是在多类数据混合中同时学习空间结构、语义理解、任务推理与行为对齐，而非单纯依赖“轨迹数据”[15] - 在训练策略层面，总结了三类学习路径：一是直接获取导航能力，二是辅助任务学习，三是视觉语言任务联合学习[17] 基础模型的端侧部署 - 从不同具身平台出发，分析轮式机器人、足式机器人和无人机在真实部署中的差异[19] - 从加速技术角度总结当前解决方案：一类是在模型与算法层面进行结构性加速，另一类是在软件系统层面进行工程优化，包括云边协同、异步执行、量化压缩等[19] 评测基准与评估指标 - 将现有评测基准所考察的核心能力归纳为五类，包括自然语言转化为时序一致的行动、在部分可观测环境中完成目标搜索与语义定位、真正服务于信息获取与下游判断、在持续变化环境中保持安全稳定、在机器人形态等条件变化时能力能否保留[22] - 在评价指标层面，从四个层面展开分析：一是任务完成度，二是轨迹一致性与语义对齐，三是鲁棒性、泛化性与安全性，四是实时部署能力[22] 总结与展望 - 基础模型推动具身导航从面向单一任务的专用策略，逐步转向由统一多模态骨干支撑的通用决策范式，在语义理解、任务泛化和复杂决策方面展现出更强潜力[24] - 当前具身导航最核心的约束仍然是数据瓶颈，下一步发展在很大程度上取决于能否建立真正意义上的 Scaling Law[26] - 未来的导航基础模型需要进一步走向视觉语言模型与世界模型能力的融合，从而同时具备语义理解、指令跟随与未来状态预测能力[26] - 下一代评测体系需要进一步覆盖开放词汇目标、动态环境、社会约束、实时延迟与端侧部署等关键因素，同时推动算法设计更好适配真实机器人硬件条件[26]