银河通用全新模型统一机器人导航任务,7B参数模型支持实时部署
量子位·2025-11-09 15:01

文章核心观点 - 北京大学、银河通用等机构合作提出NavFoM,旨在构建一个统一的多任务、全场景、跨本体的具身导航基座大模型,实现导航能力从“专用”到“通用”的技术跃进 [1][3] - 该模型通过统一“机器人流式视频+自然语言导航指令→动作轨迹”的范式,无需为特定任务或机器人进行微调,即可在多个公开基准测试中达到或接近最优性能 [3][16][21] - NavFoM标志着具身智能导航模型研发迈向通用化,是导航技术实现规模化落地的关键点 [20][21] 模型架构与技术创新 - 采用统一架构处理多任务(视觉语言导航、目标搜索、目标跟随、自驾)、全场景(室内、室外)及跨本体(四足、轮式、人形、无人机、汽车)的导航需求 [3] - 引入TVI Tokens,通过端到端学习得到的时间和角度系数来标记图像,兼容不同本体的相机设置(如单目、环视无人机、环视车辆) [5][8] - 采用Dual-Branch结构,规划头用于导航任务输出轨迹,语言模型头用于QA任务输出文字,使单一模型能最优处理两种任务 [9] 实时部署与效率优化 - 针对7B参数大模型在真实场景实时部署的挑战,提出BATS帧采样策略,在有限算力约束下自适应采样关键帧以保持性能与效率 [6] - BATS策略基于遗忘曲线,越靠近当前帧采样概率越大,能根据视频帧数和Token上限自适应调整分布,支持长程导航任务 [10][11] 训练数据与规模 - 在800万条跨任务、跨本体的导航数据(涵盖视觉语言导航、目标导航、目标跟踪、自动驾驶、网络数据)及400万条开放世界问答数据上训练 [12] - 训练数据量是以往工作的约两倍,并通过图像缓存技术减少训练硬件需求 [15] 算法性能与验证 - 在多个公开基准测试(不同任务和不同本体)上实现了SOTA或SOTA可比的效果,且无需针对特定任务或机器人进行微调 [16][21] - 团队进一步通过UrbanVLA(城市出行)、MM-Nav(精确避障)等项目验证了NavFoM作为基座模型在复杂任务下的潜力 [20]