银河通用全新模型统一机器人导航任务，7B参数模型支持实时部署

文章核心观点 - 北京大学、银河通用等机构合作提出NavFoM，旨在构建一个统一的多任务、全场景、跨本体的具身导航基座大模型，实现导航能力从“专用”到“通用”的技术跃进 [1][3] - 该模型通过统一“机器人流式视频+自然语言导航指令→动作轨迹”的范式，无需为特定任务或机器人进行微调，即可在多个公开基准测试中达到或接近最优性能 [3][16][21] - NavFoM标志着具身智能导航模型研发迈向通用化，是导航技术实现规模化落地的关键点 [20][21] 模型架构与技术创新 - 采用统一架构处理多任务（视觉语言导航、目标搜索、目标跟随、自驾）、全场景（室内、室外）及跨本体（四足、轮式、人形、无人机、汽车）的导航需求 [3] - 引入TVI Tokens，通过端到端学习得到的时间和角度系数来标记图像，兼容不同本体的相机设置（如单目、环视无人机、环视车辆） [5][8] - 采用Dual-Branch结构，规划头用于导航任务输出轨迹，语言模型头用于QA任务输出文字，使单一模型能最优处理两种任务 [9] 实时部署与效率优化 - 针对7B参数大模型在真实场景实时部署的挑战，提出BATS帧采样策略，在有限算力约束下自适应采样关键帧以保持性能与效率 [6] - BATS策略基于遗忘曲线，越靠近当前帧采样概率越大，能根据视频帧数和Token上限自适应调整分布，支持长程导航任务 [10][11] 训练数据与规模 - 在800万条跨任务、跨本体的导航数据（涵盖视觉语言导航、目标导航、目标跟踪、自动驾驶、网络数据）及400万条开放世界问答数据上训练 [12] - 训练数据量是以往工作的约两倍，并通过图像缓存技术减少训练硬件需求 [15] 算法性能与验证 - 在多个公开基准测试（不同任务和不同本体）上实现了SOTA或SOTA可比的效果，且无需针对特定任务或机器人进行微调 [16][21] - 团队进一步通过UrbanVLA（城市出行）、MM-Nav（精确避障）等项目验证了NavFoM作为基座模型在复杂任务下的潜力 [20]