Workflow
银河通用全新模型统一机器人导航任务,7B参数模型支持实时部署
具身智能之心·2025-11-10 08:02

文章核心观点 - 提出NavFoM模型,旨在构建一个跨任务和跨本体的具身导航基座大模型,实现导航能力从“专用”到“通用”的技术跃进 [1][3][29] - 该模型统一了不同机器人的导航范式,通过“视频流+自然语言指令”预测动作轨迹,支持多任务、全场景和跨本体的应用 [3][29] - 模型在多个公开基准测试中实现了SOTA或可比拟SOTA的效果,且无需针对特定任务或机器人进行微调 [16][29] 统一导航范式 - 将不同机器人的导航任务统一为“机器人采集的流式视频 + 自然语言导航指令 -> 动作轨迹”的范式 [3] - 使用文本指令描述导航目标,用视频流表达导航历史,模型预测未来运动轨迹 [3] - 支持多任务(视觉语言导航、目标搜索、目标跟随、自驾)、全场景(室内、室外)和跨本体(四足、轮式、人形、无人机、汽车) [3] 模型架构与技术特点 - 采用TVI Tokens,通过端到端学习得到时间和角度两个系数,以兼容不同本体的相机设置(单目、环视等) [5][8] - 支持基于图像的问答和基于视频的问答混合训练,使模型保留对开放世界的理解能力,避免过拟合到导航任务 [9] - 采用双分支结构:导航任务时通过规划头输出由路径点组成的轨迹;问答任务时通过语言模型头进行下一个词预测 [9] 实时部署优化 - 提出预算感知的令牌采样策略,在有限算力约束下自适应采样关键帧,以支持7B参数模型的实时部署 [6][10] - 该策略基于遗忘曲线,越靠近当前帧采样概率越大,能根据视频帧数和令牌上限自适应调整分布 [10][11] - 实现了稳定的运行效率,具备处理长程导航任务和在真实机器人上高效运行的潜力 [11] 训练数据规模 - 训练数据量达800万条,涵盖视觉语言导航、目标导航、目标跟踪、自动驾驶、网络导航数据,涉及轮式机器人、四足机器狗、无人机和汽车 [12] - 额外使用了400万条开放世界的问答数据 [12] - 训练数据量是以往工作的约两倍,并通过图像缓存技术减少训练硬件需求 [15] 算法性能表现 - 在多个公开基准测试(涵盖不同任务和不同本体)上实现了SOTA或可比拟SOTA的效果 [16][29] - 无需对特定任务或机器人进行微调,仅通过修改指令和相机布局即可适配 [16] - 能够用同一套模型实现机器狗、轮式机器人、无人机的跟随任务 [19] 扩展应用验证 - TrackVLA++:在复杂环境中实现30分钟以上的稳定长程跟随 [23] - UrbanVLA:支持第三方地图引导的机器人自主城市出行 [25] - MM-Nav:实现360度纯视觉精确避障 [27]