Workflow
深度强化学习(DRL)
icon
搜索文档
X-Nav:端到端跨平台导航框架,通用策略实现零样本迁移
具身智能之心· 2025-07-22 14:29
核心观点 - 提出X-Nav框架实现端到端跨形态导航 单一通用策略可部署于轮式和四足机器人 通过两阶段学习机制(专家策略训练+通用策略提炼)解决现有方法通用性受限问题 [3][4] - 核心创新是导航动作分块transformer(Nav-ACT)模型 将多专家策略提炼为统一策略 支持对未知形态机器人的零样本迁移 [3][8] - 实验显示在商用机器人上成功率(SR)达90 4% 成功率加权路径长度(SPL)达0 84 显著优于行为克隆等基线方法 [13] 技术架构 阶段1:专家策略学习 - 在4096个随机生成的机器人形态上训练3类专家策略(小型四足/大型四足/轮式) 采用PPO算法和定制奖励函数(含任务奖励与正则化奖励) [6][10][16] - 奖励函数包含7项指标:目标位置跟踪(Tpos)、前进激励(Tfwd)、停止精度(Tstop)、碰撞惩罚(Tcollide)等 轮式与四足采用不同正则化权重(Table I) [7] 阶段2:通用策略提炼 - Nav-ACT模型含4层transformer和4注意力头 嵌入维度256 通过256 batch size训练100 epoch 输入统一观测序列(含本体感受/目标位置/激光雷达等14维数据) [15][16] - 动作空间统一为14维向量 前2维对应轮式速度 后12维对应四足关节位置 采用MSE损失函数(L1损失会导致性能下降15%) [15][19] 实验验证 性能对比 - 在6款商用机器人(Jackal/Dingo/A1等)测试 X-Nav的SR(90 4%)和SPL(0 84)全面领先BC/BCT/DP/CP等方法 其中Jackal的SPL比次优方法高23% [13] - 训练形态数量从128增至4096时 SPL提升37% 显示数据规模对泛化能力的关键作用 [14] 实际部署 - 在TurtleBot2和Jackal真实机器人测试 室内外环境平均成功率85% SPL 0 79 验证不同传感器(Kinect/ZED 2相机)下的适用性 [22] - 轮式机器人需时间集成(TE)平滑动作 四足则直接采用首动作 消融实验显示该设计使Jackal的SPL提升29% [11][19]