具身智能导航

搜索文档
机器人视觉语言导航进入R1时代!港大联合上海AI Lab提出全新具身智能框架
量子位· 2025-06-25 08:33
技术突破 - VLN-R1实现了将自然语言指令直接转化为第一人称视角下的连续导航动作,无需依赖离散地图,能在复杂环境中灵活感知、决策与行动,实现类人级别的具身智能导航[1] - 该技术打破了"视觉输入→文本描述→离散决策"的传统链条,直接让LVLM以第一人称视频流为"眼睛",输出连续导航动作(前进、左转、右转、停止)[5] - 在VLN-CE基准测试中,仅用20亿参数模型就超越了70亿参数模型的SFT结果,在长距离导航中仅用1万RxR样本进行RFT就超过了使用完整RxR数据训练的模型[2] 技术创新 - 采用两阶段训练框架:先通过监督微调学习正确动作序列的文本表达,再通过强化微调引入奖励机制优化决策[7] - 提出分组对比优化(GRPO)方法,通过比较多个动作方案的相对优劣来学习最优路径,不需要提前设定固定奖励规则[7] - 引入时间衰减奖励(TDR)机制,对近期动作赋予更高权重,让模型优先确保眼前动作的精准执行[8][9] 数据集与训练 - 构建了全新的VLN-Ego数据集,包含63万R2R和120万RxR训练样本,完全基于第一人称视角,摒弃全局地图等"作弊"信息[12] - 提出长短时记忆采样策略,平衡近期信息与长期记忆,确保Agent在复杂环境中既不迷失方向又能对突发情况做出反应[14] 性能表现 - 2B模型通过RFT优化后性能直逼7B模型,为资源受限场景(如家用机器人)的落地提供了可能[15] - 展现出极强的数据效率,在跨域迁移任务中仅用少量样本就超越了完整数据集训练的效果[2] 应用前景 - 该框架正在促进AI从"数字智能"向"具身认知"跨越,可应用于工厂物流机器人和家庭服务助手等领域[16] - 研究证明LVLM完全有能力成为"感知-决策-行动"闭环的控制中枢,为具身智能发展提供了新思路[16]