足式机器人开放世界全域目标追踪

搜索文档
港科大等提出LOVON:足式机器人开放世界全域目标追踪新范式!
具身智能之心· 2025-07-27 17:37
核心观点 - LOVON框架通过整合大语言模型(LLMs)、开放词汇视觉检测和语言-运动映射模型,解决了足式机器人在动态非结构化环境中长程多目标导航的难题[4][6] - 该框架在仿真环境中成功率(SR)达1.00,训练效率比同类最优模型提升240倍(1.5小时vs 360小时)[19] - 具备"即插即用"特性,兼容Unitree Go2/B2/H1-2等主流机器人平台,在真实世界实现开放世界适配、多目标追踪等四大突破[21][24] 技术架构 三大核心模块 - LLM任务规划器:可拆解复杂指令为连续子任务(如"先跑向椅子,再靠近行人")并动态调整顺序[18] - 开放词汇视觉检测:识别范围从背包/盆栽到汽车/宠物等非预定义类别目标[18] - 语言-运动模型(L2MM):将文字指令直接转化为精确运动向量,实现"说走就走"的精准控制[18] 抗干扰设计 - 拉普拉斯方差滤波技术:通过清晰度特征分析过滤模糊帧,使有效检测帧比例提升25%[12] - 自适应执行逻辑:目标丢失时自动切换搜索模式,新指令可无缝衔接,外力干扰下快速重规划[15] 性能表现 仿真测试 - 在停车场/城市街道/雪地村庄等场景中: - 成功率(SR)1.00,超越EVT(0.94)和TrackVLA(1.00)[19] - 训练时间1.5小时,效率较TrackVLA(360小时)提升240倍[19] - 平均性能得分499.75,接近满分500[20] 真实场景 - 开放世界适配:可识别汽车至背包等不同尺寸目标[24] - 多目标追踪:连续完成"找椅子→找行人→找背包"任务无中断[24] - 动态鲁棒性:在螺旋楼梯/杂草丛等复杂地形稳定跟踪移动目标[24] - 抗干扰能力:目标移动或碰撞后能快速重新锁定[24] 应用价值 - 打破传统机器人导航的场景限制,推动家庭服务/工业巡检/野外科研等领域的实际应用[21][23] - 通过"通用框架+轻量化部署"设计理念,加速实验室技术向商业化落地转化[23]
港科大&北京人形提出LOVON:足式机器人开放世界全域目标追踪新范式!
机器之心· 2025-07-25 12:29
核心观点 - LOVON框架创新性地整合大语言模型(LLMs)、开放词汇视觉检测和语言-运动映射模型,解决足式机器人在动态非结构化环境中长程目标导航的难题[2][5] - 该框架具备即插即用特性,兼容Unitree Go2、B2、H1-2等主流足式机器人平台,突破传统导航场景限制[2][19] - 在仿真与真实环境中均实现性能突破,如仿真成功率1.00(EVT为0.94),训练效率提升240倍[18] 技术架构 三大核心模块 - **LLM任务规划器**:分解长视野任务为子任务并动态调整顺序,例如“先跑向椅子再靠近行人”[16] - **开放词汇视觉检测**:识别从背包、盆栽到汽车、宠物等开放类别目标,适配多样化场景[16] - **语言-运动模型(L2MM)**:将指令直接转化为运动向量,实现精准速度与方向控制[16] 抗干扰视觉处理 - 采用拉普拉斯方差滤波技术过滤模糊图像帧,配合滑动平均滤波提升有效检测帧比例25%[11][12] 自适应执行逻辑 - 目标丢失时自动切换至搜索模式,新指令无缝衔接,外力干扰后快速重规划路径[14][15] 性能表现 仿真环境 - GymUnreal场景中成功率1.00(EVT为0.94),训练时间仅1.5小时(TrackVLA需360小时)[18] 真实世界 - **开放世界适配**:识别大小形态各异目标并在陌生环境快速适应[23] - **多目标长程追踪**:流畅执行“找椅子→找行人→找背包”等复杂任务链[23] - **动态环境鲁棒性**:在螺旋楼梯、杂草丛等复杂地形稳定跟踪移动目标[23] - **抗干扰能力**:目标移动或碰撞后快速重新锁定[23] 应用前景 - 覆盖家庭服务、工业巡检、野外科研等领域,推动足式机器人从实验室走向实际应用[21] - 通用框架设计加速技术落地,有望成为智能服务变革的关键技术[21]