Workflow
底层空间感知技术
icon
搜索文档
浙江大学研究员彭思达:底层空间感知技术对训练机器人有何作用?丨GAIR 2025
雷峰网· 2025-12-15 15:44
文章核心观点 - 将人类视为一种特殊形态的机器人,通过采集其日常行为数据,可用于解决人形机器人训练数据匮乏的难题,这需要依赖相机定位、深度估计和物体运动估计等通用空间感知技术 [1][3] 相机定位技术进展 - 相机定位旨在让机器人知晓自身在空间中的位置,是机器人决策和避障的基础 [2] - 传统方法如Colmap依赖图像特征匹配,但在恶劣环境或视角差异大时效果不佳 [5][7] - 团队于2021年提出LoFTR模型,使用Transformer进行稠密特征匹配,解决了弱纹理区域的匹配问题 [9] - 针对跨模态匹配难题,团队提出MatchAnything方法,通过多模态预训练框架整合多源数据,成功实现了红外与可见光、事件与可见光、CT与MR等不同模态间的匹配 [9] - MatchAnything使无人机在冬季也能匹配夏季的卫星图像,显著提升了遥感与自动驾驶领域的性能 [10] - 为解决MatchAnything无法直接用于现有SfM算法的问题,团队提出Detector-free SfM方法,通过量化匹配和迭代优化,最终获得更精密的点云和三维位姿 [13][16] - 传统重建方法速度慢,一个模型优化可能需要几十小时甚至一天 [20] - 端到端方法VGGT能在一两秒内完成传统方法需十几小时的相机定位,但无法处理大规模场景,图片超过1000张容易爆显存 [21][23] - 团队提出Scal3R方法,通过在线更新网络权重记录场景全局记忆,使分块预测的点云具有全局一致性,有效拼接大场景,相关论文已被CVPR接收 [23][24] 深度估计技术进展 - 深度估计使机器人了解场景中各物体与自身的距离,是通用空间感知的关键 [2] - 现有深度估计方法在物体边缘存在“飞点”问题,判别式模型因预测“折中值”导致飞点,生成式模型因使用VAE压缩同样会产生飞点 [31] - 团队提出Pixel-Perfect-Depth方法,移除VAE直接在像素空间优化,并整合语言特征到DiT模型中,显著增强深度估计能力并解决了边缘飞点问题 [31] - 该方法在单张图片深度估计上能达到很高精细度,对叶子、远处线条等细节有良好估计效果 [32] - 通过提取视频语义特征和提升时序一致性,Pixel-Perfect-Depth方法可拓展至视频深度估计 [36] - 为解决带尺度的绝对深度估计问题,团队受语言模型提示词技术启发,提出Prompt Depth Anything方法,将雷达作为深度感知的prompt输入模型,以输出绝对深度 [36][37] - 实验数据显示,使用合成数据的方法在ARKitScenes数据集上的AbsRel误差为0.0142,在ScanNet++数据集上的F-Score为0.7307 [38] - Prompt Depth Anything方法可提升机器人抓取成功率,并应用于自动驾驶重建、三维扫描等领域 [41] - 针对透视投影在远处点云产生裂痕的问题,团队提出InfiniDepth方法,为每个次像素估计深度值,将DPT Head改为Implicit Decoder以获得完整几何,提高大范围视角渲染的精细度,相关论文已投稿CVPR [43] 物体运动估计技术进展 - 物体运动估计让机器人感知世界的运动状态,是获取人类行为语义轨迹(用于训练数据)的关键 [2][45] - 此前方法如Google的CoTracker仅在二维层面进行时序跟踪,容易因干扰丢失目标 [45] - 团队提出三维跟踪思路SpatialTracker,将二维图像反投影至三维空间,在三维空间中初始化并优化轨迹,从而获得更强的跟踪能力 [45] - 实验显示,该方法能很好地跟踪高速运动的足球运动员以及存在强空间遮挡的拍动翅膀的蝴蝶 [48]