让机器“看懂”物体如何摆放:单视图3D生成新框架,解决机器人空间感知核心难题
机器人大讲堂·2025-09-30 18:09
技术核心:OnePoseViaGen框架 - 创新性地结合单视图3D生成与生成式领域随机化,为解决“单参考图像估计未知物体6D位姿”难题提供全新思路 [2] - 提出“单视图3D生成→尺度-位姿联合优化→生成式领域增强”的端到端解决方案,目标仅需一张参考图即可高精度估计6D位姿 [5] 技术实现原理 - 从单张锚点图像出发,通过背景噪声抑制、提取法线信息辅助建模、归一化3D模型输出三个步骤构建初始物体模型 [7][8] - 采用“粗对齐→精对齐”两步优化策略解决尺度模糊问题,通过多视角渲染和PnP算法估算初始位姿,并迭代优化至结果收敛 [9] - 运用文本引导的生成式领域随机化技术,为同一物体生成多种纹理变体,通过合成数据集微调位姿估计网络,弥合生成模型与真实图像的域差距 [11] 性能表现与验证 - 在YCBInEOAT数据集测试中,ADD指标平均精度达81.27%,远超基线方法的45.6%,在低纹理、高遮挡物体上优势明显 [12] - 在真实机器人实验中,面对15类不同物体进行每类30次测试,均表现出高成功率和亚厘米级精度,在动态遮挡场景中也能稳定工作 [15][17] 行业应用与影响 - 技术突破将深远影响工业自动化、物流、家庭服务机器人及文化遗产保护等多个领域 [18] - 极大降低机器感知世界门槛,传统方法需精密传感器和复杂校准,而该技术仅需一张普通照片,具备大规模应用前景 [18]