让机器“看懂”物体如何摆放：单视图3D生成新框架，解决机器人空间感知核心难题

技术核心：OnePoseViaGen框架 - 创新性地结合单视图3D生成与生成式领域随机化，为解决“单参考图像估计未知物体6D位姿”难题提供全新思路 [2] - 提出“单视图3D生成→尺度-位姿联合优化→生成式领域增强”的端到端解决方案，目标仅需一张参考图即可高精度估计6D位姿 [5] 技术实现原理 - 从单张锚点图像出发，通过背景噪声抑制、提取法线信息辅助建模、归一化3D模型输出三个步骤构建初始物体模型 [7][8] - 采用“粗对齐→精对齐”两步优化策略解决尺度模糊问题，通过多视角渲染和PnP算法估算初始位姿，并迭代优化至结果收敛 [9] - 运用文本引导的生成式领域随机化技术，为同一物体生成多种纹理变体，通过合成数据集微调位姿估计网络，弥合生成模型与真实图像的域差距 [11] 性能表现与验证 - 在YCBInEOAT数据集测试中，ADD指标平均精度达81.27%，远超基线方法的45.6%，在低纹理、高遮挡物体上优势明显 [12] - 在真实机器人实验中，面对15类不同物体进行每类30次测试，均表现出高成功率和亚厘米级精度，在动态遮挡场景中也能稳定工作 [15][17] 行业应用与影响 - 技术突破将深远影响工业自动化、物流、家庭服务机器人及文化遗产保护等多个领域 [18] - 极大降低机器感知世界门槛，传统方法需精密传感器和复杂校准，而该技术仅需一张普通照片，具备大规模应用前景 [18]