纯视觉机器人操作
搜索文档
锦秋基金被投公司地瓜机器人提出纯视觉机器人操作方法VO-DP | Jinqiu Spotlight
锦秋集· 2025-09-22 15:15
投资事件 - 锦秋基金于2025年完成对地瓜机器人的投资,该基金是一家拥有12年历史的AI基金,以长期主义为核心投资理念,专注于寻找具有突破性技术和创新商业模式的通用人工智能初创企业 [1] 公司概况与市场地位 - 地瓜机器人是业界领先的机器人软硬件通用底座提供商,其前身为2015年成立的地平线机器人 [2] - 公司构建了从芯片、算法到软件的完善产品体系,核心产品包括旭日智能计算芯片和RDK机器人开发者套件,算力覆盖范围从5到500 TOPS,可满足人形、四足狗、家庭服务等多种机器人计算需求 [2] - 旭日系列芯片累计出货量已超过500万片,平台拥有超过200家中小创客、200多家头部高校以及来自全球20多个国家的近100,000名个人开发者,创造了数百种形态的智能机器人产品 [2] 技术突破:VO-DP方法 - 公司联合同济大学推出了全新的纯视觉机器人操作方法VO-DP,该方法采用纯视觉方案,融合先进的视觉基础模型,突破了传统点云模型的局限 [2][4] - VO-DP方法的核心创新在于引入了基于Cross-Attention的融合模块,对来自VGGT模型的语义特征(DINOv2)和几何特征(Alternating Attention)进行有效融合与压缩,作为下游策略头的输入 [6][16] - 该方法设计了一种空间特征压缩模块,将融合后的特征适配下游任务输入,并研发了名为DRRM的多机多卡并行训练框架 [14] 技术优势与性能表现 - 纯视觉方案具有显著的硬件成本效益,RGB相机的硬件成本可降低数倍至数十倍,且无需多传感器标定,工程便利性更高 [11] - 在仿真实验中,VO-DP(3帧)与基于3D点云的DP3方法在精度上已持平,而VO-DP(1帧)的表现甚至略微超过DP3,证明了纯视觉方案在精度上可与3D方案对齐甚至超越 [5][30] - 在特定任务上,VO-DP表现更优,例如在Pick Apple Messy任务中,VO-DP(3帧)成功率达到80.0%±0.8,显著高于DP的31.0%±0.8和DP3的18.7%±2.9 [22][26] - VO-DP方法已成功部署到真实机械臂上,并能成功执行桌面收纳、混合堆叠等复杂任务 [5][35] 行业背景与研究路径 - 端到端的机器人操作学习是具身智能领域的关键研究方向,当前主流技术分支为VA和VLA [4][7] - 公司研究聚焦于VA,认为在单一任务场景下,对观测到行动的预测是更基础的问题,有助于深刻理解时空表达如何影响动作预测 [8] - 视觉基础模型(如VGGT)的快速发展为纯视觉方案提供了可靠预训练模型,其能力已从二维语义感知提升到三维空间感知 [10]