SpatialPoint
搜索文档
将深度信息作为VLM核心输入!视启未来×清华×IDEA帮机器人看懂物理世界
量子位· 2026-03-30 11:39
文章核心观点 - 当前视觉-语言模型在物理世界交互中存在核心缺陷,即能识别物体但缺乏精确的空间感知能力,导致无法稳定、精准地执行抓取、放置等任务[1][2][3] - 视启未来与清华大学、IDEA研究院提出的SpatialPoint框架,通过将深度信息作为核心输入并与RGB、语言信息原生融合,实现了端到端的3D可执行坐标预测,旨在解决AI与物理世界交互的瓶颈[5][11][12] - SpatialPoint在一个统一框架下同时处理物体表面的“实点”和自由空间的“虚点”,能直接输出机器人可执行的指令,显著降低了具身智能的落地复杂度[9][13][30] 当前VLM在物理世界中的局限性 - **空间感知依赖猜测**:主流VLM仅以RGB图像为输入,缺乏精确的深度度量信息,无法准确判断物体的距离、朝向和抓取位置,导致机器人操作不稳定[6][7] - **输出与执行脱节**:传统VLM输出2D框或语义标签,无法提供机器人可直接执行的三维坐标,感知与执行间存在断层,需要复杂的后处理[8] - **任务处理割裂**:现有技术无法在统一接口下同时处理物体表面的“实点”和自由空间的“虚点”,完成复合任务需调用不同模型,效率低下[9] SpatialPoint框架的技术创新 - **深度信息原生融合**:将深度图提升为与RGB、语言并行编码的核心输入,贯穿特征编码、融合到预测的全流程,而非作为辅助线索[12][14] - **两阶段训练策略**:采用“先适配、后融合”的策略,先训练深度专用网络,再进行全模型联合微调,实现了深度信息与预训练VLM能力的无缝融合[12][19] - **统一多模态推理**:为RGB、深度和语言token设计统一因果序列,通过注意力机制实现三种特征的协同推理,联合计算精准的3D目标点[17] - **结构化3D坐标输出**:模型直接生成(u, v, Z)格式的3D坐标,其中Z为深度值(毫米),该坐标可直接被机器人运动控制系统解析执行[18] 模型性能与实验结果 - **实点预测精度显著提升**:在物体可接触点预测任务中,整体精准找对有效操作位置的概率达到79%,远超其他主流模型(如RoboBrain 2.5的74.1%)[23][25] - **距离预测误差大幅降低**:SpatialPoint对距离预测的平均误差仅17.2毫米,在物体有效操作区域内的误差低至9.3毫米;而仅依赖图像的模型平均误差高达574.8毫米,差距超过30倍[23][25] - **虚点推理能力增强**:在自由空间点定位任务中,仅训练1轮,找对指定方向的概率达到48.86%,远超其他模型(如RoboBrain 2.5的8.04%);距离预测平均偏差仅8.5厘米,而传统图像模型偏差达54.7厘米[26][27] - **复杂场景表现稳定**:在指定方向、物体之间、以物体大小为参照等多种复杂空间定位任务中,SpatialPoint找对方向的概率(约43.71%至51.61%)全面超过基线模型[27][28] 数据集与落地应用 - **构建大规模数据集**:为支撑训练,团队构建了SpatialPoint-Data数据集,包含260万组RGB-D问答对,覆盖实点与虚点任务,其中实点数据190万组,虚点数据72万组[19][20] - **实现零样本泛化与多任务一体化**:在真实机器人验证中,针对抓取(实点)、放置(虚点)、导航(虚点)三大任务,模型无需微调即可准确输出3D可执行坐标[29][30] - **解决复杂连贯指令**:例如,机器人能通过单一模型理解并执行“把水杯拿到茶几中央,再走到鞋柜旁”的连贯指令,依次输出抓取、放置、导航的3D坐标,无需额外处理或模型切换[31]