SpatialPoint - 财报，业绩电话会，研报，新闻

SpatialPoint

搜索文档

量子位· 2026-03-30 11:39

文章核心观点 - 当前视觉-语言模型在物理世界交互中存在核心缺陷，即能识别物体但缺乏精确的空间感知能力，导致无法稳定、精准地执行抓取、放置等任务[1][2][3] - 视启未来与清华大学、IDEA研究院提出的SpatialPoint框架，通过将深度信息作为核心输入并与RGB、语言信息原生融合，实现了端到端的3D可执行坐标预测，旨在解决AI与物理世界交互的瓶颈[5][11][12] - SpatialPoint在一个统一框架下同时处理物体表面的“实点”和自由空间的“虚点”，能直接输出机器人可执行的指令，显著降低了具身智能的落地复杂度[9][13][30] 当前VLM在物理世界中的局限性 - **空间感知依赖猜测**：主流VLM仅以RGB图像为输入，缺乏精确的深度度量信息，无法准确判断物体的距离、朝向和抓取位置，导致机器人操作不稳定[6][7] - **输出与执行脱节**：传统VLM输出2D框或语义标签，无法提供机器人可直接执行的三维坐标，感知与执行间存在断层，需要复杂的后处理[8] - **任务处理割裂**：现有技术无法在统一接口下同时处理物体表面的“实点”和自由空间的“虚点”，完成复合任务需调用不同模型，效率低下[9] SpatialPoint框架的技术创新 - **深度信息原生融合**：将深度图提升为与RGB、语言并行编码的核心输入，贯穿特征编码、融合到预测的全流程，而非作为辅助线索[12][14] - **两阶段训练策略**：采用“先适配、后融合”的策略，先训练深度专用网络，再进行全模型联合微调，实现了深度信息与预训练VLM能力的无缝融合[12][19] - **统一多模态推理**：为RGB、深度和语言token设计统一因果序列，通过注意力机制实现三种特征的协同推理，联合计算精准的3D目标点[17] - **结构化3D坐标输出**：模型直接生成(u, v, Z)格式的3D坐标，其中Z为深度值（毫米），该坐标可直接被机器人运动控制系统解析执行[18] 模型性能与实验结果 - **实点预测精度显著提升**：在物体可接触点预测任务中，整体精准找对有效操作位置的概率达到79%，远超其他主流模型（如RoboBrain 2.5的74.1%）[23][25] - **距离预测误差大幅降低**：SpatialPoint对距离预测的平均误差仅17.2毫米，在物体有效操作区域内的误差低至9.3毫米；而仅依赖图像的模型平均误差高达574.8毫米，差距超过30倍[23][25] - **虚点推理能力增强**：在自由空间点定位任务中，仅训练1轮，找对指定方向的概率达到48.86%，远超其他模型（如RoboBrain 2.5的8.04%）；距离预测平均偏差仅8.5厘米，而传统图像模型偏差达54.7厘米[26][27] - **复杂场景表现稳定**：在指定方向、物体之间、以物体大小为参照等多种复杂空间定位任务中，SpatialPoint找对方向的概率（约43.71%至51.61%）全面超过基线模型[27][28] 数据集与落地应用 - **构建大规模数据集**：为支撑训练，团队构建了SpatialPoint-Data数据集，包含260万组RGB-D问答对，覆盖实点与虚点任务，其中实点数据190万组，虚点数据72万组[19][20] - **实现零样本泛化与多任务一体化**：在真实机器人验证中，针对抓取（实点）、放置（虚点）、导航（虚点）三大任务，模型无需微调即可准确输出3D可执行坐标[29][30] - **解决复杂连贯指令**：例如，机器人能通过单一模型理解并执行“把水杯拿到茶几中央，再走到鞋柜旁”的连贯指令，依次输出抓取、放置、导航的3D坐标，无需额外处理或模型切换[31]

具身智能

空间智能

Artificial Intelligence

SpatialPoint

具身智能

空间智能

Artificial Intelligence

SpatialPoint