GeoPredict框架
搜索文档
从 2D 感知到 3D 预测:GeoPredict 重构VLA模型的几何推理能力
具身智能之心· 2025-12-25 09:41
文章核心观点 - 由香港中文大学(深圳)、湖南大学、理想汽车等联合团队提出的GeoPredict框架,通过“预测性运动学 + 3D高斯几何”的双核心架构,为视觉-语言-动作模型注入了未来感知的几何先验,突破了传统方法在3D空间推理和长时程物理一致性方面的瓶颈,显著提升了机器人操纵的精度与泛化能力 [2][3][17] 传统VLA模型的局限 - **空间建模缺失**:现有模型局限于2D图像空间进行反应式决策,缺乏对物体姿态、间隙、末端执行器运动的显式3D几何建模,在需要精准定位的任务中可靠性不足 [3] - **长时程预测不足**:反应式策略仅依赖瞬时观测,无法捕捉运动惯性与场景动态演化,难以应对长时程操纵任务中的物理一致性要求 [4] - **推理效率矛盾**:引入复杂3D预测模块的方法往往导致推理时计算开销激增,无法满足实时机器人控制的部署需求 [5] GeoPredict的技术架构 - **第一层:轨迹级运动学预测模块**:通过编码运动历史、预测多步轨迹,为策略提供显式的运动学先验,并引导后续几何建模的资源分配 [6][8] - **第二层:预测性3D高斯几何模块**:基于3D高斯splatting的高效表征能力,构建未来场景几何预测模块,并利用预测的未来关键点轨迹生成二进制细化掩码,对交互区域分配更多高斯基元,实现高分辨率建模 [6][8] - **第三层:块级因果注意力**:将不同类型的token按“感知-预测-控制”层级组织,块内双向交互,块间严格因果注意力,构建合理高效的信息流动链路 [6][8] - **训练-推理解耦设计**:运动学预测与3D高斯几何模块仅在训练时提供监督信号,推理时仅需轻量级查询token,保持与基础VLA模型一致的高效性 [8] 性能验证结果 - **RoboCasa Human-50基准测试**:在24个复杂日常任务的少样本设置中,平均成功率达52.4%,较基础模型提升10.1%,大幅超越BC-Transformer和GWM等基线方法 [10] - **LIBERO基准测试**:在空间推理、物体交互、目标达成、长时任务四大套件中平均成功率达96.5%,超越UniVLA+和4D-VLA等当前SOTA方法,尤其在长时任务中提升6.4% [10] - **真实场景验证**:在空间、几何、鲁棒性三大任务中,成功率分别达到85.0%、95.0%和90.0%,显著高于基线模型的60.0%、50.0%和35.0% [14] - **组件消融分析**:添加轨迹编码器使平均成功率提升2.5%,结合未来轨迹查询后提升至47.2%;基础3D高斯建模提升至49.4%,结合轨迹引导细化后达到52.4% [11][12] - **效率对比**:轨迹引导细化训练效率较全局高分辨率建模提升20%,且性能更优 [12] 局限与未来方向 - **几何表征维度**:当前聚焦深度几何建模,未融合物体材质、物理属性等信息 [18] - **预测步长平衡**:更长的预测步长可能提升长时任务性能,但需解决累积误差问题 [18] - **实时性优化**:轨迹预测与注意力计算仍有精简空间,可结合模型压缩技术提升部署效率 [18] - **多机器人适配**:当前针对单臂机器人设计,未来可扩展至多臂协作场景 [18]