3D空间智能

搜索文档
空间具身通用操作模型!百万真实数据训练,预训练代码全开源 | 上海AI Lab/TeleAI/上科大等团队新作
量子位· 2025-03-05 12:21
核心观点 - SpatialVLA是一种通用机器人策略,通过探索对齐的空间表示,赋予视觉-语言-动作(VLA)模型3D空间智能,显著提升了在现实世界中的通用性和鲁棒性 [6][8] - 该模型在zero-shot泛化控制、新场景高效微调和空间理解能力评估中均取得最先进性能,尤其在复杂环境变化和跨机器人平台适应性方面表现突出 [10][12][17][20] - 模型采用Ego3D位置编码、自适应空间动作网格和空间嵌入适应三大关键技术,解决了机器人观察数据3D未对齐和动作特性多样化的核心挑战 [6][7] 通用操作策略面临的挑战 - 现有VLA模型局限于2D输入,缺乏鲁棒3D感知能力,难以应对单视角视差、光照变化和环境不一致等现实场景问题 [1][3] - 机器人观察数据因相机传感器和安装位置差异导致3D空间未校准,动作特性因自由度、控制器等差异而多样化,阻碍通用策略开发 [4][5] SpatialVLA模型架构 - 采用SigLIP视觉编码器提取2D语义特征,通过Ego3D位置编码融合3D空间上下文,消除对特定机器人相机校准的依赖 [6][7] - 将连续7D动作(ΔT,ΔR,G)离散化为3个空间动作token,通过自适应动作网格实现不同机器人动作与3D物理世界的对齐 [6][7] - 后期训练中通过高斯分布调整动作网格和空间嵌入,实现跨机器人平台的高效迁移 [6][7] 实验验证结果 Zero-shot泛化控制 - 在SimplerEnv Benchmark中,WidowX配置下整体成功率达34 4%(zero-shot)和42 7%(微调),"将茄子放入黄色篮子"任务微调后成功率100% [12][14] - 真实WidowX平台测试显示,在未见过的场景、物体和动态动作中平均成功率显著超越OpenVLA等基线 [15][16] 新场景高效微调 - 在Franka机械臂13个平台上,从基本操作到混合多任务均表现优异,验证了作为通用控制策略的多功能性 [17][18] - LIBERO Benchmark中取得78 1%最高平均成功率,在无state输入策略中排名第一 [19] 空间理解能力 - Franka任务1准确率73%,WidowX零样本任务2-4操作能力显著提升,LIBERO-Spatial任务成功率88 2% [20][21] - 相比Octo等基线策略(成功率<50%),3D信息集成使模型在空间布局变化中展现更强适应性和鲁棒性 [20] 技术实现与开源 - 项目已全面开源,提供Huggingface模型库、GitHub训练代码和项目主页,支持下载部署、预训练和高效微调 [22][23]