Workflow
RDT
icon
搜索文档
从方法范式和应用场景上看强化与VLA/Flow Matching/机器人控制算法
具身智能之心· 2025-08-19 09:54
方法范式 - 传统强化学习(RL)和模仿学习结合Sim2Real技术,方法包括DQN/PPO/SAC/D4PG/GRPO等,主流仿真环境有Mujoco、Gazebo、Bullet、IssacSim/IssacGym [5] - Diffusion Policy和VLA模型与传统RL的根本区别在于用训练数据分布描述任务目标,而非依赖reward function,适合复杂任务如叠衣服、收拾桌面等 [4] - OpenVLA模型整合多模态输入,基于7B参数的Llama 2语言模型,结合DINOv2和SigLIP视觉编码器 [7] - RDT(Robotic Decision Transformer)采用Goal-Conditioned设计,在AGIBot百万真机数据集上训练 [9] - pi-0引入动作抽象层,将不同机器人关节空间映射到统一潜空间,缓解本体差异问题 [13] - 流匹配(Flow Matching)建模从标准正态分布到复杂目标数据分布的映射,用于生成机器人动作序列 [15][17][18] 技术实现 - 基础运动控制(如人形/四足机器人)以RL+sim2real为主,模型较小,算力消耗低,但全场景丝滑动作仍有差距 [22] - 复杂/长程操作任务采用预训练ViT编码器+LLM,使用diffusion/流匹配/transformer decoder输出动作,通过预训练+微调实现跨机器人泛化 [23] - 宇树官方demo基于IssacGym和PPO算法 [24] - 北京亦庄人形机器人中心开源强化学习运动控制,基于IssacLab融合人体运动数据与AMP奖励,实现天工Ultra机器人21公里奔跑 [24] - pi0预训练阶段利用10,000小时多机器人数据,微调阶段需1-5小时到上百小时任务数据,模型规格为33亿参数 [25] - Google Gemini Robotics采用云端VLA骨干(160毫秒延迟)和本地动作解码器的快慢架构 [25][26] 数据集 - Open X-Embodiment数据集包含1M+ trajectories、500+ skills、22种机器人类型,统一为RLDS格式 [21] - AGIBot数据集为智元机器人开源的百万真机数据集 [9][24] - EgoDex数据集包含829小时人类操作视频,338K轨迹/194任务 [24] 应用场景 - 基础运动控制依赖仿真器、机器人模型和domain randomization设计,reward shaping和sim2real技术 [35] - 复杂长程任务依赖VLA和Diffusion/FM,用训练数据分布描述任务目标,语言索引任务分布 [35] - 任务过程和目标定义方面,强化学习通过reward函数,VLA用数据分布描述,未来可能通过多模态输入预测任务目标 [35] - 底层控制任务适合RL+sim2real,上层复杂任务适合VLA+数据,如叠衣服、收拾桌面等需要理解人类意图的任务 [40]
空间具身通用操作模型!百万真实数据训练,预训练代码全开源 | 上海AI Lab/TeleAI/上科大等团队新作
量子位· 2025-03-05 12:21
核心观点 - SpatialVLA是一种通用机器人策略,通过探索对齐的空间表示,赋予视觉-语言-动作(VLA)模型3D空间智能,显著提升了在现实世界中的通用性和鲁棒性 [6][8] - 该模型在zero-shot泛化控制、新场景高效微调和空间理解能力评估中均取得最先进性能,尤其在复杂环境变化和跨机器人平台适应性方面表现突出 [10][12][17][20] - 模型采用Ego3D位置编码、自适应空间动作网格和空间嵌入适应三大关键技术,解决了机器人观察数据3D未对齐和动作特性多样化的核心挑战 [6][7] 通用操作策略面临的挑战 - 现有VLA模型局限于2D输入,缺乏鲁棒3D感知能力,难以应对单视角视差、光照变化和环境不一致等现实场景问题 [1][3] - 机器人观察数据因相机传感器和安装位置差异导致3D空间未校准,动作特性因自由度、控制器等差异而多样化,阻碍通用策略开发 [4][5] SpatialVLA模型架构 - 采用SigLIP视觉编码器提取2D语义特征,通过Ego3D位置编码融合3D空间上下文,消除对特定机器人相机校准的依赖 [6][7] - 将连续7D动作(ΔT,ΔR,G)离散化为3个空间动作token,通过自适应动作网格实现不同机器人动作与3D物理世界的对齐 [6][7] - 后期训练中通过高斯分布调整动作网格和空间嵌入,实现跨机器人平台的高效迁移 [6][7] 实验验证结果 Zero-shot泛化控制 - 在SimplerEnv Benchmark中,WidowX配置下整体成功率达34 4%(zero-shot)和42 7%(微调),"将茄子放入黄色篮子"任务微调后成功率100% [12][14] - 真实WidowX平台测试显示,在未见过的场景、物体和动态动作中平均成功率显著超越OpenVLA等基线 [15][16] 新场景高效微调 - 在Franka机械臂13个平台上,从基本操作到混合多任务均表现优异,验证了作为通用控制策略的多功能性 [17][18] - LIBERO Benchmark中取得78 1%最高平均成功率,在无state输入策略中排名第一 [19] 空间理解能力 - Franka任务1准确率73%,WidowX零样本任务2-4操作能力显著提升,LIBERO-Spatial任务成功率88 2% [20][21] - 相比Octo等基线策略(成功率<50%),3D信息集成使模型在空间布局变化中展现更强适应性和鲁棒性 [20] 技术实现与开源 - 项目已全面开源,提供Huggingface模型库、GitHub训练代码和项目主页,支持下载部署、预训练和高效微调 [22][23]