文章核心观点 - 阿里巴巴达摩院团队提出新型视觉-语言-动作模型RynnVLA-001,旨在解决机器人操作领域大规模高质量数据稀缺的核心难题 [1] - 该模型创新性地利用1200万条以自我为中心的人类操作视频进行两阶段预训练,成功将人类演示技能迁移至机器人操作任务 [1] - 在LeRobot SO100机械臂的实验中,模型在多项操作任务中平均成功率高达90.6%,在含干扰物的复杂场景中仍保持91.7%的高成功率,性能显著超越GR00T N1.5和Pi0等主流基线模型 [2][15][18] 研究背景与问题 - 视觉-语言-动作模型的发展受限于机器人操作数据的稀缺,传统数据采集方法依赖人类远程操控实体设备,成本高昂且效率低下 [5] - 现有解决方案,如构建大规模机器人数据集或利用预训练生成模型,均未能有效弥合视觉预测与机器人动作控制之间的差距 [5] 模型创新与方法论 - 提出两阶段预训练框架:第一阶段进行以自我为中心的视频生成预训练,学习人类操作的视觉动态;第二阶段进行以人类为中心的轨迹感知建模,关联视觉预测与动作生成 [6][9][10] - 引入ActionVAE模块,将动作序列压缩为紧凑的潜在嵌入,降低模型输出空间复杂度,并保证预测动作的平滑性和时间连贯性 [6][13] - 构建大规模数据筛选流程,从网络资源中筛选出1200万条高质量人类操作视频用于模型训练 [6] 实验结果与性能对比 - 在拾取放置绿色方块、草莓抓取、钢笔入架三项任务中,RynnVLA-001的成功率分别为90.0%、91.7%和90.0%,平均成功率达90.6%,显著高于GR00T N1.5的55.6%和Pi0的70.4% [15] - 在单目标操作、多目标操作和含干扰物的指令跟随三种场景下,模型成功率分别为93.3%、86.7%和91.7%,展现出强大的指令跟随与抗干扰能力,性能稳定性优于对比模型 [18] - 消融实验证实两阶段预训练的有效性,完整模型性能最优,表明预测人类轨迹的能力能有效弥合视觉与动作间的鸿沟 [19][20][21] 技术细节与组件分析 - 模型采用双摄像头输入策略:前置摄像头负责物体粗定位与3D场景信息获取,手腕摄像头负责精细局部调整 [29][30][34] - 在Calvin基准上的消融实验显示,使用384×384图像分辨率、预测ActionVAE嵌入以及采用单一线性层动作头的模型配置性能最佳 [22][23][24][25] - 推理时,模型输出动作嵌入由ActionVAE解码器生成可执行的机器人动作序列,实现闭环控制 [16]
当机器人学会 “模仿” 人类:RynnVLA-001 如何突破操作数据稀缺困境?
具身智能之心·2025-09-22 08:03