视觉-语言-动作(VLA)

搜索文档
ICCV2025 | DexVLG:大规模灵巧视觉-语言-抓取模型
具身智能之心· 2025-07-07 17:20
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Jiawei He等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 动机与出发点 随着大型模型的兴起,视觉-语言-动作系统使机器人能够处理日益复杂的任务。然而,受限于数据收集的难 度,研究进展主要集中在控制简单的夹持器末端执行器上。关于使用大型模型实现类人灵巧手的功能性抓 取研究较少。DexVLG是一个大型视觉-语言-抓取模型,用于根据语言指令,通过单视角RGBD输入预测灵 巧抓取姿态。 为实现这一目标,还生成了一个包含1.7亿个灵巧抓取姿态的数据集,这些姿态映射到174,000个模拟目标的 语义部分,并配有详细的part级描述。这个名为DexGraspNet 3.0的大规模数据集被用于训练一个VLM和基 于流匹配的姿态Head,该模型能够为桌面物体生成与指令对齐的抓取姿态。为了评估DexVLG的性能,在 基于物理的模拟中创建了基准,并进行了真实世界实验。大量测试表明,DexVLG具 ...
cVLA:面向高效相机空间VLA模型的关键位姿预测方法
具身智能之心· 2025-07-06 19:54
本文只做学术分享,如有侵权,联系删文 写在前面 视觉-语言-动作(VLA)模型为复杂机器人操作任务提供了强有力的框架,但训练成本往往很高。研究提出了一种新的VLA方法,利用视觉语言模型(VLMs)在 2D图像上的出色表现,直接推断机器人末端执行器在图像帧坐标中的位姿。与以往输出低级控制指令的VLA模型不同,该模型预测轨迹路标,不仅训练更高效, 还与机器人实体无关。尽管设计轻量,其下一个token预测架构仍能有效学习有意义且可执行的机器人轨迹。此外,还探索了深度图像的潜力、解码策略等推理技 术,以及基于演示的动作生成。模型在模拟数据集上训练,展现出良好的模拟到现实迁移能力,并通过模拟和真实数据结合的评估,证明了在真实机器人系统上 的有效性。 >> 点击进入→ 具身智能之心 技术交流群 点击下方 卡片 ,关注" 具身智能 之心 "公众号 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 作者丨 Max Argus等 编辑丨具身智能之心 1. 引言 视觉-语言-动作(VLA)模型通过融合视觉、语言和交互数据,实现细粒度感知与动作生成,能解决多种任务。但V ...
人形机器人首次打通视觉感知与运动断层,UC伯克利华人博士让宇树G1现场演示
量子位· 2025-06-25 13:00
核心观点 - LeVERB框架首次打通视觉语义理解与物理运动之间的断层,实现人形机器人通过感知新环境和理解语言指令直接完成全身动作 [3][15] - 该框架基于模拟数据训练实现零样本部署,在宇树G1机器人测试中简单视觉导航任务零样本成功率达80%,整体任务成功率58.5%,比传统方案强7.8倍 [1][10][36] - 采用分层双系统设计,高层专注任务理解(10Hz),底层专注动作执行(50Hz),通过潜在动作词汇实现高效协同 [17][18][23][24] 技术架构 系统设计 - 高层LeVERB-VL:102.6M参数的视觉语言主干,将指令和视觉转换为潜在动词,包含VLA先验模块、运动学编码器等组件 [23] - 底层LeVERB-A:1.1M参数的全身动作专家,通过强化学习将潜在指令解码为动力学级动作,采用Transformer架构输出关节位置指令 [23][24] - 潜在动作词汇作为接口实现两层协同,训练时通过轨迹重建、分布对齐等优化模型 [15][16][18] 性能优势 - 解决传统VLA模型只能处理准静态任务的问题,支持高频控制(50Hz)与低频规划(10Hz)结合 [12][14] - 消除人工预设动作库依赖,直接根据环境语义生成动作,如"坐下"动作通过相机感知+语言指令完成 [3][4] 基准测试 LeVERB-Bench - 首个面向人形机器人全身控制的仿真到真实基准,包含10类154个视觉语言任务和460个仅语言任务 [6][7][30] - 采用IsaacSim光线追踪渲染,程序化生成17.1小时运动轨迹和2.7小时仅语言数据,覆盖500条不同轨迹 [26][27][31] - 在20个随机环境中评估,场景纹理和物体属性完全随机化以检验泛化能力 [33] 测试结果 - 视觉导航任务:简单场景成功率80%,中级场景75%,困难场景50% [36][37] - 仅语言任务(坐/站/移动)成功率高达97% [37] - 消融实验显示判别器和运动学编码器对性能有关键影响,移除后性能显著下降 [38] 应用验证 - 成功部署于宇树G1机器人,完成"走向椅子坐下"等真实场景任务 [34] - 验证仿真到真实的迁移能力,最高实现7.8倍性能提升 [10][36] 团队背景 - 半数成员为UC伯克利、卡内基梅隆大学的华人学者 [39] - 负责人薛浩儒曾领导价值数百万美元的AI Racing Tech自动驾驶赛车项目,最高时速160英里 [43][44] - 另一位负责人廖启源在波士顿动力公司实习,研究方向为机器驱动与学习控制结合 [47][48][49]
ForceVLA:通过力感知MoE增强接触丰富操作的VLA模型
具身智能之心· 2025-06-18 18:41
研究背景与问题提出 - 视觉-语言-动作(VLA)模型在机器人操作领域推动通用机器人发展,但处理接触丰富任务时存在局限性,尤其在视觉遮挡或动态不确定性情况下表现不佳[4] - 现有VLA模型依赖视觉和语言线索,忽略力传感模态,导致在插入、工具使用或装配等任务中行为脆弱或失败[4] - 不同任务阶段需要不同形式的力调制,如精细抓取、受控插入和顺应性表面接触,现有方法缺乏感知和适应动态变化的机制[4] 核心创新点 - ForceVLA框架将外部力传感作为VLA系统中的一等模态,引入FVLMoE融合模块动态集成视觉-语言嵌入与实时6轴力反馈[6] - FVLMoE模块通过门控机制计算专家子网络的动态路由权重,专门处理不同模态,实现力、视觉和语言特征的动态处理和深度集成[7][8] - ForceVLA-Data数据集包含五个接触丰富操作任务的同步视觉、本体感受和力-扭矩信号,共244条轨迹和14万个同步时间步[9][15] 方法细节 - ForceVLA基于π₀框架构建,集成视觉、语言、本体感受和6轴力反馈,通过条件流匹配模型生成动作[11] - FVLMoE模块将6轴力-扭矩数据转换为力token embedding,与视觉-语言特征连接后输入模块,通过稀疏混合专家层动态路由[12] - 数据采集使用Flexiv Rizon 7-DOF机械臂,配备Dahuan自适应夹具和两个RGB-D摄像头,通过Quest3 VR界面进行人类遥操作[15] 实验与结果 - ForceVLA在五个接触丰富操作任务上的平均成功率为60.5%,显著优于不使用力反馈的π₀-base模型(37.3%)[25] - 在黄瓜削皮任务中,ForceVLA平均削皮长度达14.12厘米,仅需7次strokes即可完成,优于To-base w/F的13.17厘米和10次strokes[19] - 在视觉遮挡场景下ForceVLA成功率高达90%,在五种挑战性实验条件下平均成功率达63.78%[20][22][25] - 消融研究显示ForceVLA通过FVLMoE模块实现的自适应融合成功率达80%,显著高于晚期融合(60%)和早期融合(55%)[23][26] - 多任务联合训练中ForceVLA平均成功率达67.5%,在插头插入任务中成功率100%,瓶子按压和白板擦拭任务达80%[27]