视觉-语言-动作（VLA）

搜索文档

量子位· 2025-06-25 13:00

核心观点 - LeVERB框架首次打通视觉语义理解与物理运动之间的断层，实现人形机器人通过感知新环境和理解语言指令直接完成全身动作 [3][15] - 该框架基于模拟数据训练实现零样本部署，在宇树G1机器人测试中简单视觉导航任务零样本成功率达80%，整体任务成功率58.5%，比传统方案强7.8倍 [1][10][36] - 采用分层双系统设计，高层专注任务理解（10Hz），底层专注动作执行（50Hz），通过潜在动作词汇实现高效协同 [17][18][23][24] 技术架构系统设计 - 高层LeVERB-VL：102.6M参数的视觉语言主干，将指令和视觉转换为潜在动词，包含VLA先验模块、运动学编码器等组件 [23] - 底层LeVERB-A：1.1M参数的全身动作专家，通过强化学习将潜在指令解码为动力学级动作，采用Transformer架构输出关节位置指令 [23][24] - 潜在动作词汇作为接口实现两层协同，训练时通过轨迹重建、分布对齐等优化模型 [15][16][18] 性能优势 - 解决传统VLA模型只能处理准静态任务的问题，支持高频控制（50Hz）与低频规划（10Hz）结合 [12][14] - 消除人工预设动作库依赖，直接根据环境语义生成动作，如"坐下"动作通过相机感知+语言指令完成 [3][4] 基准测试 LeVERB-Bench - 首个面向人形机器人全身控制的仿真到真实基准，包含10类154个视觉语言任务和460个仅语言任务 [6][7][30] - 采用IsaacSim光线追踪渲染，程序化生成17.1小时运动轨迹和2.7小时仅语言数据，覆盖500条不同轨迹 [26][27][31] - 在20个随机环境中评估，场景纹理和物体属性完全随机化以检验泛化能力 [33] 测试结果 - 视觉导航任务：简单场景成功率80%，中级场景75%，困难场景50% [36][37] - 仅语言任务（坐/站/移动）成功率高达97% [37] - 消融实验显示判别器和运动学编码器对性能有关键影响，移除后性能显著下降 [38] 应用验证 - 成功部署于宇树G1机器人，完成"走向椅子坐下"等真实场景任务 [34] - 验证仿真到真实的迁移能力，最高实现7.8倍性能提升 [10][36] 团队背景 - 半数成员为UC伯克利、卡内基梅隆大学的华人学者 [39] - 负责人薛浩儒曾领导价值数百万美元的AI Racing Tech自动驾驶赛车项目，最高时速160英里 [43][44] - 另一位负责人廖启源在波士顿动力公司实习，研究方向为机器驱动与学习控制结合 [47][48][49]

视觉-语言-动作（VLA）