视觉 - 语言 - 动作模型（VLAs）

搜索文档

具身智能之心· 2025-10-28 12:00

点击下方卡片，关注" 具身智能之心 "公众号作者丨 Ankit Goyal等编辑丨具身智能之心本文只做学术分享，如有侵权，联系删文 >> 点击进入→ 具身智能之心技术交流群更多干货，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球 (戳我) ，这里包含所有你想要的。在机器人操控领域，视觉-语言-动作模型（VLAs）一直被视为实现通用化操作的关键技术。当前主流方案要么给基础视觉-语言模型（VLM）添加特殊动作 token，要么额外设计动作生成头，甚至修改模型架构 ——这些复杂操作不仅增加研发成本，还可能破坏 VLM 原本的语言理解能力。而 NVIDIA 团队提出的 VLA-0 ，用一种看似 "反常识" 的简单思路打破了僵局：不修改 VLM 的任何结构，直接让它以文本形式预测动作。实验证明，这种 "零改动" 设计不仅有效，还能在模拟和真实场景中超越众多复杂架构的 VLAs，为机器人操控模型的轻量化研发提供了全新方向。论文标题：VLA-0: Building State-of-the-Art VLAs with Zero Modification 文章链接：https:// ...

具身智能迎来ImageNet时刻：RoboChallenge开放首个大规模真机基准测试集

机器之心· 2025-10-15 18:44

行业背景与平台定位 - 全球首个大规模、多任务、在真实物理环境中由真实机器人执行操作任务的基准测试平台[1] - 旨在解决机器人行业缺乏统一、开放、可复现基准测试方法的挑战，为视觉-语言-动作模型（VLAs）的实际应用提供可靠评估标准[4] - 平台由Dexmal原力灵机联合Hugging Face共同发起，通过云端服务突破硬件资源限制，实现“没有机器人，一样做实验”[1][14] 平台核心架构与机器人选型 - 集成多款主流机器人（UR5、Franka Panda、Aloha、ARX-5）实现远程评测，确保系统具备7×24小时持续运行能力[7][9] - 传感方案同步输出多视角RGB与对齐深度信息，未来计划集成力控或触觉传感器[9] - 采用无容器化服务架构与标准化API接口，用户无需提交Docker镜像即可直接调用，所有观测数据提供毫秒级时间戳[19] 基准测试方法与评估体系 - 创新性提出“视觉输入匹配”方法，通过调整物体位置使实时场景与参考图像完全吻合，确保每次测试初始状态一致[16] - 采用端到端任务成功率与过程评分相结合的评估机制，测试集所有任务均提供约1000条演示数据[11] - 突破传统二值化评估局限，采用进度评分系统，对复杂任务认可分步进展，对简单任务优化完成效率[23] 首套测试集Table30与模型表现 - Table30包含30个精心设计的日常情境任务，相比之下行业内真机评测任务数量一般仅为3-5个[18] - 测试结果显示最新发布的Pi0.5模型取得61.84分和42.67%成功率，显著优于其他模型但仍无法在所有任务上取得高成功率[22] - 任务设计涵盖四个关键维度：VLA解决方案难点、机器人类型、任务场景环境和目标物体属性，系统评估算法在多维度场景下的泛化能力[23] 社区建设与未来规划 - 向全球研究者免费提供评测服务，并公开所有任务演示数据及测试中间结果，确保研究的可复现性与透明度[27] - 未来计划引入移动机器人、灵巧操作装置等更多硬件平台，拓展跨场景任务测试能力[29] - 评测维度将从视觉-动作协调延伸至多模态感知、人机协作等方向，并计划推出动态环境适应、长期规划等更具挑战性的基准测试[29]

XRoboToolkit：延迟低、可扩展、质量高的数据采集框架

具身智能之心· 2025-08-07 08:03

核心背景与目标 - 视觉-语言-动作模型（VLAs）快速发展，对大规模、高质量机器人演示数据集需求迫切 [3] - 现有遥操作方案存在可扩展性有限、设置复杂、数据质量欠佳等问题 [3] - XRoboToolkit基于OpenXR标准，通过低延迟立体视觉反馈、优化逆运动学算法及模块化架构解决现有局限 [3] 现有遥操作方案的局限 - Leader-follower方案：延迟低但依赖定制硬件，可扩展性受限 [5] - 视觉基遥操作系统：硬件兼容性强但跟踪性能不稳定、延迟高 [5] - XR方案：跨平台通用但配置复杂，缺乏标准化数据格式，新设备集成工作量大 [5] XRoboToolkit的核心设计整体架构 - 三层结构：XR端（Unity-Client）、服务端（PC-Service）、机器人端（模块化接口） [4] - 支持多种机器人平台（UR5、ARX R5机械臂等）和模拟器（MuJoCo） [5] 数据流式传输 - 异步回调驱动架构实现实时数据传输 [7] - 数据格式：6自由度位姿数据以7个浮点数表示，90Hz频率传输，封装为JSON对象 [9] - 跟踪数据类型涵盖头、控制器、手、全身及运动跟踪器，具体字段见Table 1 [7][9] 机器人控制模块 - 逆运动学求解：基于二次规划（QP）的IK solver，优化目标函数生成平滑运动 [8] - 灵巧手重定向：将OpenXR手模型26个关节点映射到机器人手关节，优化函数实现平滑运动 [10] - 移动基座控制：XR控制器摇杆实现全向移动平台控制，左摇杆线速度，右摇杆角速度 [10] XR Unity应用与立体视觉反馈 - 应用界面包含5个面板（Network、Tracking、Remote Vision等），支持PICO 4 Ultra和Meta Quest 3 [16] - 立体视觉支持PICO 4 Ultra和ZED Mini，自定义着色器调整瞳距，优化深度感知 [16] 应用场景与验证多平台适配 - 双臂系统完成地毯折叠，移动操纵器完成运输放置 [16] - 双UR5机械臂实现3mm螺丝刀插入4mm孔（公差±0.5mm） [16] - 冗余机械臂控制通过肘部运动跟踪器引入约束，实现类人化运动 [16] 性能评估 - 延迟对比：XRoboToolkit（ZED Mini-PICO 4 Ultra）平均延迟82ms，显著低于Open-TeleVision的121.5ms [11] - PICO 4 Ultra自传输配置延迟100.5ms，稳定性最优（标准差3.12ms） [11] - 数据质量验证：ARX R5双臂折叠地毯数据微调模型后，30分钟连续运行成功率100% [13]

Being-H0：从大规模人类视频中学习灵巧操作的VLA模型

具身智能之心· 2025-07-23 16:45

研究背景与动机 - 大语言模型和多模态模型在文本、图像领域取得突破，但机器人领域缺乏类似"ChatGPT时刻"的变革 [3] - 现有视觉-语言-动作模型（VLAs）在复杂灵巧操作任务中表现不佳，主要受限于数据问题：合成数据存在"仿真到真实"鸿沟，远程操作演示规模小、多样性不足 [3] - 人类视频蕴含丰富操作数据，但面临四大挑战：数据异质性、手部运动量化、跨模态推理、机器人控制转移 [3] 核心方法：物理指令调优 - 提出物理指令调优范式，通过"预训练-物理空间对齐-后训练"三阶段将人类手部运动知识迁移到机器人操作 [4] - 预训练阶段以人类手为理想操纵器，在大规模人类视频上训练基础VLA，学习视觉、语言到运动的映射 [6] - 物理空间对齐阶段通过弱透视投影对齐和视角不变运动分布平衡策略统一多源数据的3D推理 [10][12] 关键技术：运动token化与跨模态融合 - 采用分组残差量化（GRQ）进行部分级运动token化，将手部运动分解为手腕和手指两部分分别处理，保留毫米级精度 [14][18] - 跨模态融合通过共享注意力机制实现视觉、语言和运动token的统一交互，视觉token替换文本占位符，运动token作为结构化块插入序列 [17][23] UniHand数据集 - 构建包含44万任务轨迹、1.3亿帧视频、1100多小时内容的UniHand数据集，生成1.65亿运动-指令对 [21] - 数据集整合三类数据源：高精度运动捕捉数据、VR录制数据、伪标注真实场景视频 [24] - 采样250万样本（UniHand-2.5M）用于预训练，平衡任务和数据源分布 [21] 实验结果 - 14B模型在运动生成任务中表现最优：MPJPE 6.87mm（头部）、8.11mm（尾部），MWTE 5.19mm（头部）、7.41mm（尾部） [25] - 长序列生成中，14B模型误差累积更少：短期（2-5s）MPJPE 7.43-8.39mm，长期（6-10s）MPJPE 7.98-9.72mm [27] - 真实机器人操作任务成功率显著提升：在"拾取unseen玩具"和"杂乱场景拾取"中分别达65%和60% [28]