视觉 - 语言 - 动作模型(VLAs)
搜索文档
英伟达最新 | 0成本搭建你的SOTA模型!轻量化VLA时代来啦~
具身智能之心· 2025-10-28 12:00
文章核心观点 - NVIDIA团队提出的VLA-0模型采用“零改动”设计,不修改基础视觉语言模型的结构,而是将机器人动作转化为文本格式让模型直接预测,该方法在模拟和真实机器人操控任务中超越了多种复杂架构的视觉-语言-动作模型[1] - 该设计的核心优势在于避免了因添加动作生成头或修改词汇表而破坏VLM原有的语言理解能力,同时实现了更高的数据效率和更低的研发与部署成本[2][16] - 实验证明,VLA-0在LIBERO基准测试中以94.7%的平均成功率排名无预训练模型第一,并在真实机器人任务中以60%的成功率超越对比模型12.5个百分点[10][11] VLA-0的核心设计思路 - 模型完全保留基础VLM的结构,仅通过“动作文本化表示”与“精细训练策略”使其具备动作预测能力,核心环节包括输入设计、动作解码以及训练与推理策略[3] - 输入设计复用VLM原生格式,包含系统提示、多模态观测和自然语言任务指令,多图输入方式(单独或拼接)性能差异极小,仅0.2%[4] - 动作解码将连续动作值归一化到固定整数范围(如0-1000),VLM直接生成空格分隔的整数字符串,再反向解析为连续动作执行,动作分辨率可通过调整整数范围任意设定[4] 训练与推理策略 - 训练端采用掩码动作增强策略,随机掩码动作文本中的部分字符,迫使VLM基于图像和任务指令推理动作,该策略提升平均成功率1.2%[4] - 推理端采用集成预测策略,综合多步预测结果取平均值作为最终执行动作,提升动作稳定性,实验显示可提升平均成功率2%[5][6][7] - 训练配置基于30亿参数的Qwen-VL-2.5模型,使用Adam优化器,在8张A100上训练64个epoch仅需32小时,批量大小为192,学习率为5e-6[7] 模拟场景实验结果 - 在LIBERO基准的4个任务套件测试中,VLA-0在无大规模动作预训练的模型中平均成功率达94.7%,排名第一,比第二名模型高1.4%[9][10] - 在Spatial、Object、Goal三个套件中成功率分别为97.0%、97.8%、96.2%,均为最高[10] - 与经过大规模预训练的模型相比,VLA-0无预训练仍超越多个知名模型,如GR00T-N1(93.9%)和MolmoAct(86.8%),平均排名2.8[10] 真实场景实验结果 - 在SO-100真实机器人上测试4个典型操控任务,VLA-0平均成功率达60%,超越基于大规模SO-100数据预训练的SmolVLA模型(47.5%)12.5个百分点[11][13] - 在单张5090 GPU上实现4Hz推理速度,未使用集成预测,若启用集成可进一步提升稳定性但需8个模型实例并行[12] 关键结论与行业影响 - VLA-0证明了简单设计可实现顶尖性能,其“零改动”思路避免了复杂架构改动对VLM原有能力的破坏,为模型工程化落地提供了新方向[14][15] - 模型不依赖大规模机器人动作预训练,仅用任务专属的少量演示数据(如每个真实任务100条演示)就能超越预训练模型,大幅降低数据采集成本[15] - 基于轻量级VLM(Qwen-VL-2.5-3B)实现了性能与部署可行性的平衡,训练成本低、推理速度快,更适合实际机器人系统[16]
具身智能迎来ImageNet时刻:RoboChallenge开放首个大规模真机基准测试集
机器之心· 2025-10-15 18:44
行业背景与平台定位 - 全球首个大规模、多任务、在真实物理环境中由真实机器人执行操作任务的基准测试平台[1] - 旨在解决机器人行业缺乏统一、开放、可复现基准测试方法的挑战,为视觉-语言-动作模型(VLAs)的实际应用提供可靠评估标准[4] - 平台由Dexmal原力灵机联合Hugging Face共同发起,通过云端服务突破硬件资源限制,实现“没有机器人,一样做实验”[1][14] 平台核心架构与机器人选型 - 集成多款主流机器人(UR5、Franka Panda、Aloha、ARX-5)实现远程评测,确保系统具备7×24小时持续运行能力[7][9] - 传感方案同步输出多视角RGB与对齐深度信息,未来计划集成力控或触觉传感器[9] - 采用无容器化服务架构与标准化API接口,用户无需提交Docker镜像即可直接调用,所有观测数据提供毫秒级时间戳[19] 基准测试方法与评估体系 - 创新性提出“视觉输入匹配”方法,通过调整物体位置使实时场景与参考图像完全吻合,确保每次测试初始状态一致[16] - 采用端到端任务成功率与过程评分相结合的评估机制,测试集所有任务均提供约1000条演示数据[11] - 突破传统二值化评估局限,采用进度评分系统,对复杂任务认可分步进展,对简单任务优化完成效率[23] 首套测试集Table30与模型表现 - Table30包含30个精心设计的日常情境任务,相比之下行业内真机评测任务数量一般仅为3-5个[18] - 测试结果显示最新发布的Pi0.5模型取得61.84分和42.67%成功率,显著优于其他模型但仍无法在所有任务上取得高成功率[22] - 任务设计涵盖四个关键维度:VLA解决方案难点、机器人类型、任务场景环境和目标物体属性,系统评估算法在多维度场景下的泛化能力[23] 社区建设与未来规划 - 向全球研究者免费提供评测服务,并公开所有任务演示数据及测试中间结果,确保研究的可复现性与透明度[27] - 未来计划引入移动机器人、灵巧操作装置等更多硬件平台,拓展跨场景任务测试能力[29] - 评测维度将从视觉-动作协调延伸至多模态感知、人机协作等方向,并计划推出动态环境适应、长期规划等更具挑战性的基准测试[29]
XRoboToolkit:延迟低、可扩展、质量高的数据采集框架
具身智能之心· 2025-08-07 08:03
核心背景与目标 - 视觉-语言-动作模型(VLAs)快速发展,对大规模、高质量机器人演示数据集需求迫切 [3] - 现有遥操作方案存在可扩展性有限、设置复杂、数据质量欠佳等问题 [3] - XRoboToolkit基于OpenXR标准,通过低延迟立体视觉反馈、优化逆运动学算法及模块化架构解决现有局限 [3] 现有遥操作方案的局限 - Leader-follower方案:延迟低但依赖定制硬件,可扩展性受限 [5] - 视觉基遥操作系统:硬件兼容性强但跟踪性能不稳定、延迟高 [5] - XR方案:跨平台通用但配置复杂,缺乏标准化数据格式,新设备集成工作量大 [5] XRoboToolkit的核心设计 整体架构 - 三层结构:XR端(Unity-Client)、服务端(PC-Service)、机器人端(模块化接口) [4] - 支持多种机器人平台(UR5、ARX R5机械臂等)和模拟器(MuJoCo) [5] 数据流式传输 - 异步回调驱动架构实现实时数据传输 [7] - 数据格式:6自由度位姿数据以7个浮点数表示,90Hz频率传输,封装为JSON对象 [9] - 跟踪数据类型涵盖头、控制器、手、全身及运动跟踪器,具体字段见Table 1 [7][9] 机器人控制模块 - 逆运动学求解:基于二次规划(QP)的IK solver,优化目标函数生成平滑运动 [8] - 灵巧手重定向:将OpenXR手模型26个关节点映射到机器人手关节,优化函数实现平滑运动 [10] - 移动基座控制:XR控制器摇杆实现全向移动平台控制,左摇杆线速度,右摇杆角速度 [10] XR Unity应用与立体视觉反馈 - 应用界面包含5个面板(Network、Tracking、Remote Vision等),支持PICO 4 Ultra和Meta Quest 3 [16] - 立体视觉支持PICO 4 Ultra和ZED Mini,自定义着色器调整瞳距,优化深度感知 [16] 应用场景与验证 多平台适配 - 双臂系统完成地毯折叠,移动操纵器完成运输放置 [16] - 双UR5机械臂实现3mm螺丝刀插入4mm孔(公差±0.5mm) [16] - 冗余机械臂控制通过肘部运动跟踪器引入约束,实现类人化运动 [16] 性能评估 - 延迟对比:XRoboToolkit(ZED Mini-PICO 4 Ultra)平均延迟82ms,显著低于Open-TeleVision的121.5ms [11] - PICO 4 Ultra自传输配置延迟100.5ms,稳定性最优(标准差3.12ms) [11] - 数据质量验证:ARX R5双臂折叠地毯数据微调模型后,30分钟连续运行成功率100% [13]
Being-H0:从大规模人类视频中学习灵巧操作的VLA模型
具身智能之心· 2025-07-23 16:45
研究背景与动机 - 大语言模型和多模态模型在文本、图像领域取得突破,但机器人领域缺乏类似"ChatGPT时刻"的变革 [3] - 现有视觉-语言-动作模型(VLAs)在复杂灵巧操作任务中表现不佳,主要受限于数据问题:合成数据存在"仿真到真实"鸿沟,远程操作演示规模小、多样性不足 [3] - 人类视频蕴含丰富操作数据,但面临四大挑战:数据异质性、手部运动量化、跨模态推理、机器人控制转移 [3] 核心方法:物理指令调优 - 提出物理指令调优范式,通过"预训练-物理空间对齐-后训练"三阶段将人类手部运动知识迁移到机器人操作 [4] - 预训练阶段以人类手为理想操纵器,在大规模人类视频上训练基础VLA,学习视觉、语言到运动的映射 [6] - 物理空间对齐阶段通过弱透视投影对齐和视角不变运动分布平衡策略统一多源数据的3D推理 [10][12] 关键技术:运动token化与跨模态融合 - 采用分组残差量化(GRQ)进行部分级运动token化,将手部运动分解为手腕和手指两部分分别处理,保留毫米级精度 [14][18] - 跨模态融合通过共享注意力机制实现视觉、语言和运动token的统一交互,视觉token替换文本占位符,运动token作为结构化块插入序列 [17][23] UniHand数据集 - 构建包含44万任务轨迹、1.3亿帧视频、1100多小时内容的UniHand数据集,生成1.65亿运动-指令对 [21] - 数据集整合三类数据源:高精度运动捕捉数据、VR录制数据、伪标注真实场景视频 [24] - 采样250万样本(UniHand-2.5M)用于预训练,平衡任务和数据源分布 [21] 实验结果 - 14B模型在运动生成任务中表现最优:MPJPE 6.87mm(头部)、8.11mm(尾部),MWTE 5.19mm(头部)、7.41mm(尾部) [25] - 长序列生成中,14B模型误差累积更少:短期(2-5s)MPJPE 7.43-8.39mm,长期(6-10s)MPJPE 7.98-9.72mm [27] - 真实机器人操作任务成功率显著提升:在"拾取unseen玩具"和"杂乱场景拾取"中分别达65%和60% [28]