GelSight视触觉传感器
搜索文档
全球首个!国地中心发布VTouch超6万分钟跨本体视触觉数据集,为下一代具身VTLA提供数据基础与模型基准
机器人大讲堂· 2026-01-27 12:06
文章核心观点 - 国家地方共建人形机器人创新中心与纬钛机器人联合发布了全球首个跨本体视触觉多模态数据集“白虎-VTouch”,该数据集规模超60000分钟,旨在解决具身智能机器人真实物理交互数据稀缺、高保真触觉信息不足、跨本体泛化能力弱三大核心难题,为构建具备物理理解与精细操控能力的具身基础模型提供关键数据支撑[1][4][5] 数据集概况与意义 - 数据集名称为“白虎-VTouch”,是全球首个跨本体视触觉多模态数据集,包含视触觉传感器数据、RGB-D数据、关节位姿数据等[1] - 数据集总规模超60000分钟,第一批6000分钟开源数据已上线OpenLoong开源社区[1] - 该数据集填补了大规模真实视触觉交互数据的长期空白,补足了具身智能Scaling Law中“触觉与接触”维度的缺失[4][5] - 数据集旨在加速机器人从“能看”走向“能触、能控、能稳态泛化”的真实世界部署进程[5] 技术合作方背景 - 合作方上海纬钛科技有限公司起源于美国麻省理工学院,其创始人李瑞博士与导师Edward Adelson教授共同开创了视触觉技术路线[6] - 纬钛机器人发明了全球第一款视触觉传感器GelSight,其分辨率超越人类手指,被全球学术界认可为先进的触觉技术路径[6] 数据集内容与构建方法 - 数据集覆盖家居家政、工业制造、餐饮服务、特种作业4大类真实场景,包含380余种任务类型、100余项原子技能、500余件真实物品[7] - 采用创新的“矩阵式”任务构建新范式,实现了“数据规模化生成+能力结构化覆盖+泛化学习路径可控”的统一闭环,突破了传统“单任务人工采集”的低效模式[7] - 任务设计按“协同模式→接触状态→触觉依赖”顺序分为三大维度:双臂协同结构(含4类子项)、原子操作类型(100+原子任务)、接触与触觉模式[9][10] 数据采集平台技术优势 - 研究团队构建了跨本体规模化数据采集解决方案,支持多机高带宽同步的大规模数据采集[12] - 平台具备六大技术优势:实现100MB/s+的实时采集效率;可同时兼容视觉、触觉、力觉、位姿等10+种传感器;通过双时间戳设计保障多传感器时序精准对齐;以分布式方式处理数据采集以控制成本;搭载队列缓冲与进程监控的双重保障机制;配备Web控制面板实现实时监控与一键录制[12] 数据标注体系 - 团队构建了跨层次交互理解具身标注体系,分为抽象思维层(理解“为什么”)、动作逻辑层(明白“怎么做”)、物理状态层(感受“做什么”)三级[14] - 该标注体系将分批次开源,旨在为下一代具身VTLA提供数据标准[14] 算法框架与数据集性能 - 团队构建了统一训-推算法框架,实现从多模态数据处理到模型训练与在线推理的完整闭环,以保障模型在真实机器人上稳定执行与安全控制[15] - 数据集采用的视触觉传感器支持最高640×480分辨率与120Hz刷新率,包含约9072万对视触觉接触图像的真实物体接触样本[16] - 视触觉接触数据占数据集总规模的57%[16] - 在任务层面,视触觉信息重点覆盖260+接触密集型任务,其中68%的任务在引入视触觉感知后获得了更完整、连续的接触状态描述[16] 行业比较与后续计划 - 与GRAB、ARCTIC、TacQuad等其他数据集相比,白虎-VTouch数据集规模达1000+小时,是当前全球规模最大、模态最完整的视触觉多模态机器人操作数据集[4][20] - 国地中心将联合生态单位持续推进具身VTLA模型研究,并深度融合矩阵式任务设计、多层次语义标注与统一算法框架[19] - 该数据集是围绕全国首个具身智能领域国家级标准化试点“上海虚实融合具身智能训练场标准化试点”建设的标志性成果之一[20]