成果发布!国地中心VTouch研究赋能新一代具身实训场建设与模型进化
机器人大讲堂·2026-04-27 23:00

核心观点 - 国家地方共建人形机器人创新中心发布了全球首个规模超60000分钟的跨本体视触觉多模态操作数据集“白虎·VTouch”,旨在为下一代具身智能提供数据基础与模型基准 [2] - 该数据集系统性融合视觉与触觉信息,并引入“跨本体”设计理念,覆盖不同机器人结构与形态,以提升数据的通用性与泛化能力 [2] - 围绕该数据集的研究构建了从数据驱动、端到端模型训练到真实机器人系统部署验证的完整技术闭环 [2] 数据集发布与影响 - 全球首个超6万分钟跨本体视触觉数据集:VTouch数据集规模超60000分钟,面向机器人精细作业场景,融合视觉与触觉信息 [2] - 开源与高使用量:研究成果与数据集配套脚本已上线arXiv和OpenLoong开源社区,数据集下载使用量已突破89万次 [3] - 支持多种平台与格式:数据集支持Qingloong(足式)、Wheelloong M1(轮式)、Pika(夹爪)等多种机器人本体平台,并支持RoboMimic(基于HDF5)和LeRobot(基于视频)两种主流数据格式转换 [5][7] 技术创新与研究方法 - 视觉-触觉-姿态统一对齐框架:提出一种融合视觉、触觉与姿态信息的统一建模方法,通过对比学习范式将三类异构模态映射至同一特征空间,实现协同表达与对齐 [6][8] - 技术实现细节:视觉模态采用DINOv2预训练模型,触觉模态构建专用触觉卷积网络(TactileCNN),姿态模态引入12维关节位置及2维夹爪开合参数 [10] - 跨模态检索性能显著提升:基于对比学习的跨模态检索模型在性能上实现显著提升,三模态融合相比双模态组合具有更明显的性能增益 [14][15] - 在基线方法中,引入触觉信息后的跨模态检索成功率提升约14% [16] - 在基于对比学习的模型中,触觉信息带来约8%的性能提升 [16] 策略验证与评估体系 - 四层渐进式分布内策略验证框架:从动作质量、物理合理性、时序一致性、输出稳定性四个维度对模仿学习策略进行评估,以降低模型迁移至真实场景的不确定性 [15] - 验证结果:在VTouch数据集上对ACT(base)、ACT(temporal)、Diffusion Policy策略进行验证 [16] - Diffusion Policy在专家相似度(0.848)和总体得分(0.836)上表现优异 [17] - 策略在短时域内能保持稳定的行为模式(负误差增长),并具有可靠的确定性输出(极低的方差) [16][17] 真机部署与应用框架 - 真机闭环应用框架:提出一种通用性的产业级机器人应用框架,打通从数据驱动建模到真实机器人执行的完整链路,具备广泛的感知数据兼容性、内置规划策略库并支持多种运控方式 [21][23] - 框架验证与通用性:基于该框架在实机平台完成模型训练与推理验证,形成可复现的技术闭环,验证了方法在不同构型机器人上的可行性与稳定性 [22] - 端到端验证闭环:基于ACT与DP框架,打通了从模型训练到真机部署的全流程 [25] 行业影响与标准化 - 标准化试点标志性成果:作为全国首个具身智能领域国家级标准化试点“上海虚实融合具身智能训练场标准化试点”的标志性成果,VTouch数据集将系统化布局多模态数据融合规范、评测基准与接口标准研制 [25] - 构建完整下游任务流程:构建了面向视触觉多模态数据集的完整下游任务流程,为相关研究与应用提供了可复用的实践路径 [25] - 广泛的行业参与:文章末尾列举了包括工业机器人、服务与特种机器人、人形机器人、具身智能企业、医疗机器人及上游产业链企业在内的超过100家相关企业,显示了行业生态的广泛参与度 [26][27][28][29][30][31][32]

成果发布!国地中心VTouch研究赋能新一代具身实训场建设与模型进化 - Reportify