Workflow
中科院自动化所!视觉-触觉-语言-动作模型方案与数据集制作分享
具身智能之心·2025-07-30 08:02

视觉-触觉-语言-动作模型(VTLA)技术突破 - 提出VTLA框架 通过跨模态语言对齐融合视觉与触觉输入 在接触密集型任务中生成鲁棒策略 [2] - 构建低成本多模态数据集 包含专为指尖插入任务设计的视觉-触觉-动作-指令对 [2] - 引入直接偏好优化(DPO) 为VTLA提供类回归监督 弥合分类预测与连续机器人任务间的差距 [2] VTLA性能表现 - 在未知孔型上成功率超过90% 显著优于传统模仿学习方法(如扩散策略)及现有多模态基线(TLA/VLA) [2] - 通过真实世界孔轴装配实验验证卓越的仿真到现实(Sim2Real)迁移能力 [2] 相关技术资源 - 论文标题《VTLA: Vision-Tactile-Language-Action Model with Preference Learning for Insertion Manipulation》发布于arXiv [3] - 知识星球「具身智能之心」提供完整技术细节 QA及未公开彩蛋 包含VR-Robo BridgeVLA等机器人领域前沿方案 [4]