UniPi

搜索文档
显示端到端VLA是什么?有哪些方法?
具身智能之心· 2025-06-25 16:24
显示端到端VLA模型 - 显示端到端VLA模型明确生成未来机械臂运动的图像,与隐式模型形成对立 [1] - 模型涉及逆运动学概念,用于计算物体关节运动以达到目标位置 [1][3] 逆运动学 - 逆运动学应用于机器人学、动画学和计算机图形学,根据目标位置计算关节运动 [3] - 核心步骤包括利用矩阵、三角学或迭代方法计算关节角度,解决多解性问题 [4] - 需要已知目标位置坐标和物体几何构造(如机械臂长度、关节限制) [6] 主要研究工作 UniPi - 将序列决策问题转化为文本条件视频生成问题,实现跨机器人操作任务的学习与泛化 [5] - 通过预训练语言嵌入和互联网视频资源实现知识迁移,支持新目标的组合式泛化 [5] Robodreamer - 通过视频生成的因子化分解学习组合式世界模型,解决泛化能力受限问题 [8] - 在RT-X数据集上成功合成针对未知目标的视频规划方案,性能超越传统基线方法 [8] LAPA - 提出首个无需真实机器人动作标签的无监督VLA预训练方法 [10] - 通过动作量化建模和隐式VLA预训练,利用互联网规模视频学习 [10][11] - 在语言条件控制、未见物体泛化和未知指令语义泛化任务上超越SOTA模型 [11] GR-1 - 首次证明大规模视频生成式预训练能显著提升视觉机器人操作性能 [14] - 在CALVIN基准测试中将成功率从88.9%提升至94.9%,零样本泛化从53.3%跃升至85.4% [15] - 采用GPT架构设计,支持大规模视频数据集预训练和机器人数据微调 [15]