ViVLA框架
搜索文档
看一次就能执行!单视频示范零样本学习&跨模态动作知识迁移
具身智能之心· 2025-12-15 09:04
文章核心观点 - 北京理工大学与LimX Dynamics联合提出的ViVLA框架,通过“统一动作空间构建-并行解码优化-大规模数据生成”的三层技术体系,首次实现了机器人从单段专家示范视频中高效学习新技能,为通用机器人政策学习提供了全新范式 [1] - ViVLA框架的核心目标是“单样本视频模仿学习”,旨在解决现有视觉-语言-动作模型难以泛化到训练分布之外任务的核心瓶颈 [1] - 该框架构建了包含89万+专家-智能体配对数据的大规模数据集,并通过技术闭环实现了跨模态动作知识迁移,在多项基准测试和真实场景中展现出卓越的零样本学习与泛化能力 [2][13] 问题根源:现有VLA模型的四大核心挑战 - **细粒度动作识别能力不足**:现有视觉语言模型侧重语义级视频理解,难以分辨示范视频中精细的操纵动作,导致无法从专家行为中提取关键操作知识 [4] - **动作表征与模态差异**:人类示范视频缺乏动作标注,且专家与目标机器人的动作空间存在本质差异,传统方法无法实现有效的知识迁移 [5] - **自回归建模的固有缺陷**:现有方法存在推理效率等问题 [6] - **高质量配对数据稀缺**:机器人学习领域缺乏丰富多样的专家-智能体配对数据,现有数据集规模小、场景单一,难以支撑通用模型训练 [7] 方案设计:ViVLA的三层技术闭环 - **第一层:统一动作空间构建**:提出基于动作中心循环一致性的A3C框架,构建跨专家与智能体的统一潜在动作空间,以解决形态鸿沟与动作表征问题 [8][10] - **第二层:模型训练优化**:对视觉-语言-动作模型架构进行两大核心优化 [8] - **潜在动作编码与对齐**:通过编码器-解码器架构提取潜在动作表征,并采用VQ-VAE量化为离散token,引入循环一致性约束和局部-全局判别器来强制跨模态动作语义对齐 [11] - **并行解码与时空掩码**:摒弃自回归生成,采用并行解码机制单次前向传播生成所有动作token,大幅降低推理延迟;同时采用时空掩码策略,强制模型从部分观察中预测动作,强化全局视频理解能力 [12] - **第三层:大规模数据生成**:设计了可扩展的数据生成流程,将人类视频转化为高质量配对数据,整合多个公开数据集与自生成数据,最终形成了总计892,911条专家-智能体训练样本 [8][13] 性能验证:基准测试与真实场景结果 - **LIBERO基准测试**:在包含130个语言条件操纵任务的LIBERO基准测试中,ViVLA在未见任务上的性能表现显著超越基线模型 [14] - 在相同形态示范下,ViVLA在未见任务上的成功率达到**65%**,远超AWDA的**35%**和UniVLA的**13%** [14] - 在细分任务套件中,LIBERO-Object套件的未见任务成功率最高,达到**74%** [14][18] - **跨形态迁移验证**:在“UR机械臂示范-Franka机械臂执行”的跨形态实验中,ViVLA仅出现边际性能下降,未见任务成功率仍保持**63%**,较基线模型提升超过**35%** [15] - **真实世界验证**:在12项真实世界操纵任务中,ViVLA从单段人类示范视频中学习技能,未见任务成功率达**74%**,较AWDA的**36%**提升超过**38%** [16] - 部分任务如翻转积木、关闭篮子的成功率达到了**100%** [16][19] 鲁棒性分析与核心组件验证 - **环境鲁棒性**:面对物体数量变化、空间布局调整、相机视角切换与光照变化,ViVLA整体成功率保持在**70%**以上,展现出强大的环境适应性 [20] - **组件消融分析**:实验表明,A3C循环一致性、时空掩码、并行解码均为关键贡献模块,移除后未见任务成功率最高下降**38%** [24] - 移除时空掩码策略,在LIBERO-Spatial未见任务上成功率从**71%**降至**64%** [24] - 使用自回归建模替代并行解码,在LIBERO-Long未见任务上成功率从**51%**降至**35%** [24] 技术贡献与行业影响 - **破解数据稀缺难题**:通过3D高斯splatting等技术,将7,421个人类示范视频转化为89,736条人类-机器人配对样本,并结合公开数据构建了大规模训练集 [17][25] - **建立完整技术链路**:建立了“数据生成-模型优化-知识迁移”的完整链路,为通用机器人政策学习提供了可复用的技术底座 [25] - **推动行业范式转型**:其技术推动机器人从“特定任务训练”向“零样本技能迁移”转型,加速了通用自主机器人的落地进程 [25] 当前局限与未来方向 - **感知局限**:静态相机难以捕捉精细的机器人-物体交互细节,部分场景因遮挡导致抓取精度不足,未来可引入腕部相机提升第一视角观察 [27] - **误差恢复能力**:当前模型缺乏系统的错误恢复能力,未来可通过在数据生成阶段添加轨迹扰动与恢复序列来增强鲁棒性 [27] - **数据规模与多样性**:现有数据依赖人工收集的人类视频,未来可探索互联网级人类视频的自动过滤与配对,以进一步扩大数据多样性 [27]
看一次就能执行!VLA的零样本学习是伪命题吗?
具身智能之心· 2025-12-13 09:02
文章核心观点 - 北京理工大学与LimX Dynamics联合提出的ViVLA框架,通过“统一动作空间构建-并行解码优化-大规模数据生成”的三层技术体系,首次实现了机器人从单段专家示范视频中高效学习新技能,为通用机器人策略学习提供了全新范式 [1] - ViVLA的核心目标是“单样本视频模仿学习”,旨在解决现有视觉-语言-动作模型难以泛化到训练分布之外任务的核心瓶颈 [1] - 该框架在多个基准测试和真实场景中验证了其有效性,特别是在未见过的任务上实现了显著的性能提升,并成功将人类视频知识迁移至机器人动作 [14][16][25] 问题根源与挑战 - **细粒度动作识别能力不足**:现有视觉语言模型侧重语义级视频理解,难以分辨示范视频中精细的操纵动作,导致无法提取关键操作知识 [4] - **动作表征与模态差异**:人类示范视频缺乏动作标注,且专家与目标机器人的动作空间存在本质差异,传统方法无法实现有效知识迁移 [5] - **数据稀缺**:机器人学习领域缺乏丰富多样的专家-智能体配对数据,现有数据集规模小、场景单一,难以支撑通用模型训练 [7] 方案设计:ViVLA的三层技术闭环 - **第一层:统一动作空间**:提出基于动作中心循环一致性的A3C框架,构建跨专家与智能体的统一潜在动作空间,以解决形态鸿沟与动作表征问题 [8][10] - **第二层:模型训练优化**:对视觉-语言-动作模型架构进行两大核心优化,包括并行解码机制与时空掩码策略,以提升推理效率与视频理解能力 [8][12] - **第三层:大规模数据生成**:设计了可扩展的数据生成流程,将人类视频转化为高质量配对数据,最终整合生成了超过89万条专家-智能体训练样本 [8][13][17] 验证逻辑与性能表现 - **LIBERO基准测试**:在包含130个语言条件操纵任务的LIBERO基准测试中,ViVLA在未见过的任务上实现了超过30%的性能提升,成功率从基线模型的0.13提升至0.65 [14] - **跨形态迁移**:在“UR机械臂示范-Franka机械臂执行”的跨形态实验中,ViVLA的未见任务成功率仍保持63%,较基线模型提升超过35% [15] - **真实世界验证**:在12项真实世界操纵任务中,ViVLA从单段人类示范视频中学习技能,未见任务成功率达74%,较AWDA的36%提升超过38%,部分任务成功率高达100% [16][19] 数据生成与规模 - 通过整合7421个人类示范视频,生成了89,736条人类-机器人配对样本,并结合公开数据集,最终形成了总计892,911条专家-智能体训练样本 [13][17] - 使用的数据集包括Fractal、Bridge、Droid、Language Table、BC-Z、FMB Dataset、Ego4D、EgoDex以及生成的Human2Robot数据集 [13] 技术细节与优化 - **并行解码机制**:摒弃自回归生成,采用单次前向传播同时生成所有动作token,大幅降低了推理延迟 [12] - **时空掩码策略**:对输入视频进行时间与空间维度的随机掩码,强制模型从部分观察中预测动作,强化了全局视频理解能力 [12] - **循环一致性约束**:引入动作缓冲池和局部-全局判别器,强制跨模态动作语义对齐,确保动作表征的鲁棒性 [11] 鲁棒性与消融分析 - **环境鲁棒性**:面对物体数量变化、空间布局调整、相机视角切换与光照变化,ViVLA整体成功率保持在70%以上 [20][23] - **组件有效性**:消融实验表明,A3C循环一致性、时空掩码、并行解码均为关键贡献模块,移除后未见任务成功率最高下降38% [24] 局限与未来方向 - **感知局限**:静态相机难以捕捉精细的机器人-物体交互细节,部分场景因遮挡导致抓取精度不足,未来可引入腕部相机提升视角 [27] - **误差恢复**:当前模型缺乏系统的错误恢复能力,未来可通过在数据生成阶段添加轨迹扰动与恢复序列来增强鲁棒性 [27] - **数据规模**:现有数据依赖人工收集的人类视频,未来可探索互联网级人类视频的自动过滤与配对,以进一步扩大数据多样性 [27] 范式价值与行业影响 - ViVLA建立了“数据生成-模型优化-知识迁移”的完整技术链路,通过3D高斯splatting破解配对数据稀缺难题,通过A3C框架与并行解码解决动作表征与推理效率问题 [25] - 其超过89万规模的专家-智能体数据集与模块化架构,为通用机器人策略学习提供了可复用的技术底座,推动机器人从“特定任务训练”向“零样本技能迁移”转型 [25]