文章核心观点 - 北京理工大学与LimX Dynamics联合提出的ViVLA框架,通过“统一动作空间构建-并行解码优化-大规模数据生成”的三层技术体系,首次实现了机器人从单段专家示范视频中高效学习新技能,为通用机器人政策学习提供了全新范式 [1] - ViVLA框架的核心目标是“单样本视频模仿学习”,旨在解决现有视觉-语言-动作模型难以泛化到训练分布之外任务的核心瓶颈 [1] - 该框架构建了包含89万+专家-智能体配对数据的大规模数据集,并通过技术闭环实现了跨模态动作知识迁移,在多项基准测试和真实场景中展现出卓越的零样本学习与泛化能力 [2][13] 问题根源:现有VLA模型的四大核心挑战 - 细粒度动作识别能力不足:现有视觉语言模型侧重语义级视频理解,难以分辨示范视频中精细的操纵动作,导致无法从专家行为中提取关键操作知识 [4] - 动作表征与模态差异:人类示范视频缺乏动作标注,且专家与目标机器人的动作空间存在本质差异,传统方法无法实现有效的知识迁移 [5] - 自回归建模的固有缺陷:现有方法存在推理效率等问题 [6] - 高质量配对数据稀缺:机器人学习领域缺乏丰富多样的专家-智能体配对数据,现有数据集规模小、场景单一,难以支撑通用模型训练 [7] 方案设计:ViVLA的三层技术闭环 - 第一层:统一动作空间构建:提出基于动作中心循环一致性的A3C框架,构建跨专家与智能体的统一潜在动作空间,以解决形态鸿沟与动作表征问题 [8][10] - 第二层:模型训练优化:对视觉-语言-动作模型架构进行两大核心优化 [8] - 潜在动作编码与对齐:通过编码器-解码器架构提取潜在动作表征,并采用VQ-VAE量化为离散token,引入循环一致性约束和局部-全局判别器来强制跨模态动作语义对齐 [11] - 并行解码与时空掩码:摒弃自回归生成,采用并行解码机制单次前向传播生成所有动作token,大幅降低推理延迟;同时采用时空掩码策略,强制模型从部分观察中预测动作,强化全局视频理解能力 [12] - 第三层:大规模数据生成:设计了可扩展的数据生成流程,将人类视频转化为高质量配对数据,整合多个公开数据集与自生成数据,最终形成了总计892,911条专家-智能体训练样本 [8][13] 性能验证:基准测试与真实场景结果 - LIBERO基准测试:在包含130个语言条件操纵任务的LIBERO基准测试中,ViVLA在未见任务上的性能表现显著超越基线模型 [14] - 在相同形态示范下,ViVLA在未见任务上的成功率达到65%,远超AWDA的35%和UniVLA的13% [14] - 在细分任务套件中,LIBERO-Object套件的未见任务成功率最高,达到74% [14][18] - 跨形态迁移验证:在“UR机械臂示范-Franka机械臂执行”的跨形态实验中,ViVLA仅出现边际性能下降,未见任务成功率仍保持63%,较基线模型提升超过35% [15] - 真实世界验证:在12项真实世界操纵任务中,ViVLA从单段人类示范视频中学习技能,未见任务成功率达74%,较AWDA的36%提升超过38% [16] - 部分任务如翻转积木、关闭篮子的成功率达到了100% [16][19] 鲁棒性分析与核心组件验证 - 环境鲁棒性:面对物体数量变化、空间布局调整、相机视角切换与光照变化,ViVLA整体成功率保持在70%以上,展现出强大的环境适应性 [20] - 组件消融分析:实验表明,A3C循环一致性、时空掩码、并行解码均为关键贡献模块,移除后未见任务成功率最高下降38% [24] - 移除时空掩码策略,在LIBERO-Spatial未见任务上成功率从71%降至64% [24] - 使用自回归建模替代并行解码,在LIBERO-Long未见任务上成功率从51%降至35% [24] 技术贡献与行业影响 - 破解数据稀缺难题:通过3D高斯splatting等技术,将7,421个人类示范视频转化为89,736条人类-机器人配对样本,并结合公开数据构建了大规模训练集 [17][25] - 建立完整技术链路:建立了“数据生成-模型优化-知识迁移”的完整链路,为通用机器人政策学习提供了可复用的技术底座 [25] - 推动行业范式转型:其技术推动机器人从“特定任务训练”向“零样本技能迁移”转型,加速了通用自主机器人的落地进程 [25] 当前局限与未来方向 - 感知局限:静态相机难以捕捉精细的机器人-物体交互细节,部分场景因遮挡导致抓取精度不足,未来可引入腕部相机提升第一视角观察 [27] - 误差恢复能力:当前模型缺乏系统的错误恢复能力,未来可通过在数据生成阶段添加轨迹扰动与恢复序列来增强鲁棒性 [27] - 数据规模与多样性:现有数据依赖人工收集的人类视频,未来可探索互联网级人类视频的自动过滤与配对,以进一步扩大数据多样性 [27]
看一次就能执行!单视频示范零样本学习&跨模态动作知识迁移
具身智能之心·2025-12-15 09:04