核心观点 - Meta开源发布V-JEPA 2世界模型,该模型能够像人类一样理解物理世界,具备理解、预测和规划能力,被视为机器人领域的革命性突破[1][5][9] - V-JEPA 2采用自监督学习框架,利用超过100万小时互联网视频和100万图片进行预训练,不依赖语言监督,62小时训练即可生成规划控制模型[10][12] - 模型在运动理解和人类动作预测方面表现优异,在Something-Something v2上达到77.3的top-1准确率,在Epic-Kitchens-100上达到39.7的recall-at-5[23] - 与大型语言模型对齐后,在8B参数规模下多个视频问答任务中展示当前最佳性能,在PerceptionTest上达到84.0,在TempCompass上达到76.9[24][25] - 在新环境中拾取并放置新物体时成功率达到65%-80%[30] 技术架构 - V-JEPA 2采用联合嵌入预测架构(JEPA),包含编码器和预测器两个组件[14] - 编码器接收原始视频并输出捕捉观察世界状态的语义信息的嵌入[15] - 预测器接收视频嵌入及额外上下文,输出预测的嵌入[16] - 训练分为无动作预训练和额外的动作条件训练两个阶段[21] 应用场景 - 下游应用分为三类:理解与预测(行为分类、物体识别、行为预测)、语言对齐(视频问答)、规划(机器人操作)[18] - 短期任务如拾取或放置物体,以图像形式指定目标,通过模型预测控制重新规划并执行最高评分动作[25][26][27][28] - 长期任务如拾取并放置物体,通过视觉子目标实现,类似人类视觉模仿学习[29] 性能表现 - 在运动理解方面,V-JEPA 2 ViT-g384达到77.3 top-1准确率(Something-Something v2)[23] - 在人类动作预测方面,V-JEPA 2 ViT-g384达到39.7 recall-at-5(Epic-Kitchens-100)[23] - 在视频问答任务中,V-JEPA 2 ViT-g384 + Llama 3.1 8B组合达到84.0(PerceptionTest)和76.9(TempCompass)[24][25] 未来发展 - 计划发展分层次JEPA模型,实现跨多个时间尺度的学习、推理和规划[45][46][47] - 探索多模态JEPA模型,整合视觉、音频和触觉等多种感官进行预测[48] 行业影响 - 该技术有望为机器人技术带来新时代,使AI智能体能在现实世界中完成家务和体力任务,且不需要大量机器人训练数据[2] - Meta发布三个新基准测试(IntPhys 2、MVPBench、CausalVQA)评估模型从视频中理解和推理物理世界的能力,当前模型与人类表现(85%-95%)仍有明显差距[32][36][42][43]
LeCun世界模型出2代了!62小时搞定机器人训练,开启物理推理新时代