Meta发布V-JEPA 2世界模型 - 公司重磅发布V-JEPA 2(Video Joint Embedding Predictive Architecture 2)世界模型,旨在赋予机器更深层次的物理世界理解、预测及交互能力,向构建通用AI智能体迈出关键一步[1][3] - 该模型基于联合嵌入预测架构(JEPA)构建,由编码器和预测器两大组件组成,编码器捕捉视频输入的关键语义信息,预测器生成预测嵌入结果[11] - 模型在Hugging Face物理推理能力排行榜上位列第一,超过GPT-4o,在IntPhys 2、MVPBench、CausalVQA三个基准测试中分别达到56.4%、44.5%、38.99%的准确率[6][7] 技术架构与训练方法 - 训练分为两阶段:第一阶段使用超过100万小时视频和100万张图像进行无动作预训练,学习物体、人与环境的交互逻辑[9] - 第二阶段仅用62小时机器人数据进行动作条件训练,使模型具备可控性,在新物体拾取与放置任务中达成65%-80%的成功率[14][17] - 采用零样本迁移能力验证,在开源DROID数据集训练后直接部署实验室机器人,无需场景微调[15] 性能表现与行业影响 - 在Something-Something v2动作识别任务和Epic-Kitchens-100动作预测任务中创造SOTA纪录,与语言模型结合后在视频问答基准任务上实现领先性能[12] - 公司开放模型代码与权重检查点供研究及商业用途,推动开源社区生态建设[8] - 发布IntPhys 2、MVPBench、CausalVQA三项物理理解基准测试,当前模型准确率较人类85%-95%的水平仍有显著差距[23][24] 未来发展方向 - 当前模型局限在于单一时间尺度预测,下一步将开发分层式世界模型实现跨时空复杂规划[29] - 计划推进多模态建模能力,融合视觉、听觉、触觉等感知信息提升世界理解水平[30] - 该技术代表公司在高级机器智能(AMI)和物理世界AI智能体开发的重要进展[27]
LeCun亲自官宣!Meta世界模型V-JEPA 2登场!仅用62小时机器人数据,就能实现零样本控制!