PEVA模型

搜索文档
LeCun发布最新世界模型:首次实现16秒连贯场景预测,具身智能掌握第一视角!还打脸用了VAE
量子位· 2025-06-30 14:38
Meta AI研究进展 - Yann LeCun团队开发PEVA模型,实现具身智能体16秒连贯场景预测能力,模拟人类预判行为[2][6][9] - 模型通过结构化动作表示结合48维关节运动学数据与条件扩散Transformer,捕捉整体移动和关节精细运动[3][16][18] - 采用第一人称视角视频+全身姿态轨迹训练,替代传统抽象控制信号[4][13] 技术架构创新 - 随机时间跳跃训练解决长时序预测效率问题,支持16帧采样窗口内的多尺度动作学习[24][28] - 运动学树结构编码包含骨盆根节点3D平移和15个关节45维欧拉角,总维度48维[25] - 条件扩散Transformer通过跨历史帧注意力机制建模动作延迟效应,LPIPS值比基线低5%-8%[22][34][37] 性能表现 - 单步预测中LPIPS降低0.01,FID降低1.42,生成质量优于CDiT基线[33][35] - 16秒长序列预测FID值比Diffusion Forcing低15%以上,时序连贯性显著提升[38][40] - 支持多动作序列智能规划,如开冰箱任务中排除不合理路径选择最优解[8][42][43] 数据与训练 - 使用Nymeria数据集训练,包含同步第一视角视频与全身动作捕捉数据[26] - 局部坐标系转换实现动作表示的平移/旋转不变性,归一化处理帧间差分数据[25] - VAE编码器用于视觉特征转换,尽管LeCun曾公开批评VAE的局限性[45][46][47]
UCLA提出PEVA:具身Agents的世界模型时代
具身智能之心· 2025-06-30 11:47
背景与动机 - 具身智能体面临理解物理动作与视觉感知关系的根本挑战,人类通过全身动作主动改变第一人称视角的视觉输入,这对环境交互和长期规划至关重要 [3] - 现有世界模型(如基于速度控制的导航模型)存在显著局限,阻碍智能体在真实场景中的物理交互能力 [3] - 研究提出PEVA模型,首次将全身3D姿态作为条件信号预测第一人称视频,为具身智能提供物理基础更扎实的仿真环境 [3] 核心创新点 结构化全身动作表征 - 将动作定义为48维向量,融合全局身体运动(骨盆位移)与局部关节旋转(15个上半身关节的欧拉角变化),通过运动学树结构保留层次关系 [4] - 区别于二维导航控制,该表征在运动自由度上提升24倍,支持从步行到抓取的精细控制 [9] - 动作定义为相邻帧间的位姿变化量,直接关联物理运动与视觉结果 [9] 条件扩散Transformer架构创新 - 轻量级动作嵌入:直接拼接动作向量输入AdaLN层,在保持性能的同时降低计算负载 [8] - 随机时间跳跃:训练时随机采样间隔帧(如16帧覆盖32秒视频),将时间间隔作为附加条件,解决长时动作建模的计算效率问题 [10] - 序列级训练:采用自回归扩散损失,通过前缀序列并行训练保持时序连贯性,克服单帧预测的碎片化问题 [10] 分层评估协议 - 提出四级评测框架:长时预测(16秒视频连贯性分析)、单帧预测(2秒间隔的感知质量与语义一致性)、原子动作解构(关节级控制精度)、规划能力(反事实模拟选择最优动作序列) [11][12] 方法实现 模型架构与训练 - 输入编码:视频帧通过VAE编码器压缩为潜变量,动作向量按Xsens骨架标准化拼接 [16] - 扩散过程:基于DDPM框架,定义状态转移,损失函数融合简化损失与变分下界 [17][20] - 推理优化:自回归滚动物理动作序列,通过交叉熵法优化动作候选,注意力掩码限制跨帧交互提升推理效率 [20] 关键结果 全面超越基线 - PEVA在LPIPS(0.303)、DreamSim(0.193)、FID(62.29)上优于CDiT与Diffusion Forcing [19] - 长时预测中FID增长最缓,证明时序一致性优势 [19] 原子动作控制 - 手部运动预测误差比导航任务低15%(如右手下移DreamSim 0.248 vs. 前移0.329) [22] - 旋转动作预测仍是挑战(左转DreamSim 0.269),反映全局位姿建模难度 [22] 消融实验 - 上下文窗口从3帧增至15帧,DreamSim提升3%(0.199→0.193) [25] - 动作直接拼接比嵌入层更有效(DreamSim 0.193 vs. 0.202) [25] 规划应用 - 通过反事实模拟筛选动作序列,如排除走向水槽/户外的动作,选择打开冰箱的序列 [26] - 当前规划仅支持单臂12维控制,未实现全身协调 [26] 局限与展望 - 场景约束:依赖静态环境假设,动态物体交互未建模 [27] - 规划简化:仅基于图像相似度的开环优化,未整合高层语义目标 [27] - 计算开销:CDiT-XXL模型训练成本高,实时应用受限 [27] - 未来方向:结合物体中心表征提升交互真实性,探索闭环控制与多智能体协作 [27]