PEVA模型 - 财报，业绩电话会，研报，新闻

PEVA模型

搜索文档

量子位· 2025-06-30 14:38

Meta AI研究进展 - Yann LeCun团队开发PEVA模型，实现具身智能体16秒连贯场景预测能力，模拟人类预判行为[2][6][9] - 模型通过结构化动作表示结合48维关节运动学数据与条件扩散Transformer，捕捉整体移动和关节精细运动[3][16][18] - 采用第一人称视角视频+全身姿态轨迹训练，替代传统抽象控制信号[4][13] 技术架构创新 - 随机时间跳跃训练解决长时序预测效率问题，支持16帧采样窗口内的多尺度动作学习[24][28] - 运动学树结构编码包含骨盆根节点3D平移和15个关节45维欧拉角，总维度48维[25] - 条件扩散Transformer通过跨历史帧注意力机制建模动作延迟效应，LPIPS值比基线低5%-8%[22][34][37] 性能表现 - 单步预测中LPIPS降低0.01，FID降低1.42，生成质量优于CDiT基线[33][35] - 16秒长序列预测FID值比Diffusion Forcing低15%以上，时序连贯性显著提升[38][40] - 支持多动作序列智能规划，如开冰箱任务中排除不合理路径选择最优解[8][42][43] 数据与训练 - 使用Nymeria数据集训练，包含同步第一视角视频与全身动作捕捉数据[26] - 局部坐标系转换实现动作表示的平移/旋转不变性，归一化处理帧间差分数据[25] - VAE编码器用于视觉特征转换，尽管LeCun曾公开批评VAE的局限性[45][46][47]

Meta Platforms(US:META)

具身智能

世界模型

VAE

Artificial Intelligence

Artificial Intelligence

PEVA模型

UCLA提出PEVA：具身Agents的世界模型时代

具身智能之心· 2025-06-30 11:47

背景与动机 - 具身智能体面临理解物理动作与视觉感知关系的根本挑战，人类通过全身动作主动改变第一人称视角的视觉输入，这对环境交互和长期规划至关重要 [3] - 现有世界模型（如基于速度控制的导航模型）存在显著局限，阻碍智能体在真实场景中的物理交互能力 [3] - 研究提出PEVA模型，首次将全身3D姿态作为条件信号预测第一人称视频，为具身智能提供物理基础更扎实的仿真环境 [3] 核心创新点结构化全身动作表征 - 将动作定义为48维向量，融合全局身体运动（骨盆位移）与局部关节旋转（15个上半身关节的欧拉角变化），通过运动学树结构保留层次关系 [4] - 区别于二维导航控制，该表征在运动自由度上提升24倍，支持从步行到抓取的精细控制 [9] - 动作定义为相邻帧间的位姿变化量，直接关联物理运动与视觉结果 [9] 条件扩散Transformer架构创新 - 轻量级动作嵌入：直接拼接动作向量输入AdaLN层，在保持性能的同时降低计算负载 [8] - 随机时间跳跃：训练时随机采样间隔帧（如16帧覆盖32秒视频），将时间间隔作为附加条件，解决长时动作建模的计算效率问题 [10] - 序列级训练：采用自回归扩散损失，通过前缀序列并行训练保持时序连贯性，克服单帧预测的碎片化问题 [10] 分层评估协议 - 提出四级评测框架：长时预测（16秒视频连贯性分析）、单帧预测（2秒间隔的感知质量与语义一致性）、原子动作解构（关节级控制精度）、规划能力（反事实模拟选择最优动作序列） [11][12] 方法实现模型架构与训练 - 输入编码：视频帧通过VAE编码器压缩为潜变量，动作向量按Xsens骨架标准化拼接 [16] - 扩散过程：基于DDPM框架，定义状态转移，损失函数融合简化损失与变分下界 [17][20] - 推理优化：自回归滚动物理动作序列，通过交叉熵法优化动作候选，注意力掩码限制跨帧交互提升推理效率 [20] 关键结果全面超越基线 - PEVA在LPIPS（0.303）、DreamSim（0.193）、FID（62.29）上优于CDiT与Diffusion Forcing [19] - 长时预测中FID增长最缓，证明时序一致性优势 [19] 原子动作控制 - 手部运动预测误差比导航任务低15%（如右手下移DreamSim 0.248 vs. 前移0.329） [22] - 旋转动作预测仍是挑战（左转DreamSim 0.269），反映全局位姿建模难度 [22] 消融实验 - 上下文窗口从3帧增至15帧，DreamSim提升3%（0.199→0.193） [25] - 动作直接拼接比嵌入层更有效（DreamSim 0.193 vs. 0.202） [25] 规划应用 - 通过反事实模拟筛选动作序列，如排除走向水槽/户外的动作，选择打开冰箱的序列 [26] - 当前规划仅支持单臂12维控制，未实现全身协调 [26] 局限与展望 - 场景约束：依赖静态环境假设，动态物体交互未建模 [27] - 规划简化：仅基于图像相似度的开环优化，未整合高层语义目标 [27] - 计算开销：CDiT-XXL模型训练成本高，实时应用受限 [27] - 未来方向：结合物体中心表征提升交互真实性，探索闭环控制与多智能体协作 [27]