VAE

搜索文档
Diffusion/VAE/RL 数学原理
自动驾驶之心· 2025-07-29 08:52
Diffusion Model - 扩散模型通过高斯分布的均值(原图提供)和方差(噪声系数提供)进行图像生成 [3] - 模型推导中关键变量α_t与噪声ε_t的线性组合服从N(0,1-α_tα_{t-1})的正态分布 [5] - 网络训练目标是拟合去噪过程中两个高斯分布的均值和方差 [7] - 通过KL散度项拟合理论去噪值与网络预测值 [9] - 将不确定的x_0转化为可预测的噪声ε进行迭代 [15] - 最终模型将分布拟合问题转化为噪声预测问题 [17] VAE模型 - 变分自编码器假设潜在空间服从高斯分布 [19] - 普通自编码器不具备生成能力 [21] - 使用神经网络拟合编码器 [23] - 通过重建损失+KL约束损失避免潜在空间退化 [26] - 最小化KL损失等价于最大化ELBO [27] - 训练过程包含重建损失和KL损失的平衡 [30] 强化学习 - 马尔可夫决策过程描述为状态-动作序列(s1,a1,s2,a2...) [35] - 表征学习分为语义表征(趋近脉冲分布)和生成表征(趋近高斯分布) [36] - 时间差分方法利用后续更准确的结果更新前期估计 [40] - 策略梯度方法学习最优状态-动作转换策略 [42] 自动驾驶行业 - 行业社区规模达4000人,涵盖300+企业和科研机构 [42] - 技术栈覆盖30+方向包括感知/定位/规划控制等领域 [42] - 重点技术包含BEV感知、多传感器融合、轨迹预测等 [42] - 专业课程覆盖端到端自动驾驶、大模型应用等前沿方向 [42]
LeCun发布最新世界模型:首次实现16秒连贯场景预测,具身智能掌握第一视角!还打脸用了VAE
量子位· 2025-06-30 14:38
Meta AI研究进展 - Yann LeCun团队开发PEVA模型,实现具身智能体16秒连贯场景预测能力,模拟人类预判行为[2][6][9] - 模型通过结构化动作表示结合48维关节运动学数据与条件扩散Transformer,捕捉整体移动和关节精细运动[3][16][18] - 采用第一人称视角视频+全身姿态轨迹训练,替代传统抽象控制信号[4][13] 技术架构创新 - 随机时间跳跃训练解决长时序预测效率问题,支持16帧采样窗口内的多尺度动作学习[24][28] - 运动学树结构编码包含骨盆根节点3D平移和15个关节45维欧拉角,总维度48维[25] - 条件扩散Transformer通过跨历史帧注意力机制建模动作延迟效应,LPIPS值比基线低5%-8%[22][34][37] 性能表现 - 单步预测中LPIPS降低0.01,FID降低1.42,生成质量优于CDiT基线[33][35] - 16秒长序列预测FID值比Diffusion Forcing低15%以上,时序连贯性显著提升[38][40] - 支持多动作序列智能规划,如开冰箱任务中排除不合理路径选择最优解[8][42][43] 数据与训练 - 使用Nymeria数据集训练,包含同步第一视角视频与全身动作捕捉数据[26] - 局部坐标系转换实现动作表示的平移/旋转不变性,归一化处理帧间差分数据[25] - VAE编码器用于视觉特征转换,尽管LeCun曾公开批评VAE的局限性[45][46][47]