首次实现第一视角视频与人体动作同步生成！新框架攻克视角-动作对齐两大技术壁垒

技术突破与核心创新 - 首次实现第一视角视频与人体动作的联合生成，攻克了视角-动作对齐与因果耦合两大瓶颈[1][2] - 提出基于扩散模型的框架，通过三模态联合生成框架实现视角一致且因果连贯的生成效果[4][12] - 采用以头部为中心的动作表征，使头部姿态回归误差显著降低，为视角对齐奠定基础[19][26] - 借鉴控制论设计结构化掩码的交互机制，实现视频与动作之间的双向因果交互，避免帧级错位问题[20][21] - 采用异步扩散训练策略与三阶段训练范式，适配视频与动作的模态差异，平衡效率与生成质量[22][23][27] 模型性能与实验结果 - 在Nymeria数据集上测试，包含17万条5秒时长的文本-视频-动作三元组数据[32] - 在9项关键指标上全面超越基线模型VidMLD，其中视角对齐误差从1.28米降低至0.67米，改善幅度达48%[32][33] - 手部可见一致性指标HandScore从0.36提升至0.81，改善幅度达125%[32] - 视频质量指标I-FID从157.86改善至98.17，FVD从1547.28改善至1033.52[33] - 消融实验证明三大创新设计缺一不可，移除任一组件都会导致模型性能明显下降[34] 应用前景与行业影响 - 为可穿戴计算、增强现实及具身智能领域打开了新的落地入口[2][34] - 支持多种生成模式：根据文本生成视频和动作、根据动作和文本生成视频、根据文本和视频生成动作[28][29][30] - 生成的视频可通过3D高斯点渲染技术提升到三维场景中，实现从生成内容到三维场景的还原[5][24] - 该技术为交互式内容创作和智能体仿真提供了可直接落地的生成基座[34]