文章核心观点 - 当前视频生成领域的人物定制研究普遍存在一个根本性缺陷,即假设单视角下的人物相似度等同于身份保留,而忽视了真实电影制作中身份认知依赖于多视角与多光照下的稳定表现 [4][5][6] - 公司提出“Virtually Being”框架,其核心论点是:要真正学会一个人的身份,模型必须学习其在多视角与多光照下的外观,身份应被视为一个4D(空间+时间)一致的概念,而非静态的2D属性 [8][9] - 通过系统性引入基于4D重建的多视角表演数据与真实光照变化数据,该框架为解决视频生成中的多视角身份一致性问题提供了一条更贴近电影制作实际需求的路径 [10][37] 当前研究范式的问题与挑战 - 单视角假设的局限性:主流人物定制范式(给定单张或少量人物图像生成视频)隐含了错误假设,即单视角相似度等于身份保留,但这在真实视频与电影语境中不成立 [4] - 身份具有视角依赖性:面部轮廓、五官比例、体态与衣物形态会随观察角度发生系统性变化,单张图像无法覆盖侧脸、背面及连续视角变化中的外观一致性 [5] - 相机运动暴露问题:相机运动会持续暴露未见过的外观区域,放大身份不一致性 [5] - 多人场景放大错误:当多个角色同框时,轻微的身份漂移会变得非常明显 [5] - 研究空白:显式关注多视角身份保留在当前视频定制化生成研究中几乎没有被系统性地解决 [7] Virtually Being 框架的方法论 - 数据层面重新设计:从数据层面重新设计了人物定制流程,以解决多视角身份被长期忽视的问题 [11] - 多视角表演采集:使用专业体积捕捉系统(75相机面部捕捉阵列、160相机全身捕捉阵列)采集真实人物在受控条件下的动态表演,而非依赖单视角参考图像 [12][14] - 4D高斯溅射作为数据生成器:利用4D Gaussian Splatting对采集的表演进行高质量重建,生成多视角视频数据,为模型提供多视角下的身份一致性监督 [12][15] - 两阶段训练策略: - 阶段一:相机感知预训练:基于ControlNet架构,引入完整3D相机参数,在大规模公开视频数据上训练,使模型掌握电影级镜头语言 [18] - 阶段二:多视角身份定制:在预训练模型基础上,使用4DGS渲染的多视角视频进行微调,为每个身份引入专属token,将身份与多视角外观显式绑定 [19] - 引入光照真实感:通过引入基于HDR的视频重打光数据,对同一人物生成多种自然光照条件,使模型学会在光照变化下保持身份稳定 [23] - 多人物生成支持:支持通过联合训练或推理阶段噪声混合的方式,实现多人物自然同框与互动,前提是模型对每个角色在不同视角与光照下的身份都有稳定建模 [26][27][28] 实验效果与验证 - 身份指标领先:系统性实验表明,使用多视角数据训练的模型,在AdaFace等身份指标上显著优于仅使用正面视角数据及其他视频定制方法 [32] - 关键数据对比:在文本到视频定制任务中,该框架的AdaFace得分为0.351,显著高于对比方法MagicMe(0.280)、ConsisID(0.301)等 [35] - 用户研究偏好明确:在用户研究中,该框架生成结果在“多视角身份”项获得81.34%的偏好率,远超其他方法(最高为ConsisID的12.96%)[35] - 光照真实感提升:引入重光照数据后,83.9%的用户认为生成视频的光照更自然、更符合真实拍摄效果 [23] - 单视角数据对比:即使与自身仅使用正面视角数据的版本相比,完整框架在AdaFace得分(0.351 vs 0.327)和动态程度(0.72 vs 0.59)上仍有优势 [35] - 图像到视频定制有效:在图像到视频定制任务中,该框架版本获得65.43%的用户偏好,优于非定制化基准的34.57% [35]
SIGGRAPH Asia 2025|当视频生成真正「看清一个人」:多视角身份一致、真实光照与可控镜头的统一框架
机器之心·2025-12-27 12:01