统一视觉多模态与多任务！快手可灵与港科大团队发布视频生成模型，加速真实世界理解

文章核心观点 - 由港科大、港中文、清华大学和快手可灵团队提出的UnityVideo，是一个通过统一训练多种视觉模态（如深度图、光流、骨骼、分割掩码等）来提升视频生成质量与可控性的创新框架[1][3] - 该框架借鉴了大语言模型统一训练多种文本子模态的成功经验，旨在让视觉模型更深刻地理解物理世界规律，从而在视频生成、可控生成和模态估计等多项任务上实现性能提升，并展现出强大的零样本泛化能力[8][9][13][16] 技术原理与创新 - 核心动机：实验发现，模型同时学习多种视觉模态时，在RGB视频生成任务上的收敛速度显著加快，最终性能也明显提升，不同模态提供了互补的监督信号，促进了模型对物理世界规律的理解[13][15] - 动态任务路由：在单个架构中无缝统一了三种训练范式（条件生成、模态估计、联合生成），通过动态噪声调度策略随机切换训练模式，避免了灾难性遗忘[19][21][22] - 模态切换器：包含上下文学习器和模态自适应切换器，前者通过文本提示让模型在语义层面区分模态，后者在架构层面为每种模态学习独立的调制参数，实现了即插即用的模态选择能力[26][27][29][31] - 渐进式课程学习：采用两阶段训练策略，先在单人场景数据上训练像素对齐的模态建立基础，再引入所有模态和多样化场景数据，以支持鲁棒的零样本推理[32][33] 性能与实验结果 - 多任务性能：在文本生成视频、可控生成和模态估计三大类任务上均取得优异表现，例如文本生成视频的背景一致性达97.44%，可控生成的动态程度达64.42%，视频分割任务mIoU达68.82%，深度估计Abs Rel仅为0.022[36][44] - 定性优势：在物理现象理解（如光线折射）、可控生成质量（更忠实遵循深度引导且避免背景闪烁）以及模态估计精度（更精细的边缘细节和准确的3D点云）上均优于对比方法[41][42] - 消融实验验证： - 多模态互补性：联合训练不同模态带来明显性能提升，例如联合训练光流和深度后，成像质量分别提升4.37和4.19个百分点[45][46][47] - 多任务训练必要性：统一多任务训练能恢复并超越单独训练可控生成任务时下降的性能，证实了任务间的协同效应[48][49] - 架构设计有效性：上下文学习器和模态切换器各自都能提升性能，结合使用可获得额外显著增益[50] 泛化能力与影响 - 零样本泛化：模型展现出强大的泛化能力，例如仅在单人数据上训练可泛化到多人场景，在人体骨架数据上训练后可泛化到动物骨架估计，在特定物体上训练的深度估计和分割能力可泛化到未见过的物体和场景[16] - 组合泛化：上下文学习器赋予模型组合泛化能力，例如在“two persons”分割任务上训练后，能自然地泛化到“two objects”场景[53][55] - 行业启示：UnityVideo的成功表明，提升模型能力不仅依赖增大参数量和数据量，更重要的是通过组织和利用多样化的学习信号、整合任务以涌现能力，并辅以精心设计的架构机制[63] 数据与评估基础 - 训练数据集：构建了OpenUni数据集，包含130万个多模态视频样本，涵盖370,358个单人场景片段、97,468个双人场景片段、489,445个来自Koala36M的片段以及343,558个来自OpenS2V的片段[35][37] - 评估基准：构建了UniBench评估基准，包含3万个样本，其中200个高质量样本来自Unreal Engine渲染，提供了ground truth深度和光流，为公平全面的评估奠定了基础[35]