ICLR 2026｜滑铁卢大学联合可灵提出UniVideo：统一视频理解、生成、编辑多模态

模型架构与核心创新 - 提出UniVideo模型，这是一个在统一框架下同时支持视频理解、生成与编辑的多模态生成模型，旨在突破当前多模态模型主要局限于图像领域的现状[2] - 模型采用双流架构，结合了多模态大语言模型（MLLM）的指令理解与推理能力，以及多模态扩散Transformer（MM-DiT）的高质量视觉生成能力[2][9] - 该设计无需额外的任务特定设计即可理解多模态指令、区分任务类型，并能够泛化到未见过的任务及新的任务组合，为视频生成与编辑提供了更强的扩展性[2][11] 统一多模态任务能力 - UniVideo将多达10种视频生成与编辑任务统一到单一的多模态指令范式中，包括多模态理解（I/V2T）、文本到图像/视频生成（T2I/T2V）、图像到视频生成（I2V）、图像/视频编辑（I2I/V2V）以及上下文图像/视频生成与编辑（Multi-ID2I等）[12][13][16][18][20][22] - 模型通过MLLM处理多模态指令并生成高层语义表示，同时利用MM-DiT在潜空间中进行条件视觉内容生成，实现了灵活的任务调度[13][14] 性能表现与实验结果 - 在定量评测中，UniVideo在多项评测指标上优于任务特定的基线方法，并在多数实验设置下达到或超过当前最优方法（SoTA）[24] - 在上下文插入（In Context Insert）任务中，UniVideo (Mask Free) 在CLIP-I指标上达到0.693，在Aesthetic指标上达到6.031，表现优于或接近Kling1.6、Pika2.2等模型[26] - 在上下文交换（In Context Swap）任务中，UniVideo (Mask Free) 的CLIP-I为0.728，Aesthetic为6.190，表现领先[26] - 在单参考生成（Single Reference Generation）任务中，UniVideo的人类评价得分（SC↑）为0.88，显著高于VACE的0.31、Kling1.6的0.68和Pika2.2的0.45[27] - 在多参考生成（Multi Reference (> 2) Generation）任务中，UniVideo的人类评价得分（SC↑）为0.81，同样领先于其他对比模型[27] 泛化能力验证 - 模型展现出对未见视频编辑指令的泛化能力，通过联合多任务训练，成功将图像编辑能力迁移至视频领域，实现了对自由形式（free-form）视频编辑指令的理解与执行[28] - 模型还展现出对新任务组合的泛化能力，即使在训练阶段未显式包含相关组合，仍能自然泛化，体现了统一多模态框架在组合泛化方面的显著优势[29][33] 行业影响与学术认可 - 该研究工作已被顶级学术会议ICLR 2026接收，并且代码与模型均已开源，这有助于推动行业在统一多模态视频生成与编辑方向上的技术进步与应用探索[3][5] - 该成果表明，统一多模态建模不仅可行，而且可能是一条比依赖多个孤立模型更具扩展性的技术发展路径[32][33]