Workflow
交互式视频生成
icon
搜索文档
上下文即记忆!港大&快手提出场景一致的交互式视频世界模型,记忆力媲美Genie3,且更早问世!
量子位· 2025-08-21 15:15
技术框架与核心创新 - 香港大学和快手可灵研究团队提出全新框架"上下文即记忆"(Context-as-Memory),通过将完整历史上下文帧作为记忆并利用记忆检索机制优化长视频生成的场景一致性 [8][10] - 框架核心思想包括:依赖长期历史记忆保持场景一致性、通过记忆检索模块智能筛选有用历史信息、将筛选后的上下文帧拼接至输入中指导新帧生成 [15][17][19] - 采用基于摄像机轨迹搜索的帧选取方法,通过计算视场重叠度选择高重叠上下文帧,在保证计算效率的同时维持一致性 [20][22] 实验设计与性能表现 - 在相同基础模型和训练配置下,Context-as-Memory方法在PSNR(20.22)、LPIPS(0.3003)、FID(107.18)和FVD(821.37)指标上均优于基线方法,显示其显著优越的记忆能力和生成质量 [25] - 对比方法包括:单帧上下文(PSNR 15.72)、多帧随机上下文(PSNR 17.70)、DFoT(PSNR 17.63)及FramePack(PSNR 17.20) [25][29] - 使用Unreal Engine 5构建包含100个视频、12种场景风格的数据集,每个视频由7601帧组成并附带摄像机位姿标注,简化位姿处理至二维平面移动和旋转 [22][23] 应用案例与泛化能力 - 方法成功应用于《塞尔达传说》绿色田野、《黑神话悟空》废弃寺庙及《原神》云堇角色模型等游戏场景,在镜头晃动时保持场景元素完全稳定 [1][3][5][7] - 在开放域测试中,使用互联网不同风格图像作为首帧并采用"旋转远离再返回"轨迹,验证了方法在开放场景中的强大记忆泛化能力 [26][27] 研究背景与团队构成 - 论文由香港大学、浙江大学和快手可灵团队联合完成,第一作者为香港大学博士生余济闻,师从刘希慧教授并在快手可灵担任研究实习生 [28][32] - 研究是作者在交互式视频生成、世界模型和具身人工智能方向的延续,其前期成果GameFactory曾入选ICCV 2025 Highlight [33]
上下文记忆力媲美Genie3,且问世更早:港大和可灵提出场景一致的交互式视频世界模型
机器之心· 2025-08-21 09:03
核心技术突破 - 提出Context as Memory方法 将历史生成帧作为记忆载体实现长视频场景一致性 无需显式3D建模辅助[2][10][17] - 创新设计基于相机轨迹视场(FOV)的记忆检索机制 动态筛选相关历史帧 减少计算开销并提升训练推理效率[3][12][17] - 通过context learning技术学习上下文条件 使模型隐式掌握视频数据中的3D先验[2][12] 技术实现细节 - 采用基于Context learning的视频自回归生成框架 所有历史帧作为记忆条件参与生成过程[12] - 基于Unreal Engine 5构建多样化场景数据集 包含精确相机轨迹标注的长视频用于训练测试[3] - 用户仅需提供初始图像即可沿设定相机轨迹自由探索生成的虚拟世界[3] 性能表现 - 在几十秒时间尺度下保持静态场景记忆力 并在不同场景展现优秀泛化能力[6] - 实验结果显示其场景记忆力显著超越现有SOTA方法 在开放域场景中保持记忆[10][15] - 与Google DeepMind的Genie 3效果接近 且投稿时间早于Genie 3发布[2] 研究背景与延伸 - 团队提出世界模型五大基础能力模块:Generation Control Memory Dynamics Intelligence 为领域研究提供框架指导[18] - 同期开发GameFactory技术 聚焦可泛化开放域控制能力 可生成无限可交互新游戏 获ICCV 2025 Highlight论文[18][19] - 已发表多篇交互式视频生成领域综述与观点论文 系统总结领域发展现状[18][19]