Workflow
上下文记忆力媲美Genie3,且问世更早:港大和可灵提出场景一致的交互式视频世界模型
机器之心·2025-08-21 09:03

核心技术突破 - 提出Context as Memory方法 将历史生成帧作为记忆载体实现长视频场景一致性 无需显式3D建模辅助[2][10][17] - 创新设计基于相机轨迹视场(FOV)的记忆检索机制 动态筛选相关历史帧 减少计算开销并提升训练推理效率[3][12][17] - 通过context learning技术学习上下文条件 使模型隐式掌握视频数据中的3D先验[2][12] 技术实现细节 - 采用基于Context learning的视频自回归生成框架 所有历史帧作为记忆条件参与生成过程[12] - 基于Unreal Engine 5构建多样化场景数据集 包含精确相机轨迹标注的长视频用于训练测试[3] - 用户仅需提供初始图像即可沿设定相机轨迹自由探索生成的虚拟世界[3] 性能表现 - 在几十秒时间尺度下保持静态场景记忆力 并在不同场景展现优秀泛化能力[6] - 实验结果显示其场景记忆力显著超越现有SOTA方法 在开放域场景中保持记忆[10][15] - 与Google DeepMind的Genie 3效果接近 且投稿时间早于Genie 3发布[2] 研究背景与延伸 - 团队提出世界模型五大基础能力模块:Generation Control Memory Dynamics Intelligence 为领域研究提供框架指导[18] - 同期开发GameFactory技术 聚焦可泛化开放域控制能力 可生成无限可交互新游戏 获ICCV 2025 Highlight论文[18][19] - 已发表多篇交互式视频生成领域综述与观点论文 系统总结领域发展现状[18][19]