Workflow
CVPR 2025 Tutorial:从视频生成到世界模型 | MMLab@NTU团队&快手可灵等联合呈现
量子位·2025-06-05 16:32

视频生成技术进展 - 图像生成技术已广泛应用于日常生活 视频生成技术从最初的"抖动幻影"跃升为能讲故事、控制动作、进行长时推理的高质量动态内容[1] - 可灵、Sora、Genie、Cosmos、Movie Gen等模型突破不断拓宽视频生成边界 研究者开始探讨视频生成能否成为通往世界模型的桥梁[2] - 视频生成技术已初步展现对时空一致性、视觉因果链的建模能力 并可能发展为交互式世界模型[6] 世界模型研究方向 - 研究重点转向如何将视频生成作为视觉先验 赋能AI感知世界、理解交互、推理物理 迈向更具具身智能能力的世界模型[3] - 学术界与产业界研究者将探讨生成建模、3D理解、强化学习与物理推理 将生成能力转化为感知、预测与决策的智能基座[4] - 视频生成技术可能帮助理解物体交互 捕捉人类行为背后的物理与语义因果 从生成走向交互式世界模型[6] CVPR 2025教程安排 - 教程将探讨基础世界模型规模化作为实现具身AGI的路径 由Google DeepMind科学家Jack Parker-Holder主讲[5] - 斯坦福大学博士生Hong-Xing "Koven" Yu将分享基于物理的世界模型在生成、交互与评估方面的研究[5] - Luma Al首席科学家Jiaming Song将讨论从推理优先视角突破预训练算法天花板[5] - Kling Al视频生成负责人Pengfei Wan将介绍可灵模型及更强大视频生成模型的研究进展[5] - 加州大学伯克利分校助理教授Angjoo Kanazawa将探讨面向智能的4D世界理解[5] - 纽约大学助理教授Sherry Yang将分享面向具身学习的生成式世界建模[5] 行业应用前景 - 视频生成技术不仅是内容输出工具 更是通向感知-建模-推理-决策一体化世界模型的入口[6] - 该领域对关注视频生成与多模态理解、具身AI、机器人交互智能、生成式世界建模与物理推理的研究者具有重要价值[7]