Workflow
高效视频世界模型
icon
搜索文档
突破算力瓶颈!港大俞益洲团队发布首篇「高效视频世界模型」全面综述
机器之心· 2026-04-24 07:37
本篇综述工作由 香港大学博士生何沐阳、郭瀚中、林俊雄(共同第一作者)及香港大学俞益洲教授 完成。 还记得两年前,AI 生视频可谓是「鬼畜专区」—— 人物多一根手指算基操,走路自带鬼步舞才是常态。结果转眼间,从 OpenAI 的 Sora 到字节跳动的 Seedance, 这些模型已经开始一本正经地「模拟世界」了:水会流、球会弹、光影能追踪,俨然一副要当「物理引擎」的架势。 研究人员也越来越相信,视频生成模型不只是个「特效师」,更有潜力成为理解物理规律的世界模型(World Models)—— 一条通向通用人工智能(AGI)的硬核 赛道。 然而,在这一广阔前景之前,仍存在着一个极其严峻的挑战: 计算成本与速度。 视频生成模型要作为世界模拟器,需要维持长期的时空一致性、遵守物理约束,并支持高分辨率的交互式生成。但高维度的视频数据和复杂的物理动态导致了海 量的计算开销,使得模型陷入了 「长时一致性」「实时高可用」与「物理准确性」难以兼得的「不可能三角」。 现有文献大多聚焦于视频生成的一般性进展,却鲜有工作系统性地探讨「如何通过提升效率来成就真正的世界模型」。 论文地址: https://arxiv.org/abs/ ...