Workflow
每秒生成超30帧视频,支持实时交互!自回归视频生成新框架刷新生成效率
量子位·2025-06-12 09:37

NFD团队 投稿 量子位 | 公众号 QbitAI 在A100上用310M模型,实现 每秒超30帧 自回归视频生成,同时画面还保持高质量! 视频生成现在都快这个程度了? 最近,来自微软研究院的团队与北大联合发布新框架—— Next-Frame Diffusion (NFD) 。 通过实现帧内并行采样,帧间自回归的方式,NFD让视频生成在保持较高生成质量的同时,生成效率大幅提升。 或许不久之后的游戏,就是玩家直接跟模型交互打游戏了,无需通过传统的游戏引擎。 比如在《我的世界》中,下面每个视频在NVIDIA A100 GPU上生成 只需约 0.48秒 。 玩家在黑暗的走廊中不断前进: 玩家在攻击小动物后转动视角: 玩家跳跃后放置木块: 玩家跳上草地: 如今,NFD让生成速度又快了几倍。 玩家不停地放置石块: 值得一提的是,前段时间在X上火了的一款基于Minecraft的交互式自回归世界模型—— MineWorld ,也是这个微软研究院的团队做的。 它能够以每秒4-7帧的速度和模型进行交互。 为进一步提高生成效率,研究人员进一步通过以下技术来减少推理时的总采样次数: 引入块状因果注意力机制的Transformer ...