Workflow
因果注意力机制
icon
搜索文档
每秒生成超30帧视频,支持实时交互!自回归视频生成新框架刷新生成效率
量子位· 2025-06-12 09:37
NFD团队 投稿 量子位 | 公众号 QbitAI 在A100上用310M模型,实现 每秒超30帧 自回归视频生成,同时画面还保持高质量! 视频生成现在都快这个程度了? 最近,来自微软研究院的团队与北大联合发布新框架—— Next-Frame Diffusion (NFD) 。 通过实现帧内并行采样,帧间自回归的方式,NFD让视频生成在保持较高生成质量的同时,生成效率大幅提升。 或许不久之后的游戏,就是玩家直接跟模型交互打游戏了,无需通过传统的游戏引擎。 比如在《我的世界》中,下面每个视频在NVIDIA A100 GPU上生成 只需约 0.48秒 。 玩家在黑暗的走廊中不断前进: 玩家在攻击小动物后转动视角: 玩家跳跃后放置木块: 玩家跳上草地: 如今,NFD让生成速度又快了几倍。 玩家不停地放置石块: 值得一提的是,前段时间在X上火了的一款基于Minecraft的交互式自回归世界模型—— MineWorld ,也是这个微软研究院的团队做的。 它能够以每秒4-7帧的速度和模型进行交互。 为进一步提高生成效率,研究人员进一步通过以下技术来减少推理时的总采样次数: 引入块状因果注意力机制的Transformer ...
长视频理解新突破!Mamba混合架构让显存消耗腰斩,处理10万视频token不费力
量子位· 2025-03-27 12:16
Vamba团队 投稿 量子位 | 公众号 QbitAI Mamba混合架构视频模型来了,不再对视频token进行压缩—— 而是通过改进模型架构设计的方式提升模型在训练及推理预填充阶段处理视频token的效率。 滑铁卢大学陈文虎团队与多伦多大学、零一万物、向量学院以及M-A-P的研究人员提出了一种新的Mamba-Transformer混合模型Vamba。 通过大量实验验证,研究团队发现Vamba在同等硬件条件下可处理的视频帧数较传统Transformer架构提升4倍,训练内存消耗降低50%以 上,并且可实现单步训练速度的翻倍。 同时,该方法完整保留了原始视频的时空特征,避免传统方法因降采样或池化操作导致的关键动作或场景的信息丢失。 在多个长视频的评价标准上,Vamba保持了高准确率和出色的性能,尤其在LVBench长视频理解基准上相较先前的高效长视频理解模型达到 了约4.3%的性能提升。团队现已开源Vamba模型的代码、模型权重以及训练、推理脚本供研究社区进一步探索与应用。 核心方法 目前流行的多模态大语言模型多使用Transformer作为模型的基本结构,其中的因果注意力机制相对于输入的token序列长度存在 ...