Workflow
NAR模型
icon
搜索文档
13.8倍吞吐提升!浙大上海AI Lab等提出视觉生成新范式,从“下一个token”到“下一个邻域”
量子位· 2025-03-30 10:37
NAR团队 投稿 量子位 | 公众号 QbitAI 具体来说,NAR模型从初始token开始,按照与初始token的曼哈顿距离从小到大依次生成token。这种生成顺序不仅保留了视觉内容的空间和 时间局部性,还允许模型在生成过程中并行预测多个相邻的token。 为了实现这一点,研究人员引入了 维度导向的解码头 ,每个头负责在空间或时间的一个正交维度上预测下一个token。 通过这种方式,NAR模型能够在每一步中并行生成多个token,从而大幅减少了生成所需的模型前向计算步骤。 下面具体来看。 从"下一个token"到"下一个 邻域" 在图像/视频生成任务中,传统的"下一个token预测"方法正面临严重的效率瓶颈。 怎么办? 来自浙大、上海AI Lab等机构的研究人员提出了一种全新的视觉生成范式—— 邻近自回归建模 (Neighboring Autoregressive Modeling, NAR)。与传统的"下一个token预测"不同,NAR模型采用了"下一个 邻域预测"的机制,将视觉生成过程视为一种逐步扩展的"外绘"过程。 在当今的AI领域,视觉生成任务 (如图像和视频生成) 正变得越来越重要。无论是生成逼真 ...