Visual Tokenizer
搜索文档
NeurIPS 2025|VFMTok: Visual Foundation Models驱动的Tokenizer时代来临
机器之心· 2025-10-28 17:37
技术背景与核心观点 - 自回归模型在图像生成领域的应用依赖于视觉Tokenizer,其作用是将高维像素空间映射到低维离散潜在空间,是决定生成模型上限的基石[3] - 传统视觉Tokenizer(如VQGAN)存在缺乏高层语义信息、潜在空间冗余以及表征结构混乱等困境[4][7] - 研究提出并验证了一个新假设:冻结的预训练视觉基础模型(如CLIP、DINOv2、SigLIP2)的潜在特征可以直接作为图像重建与生成的鲁棒结构化表征[4] - 基于视觉基础模型构建的Tokenizer(VFMTok)在图像重建和自回归图像生成任务上均表现出优于传统模型的性能[5] VFMTok的核心技术创新 - 采用多层图像特征提取技术,从冻结的预训练基础模型中按等间隔方式提取多层级语义特征,以同时捕获图像的低层细节和高层语义信息[14][17] - 设计了区域自适应量化机制,通过可学习的锚点查询结合可变形注意力机制进行自适应特征采样,聚焦于图像中模式一致的区域,有效提升token利用效率,仅用256个token表征一张图像[14][18] - 引入了语义特征重建目标函数,在重建图像内容的同时,重建冻结基础模型最后一层的语义特征,以提升Tokenizer的语义保真度[14][19] - 整体架构采用共享的轻量级Vision Transformer,减少了参数量并保证了语义保真度,其双重目标函数结合了传统Tokenizer损失和余弦相似度损失[19][20] 性能优势与实验成果 - 在图像重建质量上,VFMTok仅用256个token即可实现rFID 0.89和rIS 215.4的优异表现,超越了使用576个token的VQGAN基线(rFID 0.95, rIS 197.3)[12][23][29] - 在线性探针准确率上,仅使用冻结VFM作为编码器即可从VQGAN的23.1%提升至56.4%,引入完整VFMTok技术后达到69.4%[12][28][29] - 在自回归图像生成任务上,VFMTok能够显著提升训练收敛速度,训练收敛速度提升了3倍[24] - VFMTok-1.4B模型在参数量更少、训练迭代次数更少的情况下,自回归生成性能超越了同类LlamaGen-3B模型[26] - 接入RAR自回归图像生成框架后,VFMTok实现了SOTA的图像生成性能,gFID达到1.36[27] 效率与实用性突破 - VFMTok在有无分类器自由引导的情况下性能几乎一致(gFID: 2.07 vs 2.04),而LlamaGen则会从2.19急剧恶化至9.38,证明了其潜在空间具有极强的语义一致性[27][33] - 由于token数量减半(256 vs 576),自回归模型的生成过程长度减半,推理速度因此获得了约4倍的提升[33] - VFMTok实现了100%的码本利用率,超越了之前大部分传统的离散Tokenizers[23][29] - 该方法无需CFG即可实现高保真度的class-to-image图像生成,可以进一步减少图像生成时间[33]