Workflow
Visual Tokenizer
icon
搜索文档
压缩之外,Visual Tokenizer 也要理解世界?
机器之心· 2025-12-28 09:30
视觉Tokenizer的演进与MiniMax VTP研究 - 传统视觉生成模型采用两阶段流程:先通过Tokenizer(如VAE)压缩图像为潜在表示,再于潜在空间训练生成模型[6] - 行业常见做法是固定VAE,专注于扩展后续生成模型(如扩散Transformer)的规模,但研究发现若第一阶段Tokenizer质量未提升,生成效果将很快达到饱和[7][8] - MiniMax与华中科技大学的研究提出新视角:提升生成模型性能不仅可依赖主模型扩展,也可通过扩展Tokenizer本身实现[8] - 研究发现,仅追求像素级重建精度、投入更多算力让自编码器重建更逼真,反而可能降低下游生成质量[8] - VTP工作揭示问题根源:传统以重建为目标的视觉Tokenizer,其潜在空间偏向低层次像素信息,缺乏对高层语义的简洁表示,导致“重建强、生成弱”[8] - 解决方案是在Tokenizer预训练中引入语义理解,使潜在表示对高级语义信息更敏感,而非过度记忆像素细节[8] - 研究发现了视觉Tokenizer的Scaling Law现象:传统自编码器在预训练算力达一定规模后性能停滞,而VTP性能持续提升[8] - 实验中,普通VAE使用不到原计算量十分之一即达生成性能瓶颈,而VTP即使将预训练计算量提高10倍,生成效果仍在持续变好[8] - VTP框架将图像-文本对比学习(CLIP)、自监督学习(DINOv2)和传统重建损失结合,统一优化视觉Tokenizer的潜在空间[9] - 具体引入两项语义导向任务:基于DINOv2的自监督损失增强局部结构与全局语义一致性;基于CLIP风格的图像-文本对比损失将语言先验注入视觉潜在空间[9][10] - 实验表明潜在空间的语义质量(以零样本分类准确率度量)与生成性能(FID指标)呈高度正相关[11] - VTP最大模型(约7亿参数)在ImageNet上达到78.2%的零样本分类准确率,压缩重建保真度rFID为0.36[11] - 将该Tokenizer替换进标准扩散模型后,在不改变模型结构和计算量的情况下,生成图像的FID相对基准降低65.8%,收敛速度提升约4倍[12] - 这意味着仅通过在Tokenizer预训练上投入更多算力,即可大幅提升下游生成质量,无需额外增加生成模型复杂度[13] 视觉生成模型的技术路径与行业影响 - 视觉Tokenizer的下一步进化关键在于理解世界,而不仅是压缩[1] - 采用1D序列形式的Tokenizer可能比2D网格序列更适合大规模训练[1] - 目前的离散Tokenizer可能只是阶段性的过渡方案[1] - 生成采样阶段的分布偏移导致了“重建强、生成弱”的普遍现象[1] - VTP工作为视觉Tokenizer研究提供了新视角,证明其Scaling Law可行后,视觉生成模型能力可能“再上一个台阶”[5][8] - VTP的研究思路并非孤立,此前已有其他工作提出不同解决方案[14] - 该研究存在一些争议,有分析指出其未系统探讨VTP如何与不同DiT架构交互,且实验采用特定配置,语义潜在空间对其他方法(如flow matching)的有效性尚不明确[8]
NeurIPS 2025|VFMTok: Visual Foundation Models驱动的Tokenizer时代来临
机器之心· 2025-10-28 17:37
技术背景与核心观点 - 自回归模型在图像生成领域的应用依赖于视觉Tokenizer,其作用是将高维像素空间映射到低维离散潜在空间,是决定生成模型上限的基石[3] - 传统视觉Tokenizer(如VQGAN)存在缺乏高层语义信息、潜在空间冗余以及表征结构混乱等困境[4][7] - 研究提出并验证了一个新假设:冻结的预训练视觉基础模型(如CLIP、DINOv2、SigLIP2)的潜在特征可以直接作为图像重建与生成的鲁棒结构化表征[4] - 基于视觉基础模型构建的Tokenizer(VFMTok)在图像重建和自回归图像生成任务上均表现出优于传统模型的性能[5] VFMTok的核心技术创新 - 采用多层图像特征提取技术,从冻结的预训练基础模型中按等间隔方式提取多层级语义特征,以同时捕获图像的低层细节和高层语义信息[14][17] - 设计了区域自适应量化机制,通过可学习的锚点查询结合可变形注意力机制进行自适应特征采样,聚焦于图像中模式一致的区域,有效提升token利用效率,仅用256个token表征一张图像[14][18] - 引入了语义特征重建目标函数,在重建图像内容的同时,重建冻结基础模型最后一层的语义特征,以提升Tokenizer的语义保真度[14][19] - 整体架构采用共享的轻量级Vision Transformer,减少了参数量并保证了语义保真度,其双重目标函数结合了传统Tokenizer损失和余弦相似度损失[19][20] 性能优势与实验成果 - 在图像重建质量上,VFMTok仅用256个token即可实现rFID 0.89和rIS 215.4的优异表现,超越了使用576个token的VQGAN基线(rFID 0.95, rIS 197.3)[12][23][29] - 在线性探针准确率上,仅使用冻结VFM作为编码器即可从VQGAN的23.1%提升至56.4%,引入完整VFMTok技术后达到69.4%[12][28][29] - 在自回归图像生成任务上,VFMTok能够显著提升训练收敛速度,训练收敛速度提升了3倍[24] - VFMTok-1.4B模型在参数量更少、训练迭代次数更少的情况下,自回归生成性能超越了同类LlamaGen-3B模型[26] - 接入RAR自回归图像生成框架后,VFMTok实现了SOTA的图像生成性能,gFID达到1.36[27] 效率与实用性突破 - VFMTok在有无分类器自由引导的情况下性能几乎一致(gFID: 2.07 vs 2.04),而LlamaGen则会从2.19急剧恶化至9.38,证明了其潜在空间具有极强的语义一致性[27][33] - 由于token数量减半(256 vs 576),自回归模型的生成过程长度减半,推理速度因此获得了约4倍的提升[33] - VFMTok实现了100%的码本利用率,超越了之前大部分传统的离散Tokenizers[23][29] - 该方法无需CFG即可实现高保真度的class-to-image图像生成,可以进一步减少图像生成时间[33]