压缩之外，Visual Tokenizer 也要理解世界？

视觉Tokenizer的演进与MiniMax VTP研究 - 传统视觉生成模型采用两阶段流程：先通过Tokenizer（如VAE）压缩图像为潜在表示，再于潜在空间训练生成模型[6] - 行业常见做法是固定VAE，专注于扩展后续生成模型（如扩散Transformer）的规模，但研究发现若第一阶段Tokenizer质量未提升，生成效果将很快达到饱和[7][8] - MiniMax与华中科技大学的研究提出新视角：提升生成模型性能不仅可依赖主模型扩展，也可通过扩展Tokenizer本身实现[8] - 研究发现，仅追求像素级重建精度、投入更多算力让自编码器重建更逼真，反而可能降低下游生成质量[8] - VTP工作揭示问题根源：传统以重建为目标的视觉Tokenizer，其潜在空间偏向低层次像素信息，缺乏对高层语义的简洁表示，导致“重建强、生成弱”[8] - 解决方案是在Tokenizer预训练中引入语义理解，使潜在表示对高级语义信息更敏感，而非过度记忆像素细节[8] - 研究发现了视觉Tokenizer的Scaling Law现象：传统自编码器在预训练算力达一定规模后性能停滞，而VTP性能持续提升[8] - 实验中，普通VAE使用不到原计算量十分之一即达生成性能瓶颈，而VTP即使将预训练计算量提高10倍，生成效果仍在持续变好[8] - VTP框架将图像-文本对比学习（CLIP）、自监督学习（DINOv2）和传统重建损失结合，统一优化视觉Tokenizer的潜在空间[9] - 具体引入两项语义导向任务：基于DINOv2的自监督损失增强局部结构与全局语义一致性；基于CLIP风格的图像-文本对比损失将语言先验注入视觉潜在空间[9][10] - 实验表明潜在空间的语义质量（以零样本分类准确率度量）与生成性能（FID指标）呈高度正相关[11] - VTP最大模型（约7亿参数）在ImageNet上达到78.2%的零样本分类准确率，压缩重建保真度rFID为0.36[11] - 将该Tokenizer替换进标准扩散模型后，在不改变模型结构和计算量的情况下，生成图像的FID相对基准降低65.8%，收敛速度提升约4倍[12] - 这意味着仅通过在Tokenizer预训练上投入更多算力，即可大幅提升下游生成质量，无需额外增加生成模型复杂度[13] 视觉生成模型的技术路径与行业影响 - 视觉Tokenizer的下一步进化关键在于理解世界，而不仅是压缩[1] - 采用1D序列形式的Tokenizer可能比2D网格序列更适合大规模训练[1] - 目前的离散Tokenizer可能只是阶段性的过渡方案[1] - 生成采样阶段的分布偏移导致了“重建强、生成弱”的普遍现象[1] - VTP工作为视觉Tokenizer研究提供了新视角，证明其Scaling Law可行后，视觉生成模型能力可能“再上一个台阶”[5][8] - VTP的研究思路并非孤立，此前已有其他工作提出不同解决方案[14] - 该研究存在一些争议，有分析指出其未系统探讨VTP如何与不同DiT架构交互，且实验采用特定配置，语义潜在空间对其他方法（如flow matching）的有效性尚不明确[8]