视觉Tokenizer的演进与MiniMax VTP研究 - 传统视觉生成模型采用两阶段流程:先通过Tokenizer(如VAE)压缩图像为潜在表示,再于潜在空间训练生成模型[6] - 行业常见做法是固定VAE,专注于扩展后续生成模型(如扩散Transformer)的规模,但研究发现若第一阶段Tokenizer质量未提升,生成效果将很快达到饱和[7][8] - MiniMax与华中科技大学的研究提出新视角:提升生成模型性能不仅可依赖主模型扩展,也可通过扩展Tokenizer本身实现[8] - 研究发现,仅追求像素级重建精度、投入更多算力让自编码器重建更逼真,反而可能降低下游生成质量[8] - VTP工作揭示问题根源:传统以重建为目标的视觉Tokenizer,其潜在空间偏向低层次像素信息,缺乏对高层语义的简洁表示,导致“重建强、生成弱”[8] - 解决方案是在Tokenizer预训练中引入语义理解,使潜在表示对高级语义信息更敏感,而非过度记忆像素细节[8] - 研究发现了视觉Tokenizer的Scaling Law现象:传统自编码器在预训练算力达一定规模后性能停滞,而VTP性能持续提升[8] - 实验中,普通VAE使用不到原计算量十分之一即达生成性能瓶颈,而VTP即使将预训练计算量提高10倍,生成效果仍在持续变好[8] - VTP框架将图像-文本对比学习(CLIP)、自监督学习(DINOv2)和传统重建损失结合,统一优化视觉Tokenizer的潜在空间[9] - 具体引入两项语义导向任务:基于DINOv2的自监督损失增强局部结构与全局语义一致性;基于CLIP风格的图像-文本对比损失将语言先验注入视觉潜在空间[9][10] - 实验表明潜在空间的语义质量(以零样本分类准确率度量)与生成性能(FID指标)呈高度正相关[11] - VTP最大模型(约7亿参数)在ImageNet上达到78.2%的零样本分类准确率,压缩重建保真度rFID为0.36[11] - 将该Tokenizer替换进标准扩散模型后,在不改变模型结构和计算量的情况下,生成图像的FID相对基准降低65.8%,收敛速度提升约4倍[12] - 这意味着仅通过在Tokenizer预训练上投入更多算力,即可大幅提升下游生成质量,无需额外增加生成模型复杂度[13] 视觉生成模型的技术路径与行业影响 - 视觉Tokenizer的下一步进化关键在于理解世界,而不仅是压缩[1] - 采用1D序列形式的Tokenizer可能比2D网格序列更适合大规模训练[1] - 目前的离散Tokenizer可能只是阶段性的过渡方案[1] - 生成采样阶段的分布偏移导致了“重建强、生成弱”的普遍现象[1] - VTP工作为视觉Tokenizer研究提供了新视角,证明其Scaling Law可行后,视觉生成模型能力可能“再上一个台阶”[5][8] - VTP的研究思路并非孤立,此前已有其他工作提出不同解决方案[14] - 该研究存在一些争议,有分析指出其未系统探讨VTP如何与不同DiT架构交互,且实验采用特定配置,语义潜在空间对其他方法(如flow matching)的有效性尚不明确[8]
压缩之外,Visual Tokenizer 也要理解世界?
机器之心·2025-12-28 09:30