MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law
量子位·2025-12-22 12:41

文章核心观点 - MiniMax海螺视频团队开源了其视觉分词器预训练框架VTP,并揭示了当前图像/视频生成模型性能瓶颈的关键原因:传统视觉分词器过度追求像素级重建,忽视了高层语义理解,导致投入的算力无法有效转化为生成质量的提升 [1][2][3][4] - 团队提出的VTP框架通过联合优化理解、重建与生成目标,首次证明了视觉分词器也存在明确的Scaling Law,仅通过提升分词器的预训练规模,即可在不改变下游主模型的情况下,实现端到端生成性能的倍数级提升 [5][6][37][50] 传统视觉分词器的局限与问题 - 当前主流图像生成采用两阶段框架:第一阶段由视觉分词器将图像压缩至潜在空间,第二阶段由扩散模型在该空间内生成图像 [7][8] - 视觉分词器是关键组件,它大幅降低了计算复杂度,使模型能在消费级显卡上运行,其生成的潜在表征质量直接决定了生成模型的上限 [9][10] - 行业普遍通过要求模型精准复刻原始像素来提升质量,但传统分词器过度捕捉局部纹理和噪点等低层信息,忽视了生成任务所需的高层语义与整体结构 [10][11] - 这导致了“预训练缩放问题”:更好的像素级重建精度并不能带来更高质量的生成效果,随着算力投入增加,生成性能会趋于饱和甚至下降 [12][15] - 实验数据显示,仅基于重建目标训练时,重建指标rFID从2.0降至0.5(效果变好),但生成指标gFID从55.04升至58.56(效果变差)[39] VTP框架的设计理念与突破 - VTP的设计原则是融合所有已知有效的表征学习方法,构建一个自带理解能力、对生成模型友好的视觉分词器 [26][35] - 其核心是从“像素级重建”转向强调理解力的“通用表征学习”,实现了从只练“重建”到“理解、重建、生成”的联合优化 [25][29] - 具体通过三重目标联合优化: - 图文对比学习:建立高层语义理解,要求图像压缩后的潜在编码保留与文本对齐的语义结构 [30] - 自监督学习:结合掩码图像建模和自蒸馏,迫使模型理解图片的空间关系和物体结构 [31][32] - 重建目标:定位转变为保留生成所需的纹理、颜色与边缘等必要底层视觉细节,而非追求越准越好 [33] - 团队选择从头预训练而非直接使用现有模型,是因为认为表征至关重要且需要做到极致,市面上没有能很好融汇这些方法的模型,且从头训练才能保证Scaling潜力 [36] VTP的实验结果与关键发现 - 理解力是驱动生成的关键:一旦注入“理解力”,模型的生成质量会随着理解能力的提升同步变好,二者呈现明显正相关,且提升会随训练计算量增加持续推进 [40][41] - 联合训练效果最佳:在同等算力下,“CLIP+SSL+AE”的联合训练方式上限最高,生成与理解指标均最优 [43] - 性能表现:VTP-L-d64模型在ImageNet上的零样本分类准确率达到78.2%,超过原版CLIP的75.5%;重建指标rFID低至0.36,超过Stable Diffusion的VAE;生成指标gFID低至2.81,超过此前的改进方法VA-VAE [44][47] - 训练效率提升:在达到相同生成质量的前提下,VTP的训练收敛速度比LDM快5.7倍、比VA-VAE快4.1倍,大幅降低了训练成本 [47] - 首次展示Tokenizer的Scaling Law:生成性能可以随预训练中投入的计算量、参数量和數據规模有效增长 [50] - 仅通过放大Tokenizer的预训练计算量,就能为最终生成效果带来65.8%的性能提升,且提升曲线仍未触顶 [50] - 相比之下,传统自编码器的性能在仅投入约1/10计算量时便已饱和,继续增加算力收益微乎其微甚至可能导致质量倒退 [51] 对行业的意义与影响 - 研究结论表明,除了在主模型上投入更多资源,还可以通过Tokenizer的scaling来提升整个生成系统的性能,Tokenizer成为一个值得长期投入且具备明确scaling回报的核心环节 [52][58] - VTP改变了Tokenizer长期被视为“前置模块”、够用就行的观念,首次将其作为scaling的主角,展现出全面的scaling曲线和扩展方向 [53][54] - VTP在Tokenizer层面统一了语义对齐、结构认知和细节表达,其产出的视觉表征天然具备多任务协同潜力,适合用来构建“理解-生成统一模型” [55][56][57] - VTP的开源为行业提供了一条新的、被实验证明有效的路径,其价值不仅在于提供了一个组件,更在于指明了新的研究方向 [58]