随机掩码
搜索文档
CVPR 2026 Highlight | 仅用64个token生成高清图像,MacTok攻破连续分词器后验坍塌难题
机器之心· 2026-04-24 12:48
文章核心观点 - 复旦大学团队提出的MacTok是一种创新的1D连续图像分词器,通过双空间协同设计从根本上解决了连续分词器在极端压缩下的“后验坍塌”问题,仅用极少量token即可实现高质量的图像生成,为视觉生成模型的效率提升提供了重要技术方案 [3][5][23] 技术背景与挑战 - 视觉生成模型提升推理效率的关键在于将图像压缩为更少的token,连续分词器因具有连续平滑的潜在空间和原生梯度优化优势,被视为比离散分词器更具潜力的压缩范式 [2] - 连续分词器在极度压缩(如仅用64个token)时面临核心挑战:强KL正则化会导致潜在空间退化,引发“后验坍塌”,使编码器无法有效写入语义特征,导致生成图像失去细节 [2][8] - 学术界以往通过调整损失函数(如调低正则强度)的解决方案难以触及后验坍塌的根源,在苛刻的token限制下,普通随机掩码策略也会因信息流失而再度引发坍塌 [10] MacTok解决方案:双空间协同设计 - **核心洞察**:迫使模型学习真正富含语义的表征是杜绝后验坍塌的唯一途径,这需要统筹图像空间与表征空间进行协同设计 [3][10] - **图像空间设计**:引入随机掩码与语义掩码的混合机制,最优图像掩码比例约为70%。语义掩码会优先遮挡图像中语义最丰富的区域,迫使模型在重建时更关注深层语义推理 [12] - **表征空间设计**:引入全局与局部表征对齐,使潜在token既与细粒度的局部Patch特征对齐,也与高度浓缩宏观语义的全局CLS特征对齐,直接约束潜在空间的语义结构 [14] - **协同机制**:图像空间的语义掩码(增加理解难度)与表征空间的全局-局部对齐(指明优化方向)相辅相成,共同构建了鲁棒的抗坍塌学习环境 [14] 性能表现与效率优势 - **256x256分辨率表现**:仅使用64个token的MacTok,在无CFG测试条件下的gFID为1.44,优于SoftVQ-VAE(其gFID降低了2.21)。使用128个token的MacTok达到了与拥有1024个token的主流基线模型(如gFID为1.42的REPA)相近的水平 [5][18] - **512x512分辨率表现**:MacTok的128 token与64 token版本均取得了1.52的gFID与超过306.0的IS,在信息量成倍增长的情况下,核心指标未出现衰减,维持了领先效果 [5][19][20] - **压缩效率**:MacTok实际使用的token数量相比传统方法压缩了64倍,在保持极高视觉质量的同时,具备明显的单token信息密度优势 [5][15][18] - **技术验证**:通过UMAP降维可视化可观察到,相比以往方法因坍塌导致的特征严重重叠,MacTok能明确保持各语义类别的聚类结构 [21] 行业意义与前景 - MacTok的研究成果表明,后验坍塌的根源在于强正则条件下缺乏有效的数据特征引导约束 [23] - 该方案在不改变原生分词架构的前提下,通过在图像输入层引入具有挑战性的语义掩码重建任务,即可极大激活连续潜在空间编码深层信息的潜能 [23] - 面对未来对图像生成分辨率、吞吐延迟要求越来越苛刻的大模型场景,MacTok提供了一项具有较高实用价值的技术参照方案 [23] - 该工作已被CVPR 2026录用并入选为Highlight论文 [5]