随机掩码 - 财报，业绩电话会，研报，新闻

随机掩码

搜索文档

CVPR 2026 Highlight | 仅用64个token生成高清图像，MacTok攻破连续分词器后验坍塌难题

机器之心· 2026-04-24 12:48

文章核心观点 - 复旦大学团队提出的MacTok是一种创新的1D连续图像分词器，通过双空间协同设计从根本上解决了连续分词器在极端压缩下的“后验坍塌”问题，仅用极少量token即可实现高质量的图像生成，为视觉生成模型的效率提升提供了重要技术方案 [3][5][23] 技术背景与挑战 - 视觉生成模型提升推理效率的关键在于将图像压缩为更少的token，连续分词器因具有连续平滑的潜在空间和原生梯度优化优势，被视为比离散分词器更具潜力的压缩范式 [2] - 连续分词器在极度压缩（如仅用64个token）时面临核心挑战：强KL正则化会导致潜在空间退化，引发“后验坍塌”，使编码器无法有效写入语义特征，导致生成图像失去细节 [2][8] - 学术界以往通过调整损失函数（如调低正则强度）的解决方案难以触及后验坍塌的根源，在苛刻的token限制下，普通随机掩码策略也会因信息流失而再度引发坍塌 [10] MacTok解决方案：双空间协同设计 - **核心洞察**：迫使模型学习真正富含语义的表征是杜绝后验坍塌的唯一途径，这需要统筹图像空间与表征空间进行协同设计 [3][10] - **图像空间设计**：引入随机掩码与语义掩码的混合机制，最优图像掩码比例约为70%。语义掩码会优先遮挡图像中语义最丰富的区域，迫使模型在重建时更关注深层语义推理 [12] - **表征空间设计**：引入全局与局部表征对齐，使潜在token既与细粒度的局部Patch特征对齐，也与高度浓缩宏观语义的全局CLS特征对齐，直接约束潜在空间的语义结构 [14] - **协同机制**：图像空间的语义掩码（增加理解难度）与表征空间的全局-局部对齐（指明优化方向）相辅相成，共同构建了鲁棒的抗坍塌学习环境 [14] 性能表现与效率优势 - **256x256分辨率表现**：仅使用64个token的MacTok，在无CFG测试条件下的gFID为1.44，优于SoftVQ-VAE（其gFID降低了2.21）。使用128个token的MacTok达到了与拥有1024个token的主流基线模型（如gFID为1.42的REPA）相近的水平 [5][18] - **512x512分辨率表现**：MacTok的128 token与64 token版本均取得了1.52的gFID与超过306.0的IS，在信息量成倍增长的情况下，核心指标未出现衰减，维持了领先效果 [5][19][20] - **压缩效率**：MacTok实际使用的token数量相比传统方法压缩了64倍，在保持极高视觉质量的同时，具备明显的单token信息密度优势 [5][15][18] - **技术验证**：通过UMAP降维可视化可观察到，相比以往方法因坍塌导致的特征严重重叠，MacTok能明确保持各语义类别的聚类结构 [21] 行业意义与前景 - MacTok的研究成果表明，后验坍塌的根源在于强正则条件下缺乏有效的数据特征引导约束 [23] - 该方案在不改变原生分词架构的前提下，通过在图像输入层引入具有挑战性的语义掩码重建任务，即可极大激活连续潜在空间编码深层信息的潜能 [23] - 面对未来对图像生成分辨率、吞吐延迟要求越来越苛刻的大模型场景，MacTok提供了一项具有较高实用价值的技术参照方案 [23] - 该工作已被CVPR 2026录用并入选为Highlight论文 [5]