Workflow
MiniT2I
icon
搜索文档
何恺明团队新作:删掉VAE和私有数据后,文生图竟然更强了
机器之心· 2026-06-22 12:34
核心观点 - 何恺明团队发布MiniT2I模型,通过极简设计挑战当前文本生成图像领域复杂的主流范式,主张文生图与类别条件图像生成在本质上并无巨大差异,其架构、算力与数据量级均可对齐[3][5] - MiniT2I模型在多项基准测试中表现优异,以显著更小的参数量和极低的训练成本,超越了参数量大数倍的同类像素空间模型,展示了从“堆料”到“提纯”的潜在范式转换[3][19][24] 技术路线与设计选择 - **像素空间直出,舍弃VAE**:模型直接在RGB像素上进行去噪,避免了潜在扩散模型中VAE带来的重建误差、额外训练阶段和目标不对齐问题[7] - **计算效率显著提升**:在相同参数预算下,像素模型的FID(18.7)与潜在空间模型(19.0)持平,但单步前向计算成本从约1379 GFLOPs降至约570 GFLOPs(B/16设置),成本降低约5倍[7][8][9] - **采用MM-JiT架构,回归朴素Transformer**:移除了主流模型(如SD3的MM-DiT)中复杂的AdaLN条件注入机制,代之以在联合注意力前插入两层轻量文本适配器,使架构更简洁[10][13] - **架构简化带来性能提升**:移除AdaLN后,参数减少,但可用相同算力预算增加层数(从12层增至17层),FID从18.7显著降低至13.7[14][15] 训练数据与范式 - **数据全部公开,采用两阶段训练**:预训练阶段使用LLaVA-recaptioned CC12M数据集(25万步),微调阶段使用约12万张高质量图文对(4万步)[16] - **训练范式对标大语言模型**:采用“预训练-微调”模式,消融实验证明两者缺一不可,仅预训练会导致提示跟随差,仅微调则导致生成多样性坍塌[17] 模型性能表现 - **小模型,大表现**:MiniT2I-B/16模型总参数约6亿(含文本编码器),在GenEval上得分0.87,在DPG-Bench上得分84.2,超越了参数量为其3-4倍的同类模型[19] - **训练成本极低**:B/32消融模型在8张H100上训练仅需约3天,总训练FLOPs与标准的ImageNet 200 epoch实验相当[19] - **更大模型扩展性良好**:扩展到L/16版本(912M参数)后,在风格多样性、空间关系和想象力场景上的生成质量与参数约20亿的SD3-Medium相当甚至更优,在PRISM-Bench的风格(79.9)、组合(78.4)、想象力(57.9)维度表现出色[21][22] 当前局限 - **文字渲染与命名实体识别存在差距**:MiniT2I-L/16在PRISM-Bench的文字渲染得分为30.6,命名实体得分为60.3,显著低于SD3-Medium的50.9和66.3,团队归因于公开数据配方的固有局限[21][22] - **像素空间固有挑战**:存在patch边界伪影(边界处梯度比非边界高17-22%),高CFG引导系数可能导致视觉瑕疵,以及向更高分辨率(如4K+)扩展需要更高效的注意力机制[24] - **模型定位**:该研究是技术路线的概念验证,而非最终产品[24]