MiniT2I - 财报，业绩电话会，研报，新闻

MiniT2I

搜索文档

机器之心· 2026-06-22 12:34

核心观点 - 何恺明团队发布MiniT2I模型，通过极简设计挑战当前文本生成图像领域复杂的主流范式，主张文生图与类别条件图像生成在本质上并无巨大差异，其架构、算力与数据量级均可对齐[3][5] - MiniT2I模型在多项基准测试中表现优异，以显著更小的参数量和极低的训练成本，超越了参数量大数倍的同类像素空间模型，展示了从“堆料”到“提纯”的潜在范式转换[3][19][24] 技术路线与设计选择 - **像素空间直出，舍弃VAE**：模型直接在RGB像素上进行去噪，避免了潜在扩散模型中VAE带来的重建误差、额外训练阶段和目标不对齐问题[7] - **计算效率显著提升**：在相同参数预算下，像素模型的FID（18.7）与潜在空间模型（19.0）持平，但单步前向计算成本从约1379 GFLOPs降至约570 GFLOPs（B/16设置），成本降低约5倍[7][8][9] - **采用MM-JiT架构，回归朴素Transformer**：移除了主流模型（如SD3的MM-DiT）中复杂的AdaLN条件注入机制，代之以在联合注意力前插入两层轻量文本适配器，使架构更简洁[10][13] - **架构简化带来性能提升**：移除AdaLN后，参数减少，但可用相同算力预算增加层数（从12层增至17层），FID从18.7显著降低至13.7[14][15] 训练数据与范式 - **数据全部公开，采用两阶段训练**：预训练阶段使用LLaVA-recaptioned CC12M数据集（25万步），微调阶段使用约12万张高质量图文对（4万步）[16] - **训练范式对标大语言模型**：采用“预训练-微调”模式，消融实验证明两者缺一不可，仅预训练会导致提示跟随差，仅微调则导致生成多样性坍塌[17] 模型性能表现 - **小模型，大表现**：MiniT2I-B/16模型总参数约6亿（含文本编码器），在GenEval上得分0.87，在DPG-Bench上得分84.2，超越了参数量为其3-4倍的同类模型[19] - **训练成本极低**：B/32消融模型在8张H100上训练仅需约3天，总训练FLOPs与标准的ImageNet 200 epoch实验相当[19] - **更大模型扩展性良好**：扩展到L/16版本（912M参数）后，在风格多样性、空间关系和想象力场景上的生成质量与参数约20亿的SD3-Medium相当甚至更优，在PRISM-Bench的风格（79.9）、组合（78.4）、想象力（57.9）维度表现出色[21][22] 当前局限 - **文字渲染与命名实体识别存在差距**：MiniT2I-L/16在PRISM-Bench的文字渲染得分为30.6，命名实体得分为60.3，显著低于SD3-Medium的50.9和66.3，团队归因于公开数据配方的固有局限[21][22] - **像素空间固有挑战**：存在patch边界伪影（边界处梯度比非边界高17-22%），高CFG引导系数可能导致视觉瑕疵，以及向更高分辨率（如4K+）扩展需要更高效的注意力机制[24] - **模型定位**：该研究是技术路线的概念验证，而非最终产品[24]