Workflow
Diffusion + Transformer
icon
搜索文档
何恺明重磅新作:Just image Transformers让去噪模型回归基本功
机器之心· 2025-11-19 10:09
文章核心观点 - 何恺明新论文指出,当前主流的去噪扩散模型并非直接预测干净图像,而是预测噪声或带噪量,这偏离了“去噪”的本意 [2][5] - 基于流形假设,论文主张让扩散模型回归本源,直接预测干净数据(x-prediction),这能使网络在极高维空间中有效运行 [6][7] - 论文提出“Just image Transformers (JiT)”架构,仅使用简单的像素级Transformer即可实现高质量图像生成,无需tokenizer、预训练或额外损失项 [8][11] 模型架构设计 - JiT架构遵循ViT核心理念,将图像划分为非重叠patch,通过线性嵌入和Transformer块处理,输出层将每个token投影回patch维度 [14] - 架构以时间t和类别标签为条件,使用adaLN-Zero进行条件化处理,相当于直接应用于像素patch的Diffusion Transformer [16] - 在256×256分辨率下使用JiT/16(p=16,patch维度768),在512×512分辨率下使用JiT/32(p=32,patch维度3072)[16] 预测目标与损失函数 - 实验比较了x-prediction(预测干净数据)、ϵ-prediction(预测噪声)和v-prediction(预测流速度)三种方式,以及对应的x-loss、ϵ-loss和v-loss [18][20] - 在高维设置(ImageNet 256×256)下,只有x-prediction表现良好,而ϵ-prediction和v-prediction出现灾难性失败 [21] - 在低维设置(ImageNet 64×64)下,所有预测方式都表现相当,说明高维信息传播是关键问题 [22] - 最终算法采用x-prediction和v-loss组合,对应表1(3)(a) [34] 模型性能与实验结果 - JiT-B/16在ImageNet 256×256分辨率下达到4.37 FID(200 epoch)和3.66 FID(600 epoch)[30] - JiT-G/32在ImageNet 512×512分辨率下达到2.11 FID(200 epoch)和1.78 FID(600 epoch)[30] - 模型在不同分辨率下参数量和计算成本相近,256×256的JiT-B/16为131M参数、25 Gflops,512×512的JiT-B/32为133M参数、26 Gflops [29][41] - 引入SwiGLU、RMSNorm、RoPE、qk-norm等Transformer改进技术后,JiT-B/16的FID从7.48提升至5.49 [38] 技术优势与应用潜力 - JiT方法避免了观测维度灾难,即使patch维度高达12288(1024×1024分辨率),模型仍能有效工作 [28][42] - 该方法无需特定领域设计,在蛋白质、分子或天气等自然数据领域具有潜在价值,因为这些领域的tokenizer通常难以设计 [12] - 与潜在扩散方法相比,JiT完全依赖朴素、通用型Transformer,计算友好且避免分辨率加倍时的二次成本增长 [46] - 该方法没有使用额外损失或预训练,这些可能会进一步带来性能提升 [49]