Workflow
JiT(Just image Transformers)
icon
搜索文档
何恺明带大二本科生颠覆扩散图像生成:扔掉多步采样和潜空间,一步像素直出
量子位· 2026-02-02 13:58
文章核心观点 - 何恺明团队提出了一种名为Pixel Mean Flow (pMF)的全新生成模型架构,该架构同时实现了单步采样和在原始像素空间操作,从而大幅简化了图像生成流程并提升了效率 [1][2][3] - pMF方法在ImageNet基准测试上取得了当前单步、无潜空间扩散模型的最佳成绩之一,其性能与生成对抗网络(GAN)相当,但计算开销显著降低 [4][27][29] - 该研究标志着生成式人工智能技术正从依赖多步采样和潜空间编码的复杂范式,向更直接、高效的端到端建模范式演进 [36] 技术突破与核心设计 - **架构简化**:pMF成功移除了传统扩散模型/流模型的两大核心组件——多步采样和潜空间编码,实现了从噪声到图像的一步生成 [3][5] - **核心设计思路**:网络直接输出像素级别的去噪图像,但在训练时通过一个从平均速度场变换得到的新场来计算损失,这基于“流形假设”,即预测低维流形上的量比预测高维噪声更容易 [13][14][17] - **关键验证**:在2D玩具模型和高维真实图像(如256×256分辨率,patch维度768)实验中,传统的u-prediction方法完全失效(FID飙升至164.89),而pMF采用的x-prediction方法表现稳定(FID保持在个位数) [20][21][23][24] - **独特优势**:由于直接在像素空间生成,pMF能够自然地引入感知损失进行训练,这在以往是潜空间方法的专属技巧,实验显示加入感知损失后FID从9.56降至3.53,提升约6个点 [25][26] 性能表现与对比 - **ImageNet 256×256分辨率**:pMF-H/16模型取得了2.22的FID分数,大幅超越了此前唯一的同类单步像素空间方法EPG(8.82 FID) [4][27] - **与GAN对比**:pMF-H/16的FID(2.22)与StyleGAN-XL(2.30)相当,但每次前向传播的计算量仅为271 Gflops,是StyleGAN-XL(1574 Gflops)的约17.2%,效率优势明显 [27][29] - **ImageNet 512×512分辨率**:pMF-H/32模型取得了2.48的FID分数,通过采用32×32的大patch尺寸,在保持与低分辨率模型相近计算开销的同时实现了高性能生成 [29][30] - **潜在成本揭示**:文章指出,潜空间方法中VAE解码器的计算开销常被忽略,标准SD-VAE解码器在256分辨率下需310 Gflops,在512分辨率下需1230 Gflops,这一开销已超过pMF整个生成器的计算量 [31] 实验细节与消融研究 - **优化器选择**:实验表明,使用Muon优化器比Adam收敛更快且效果更好 [32] - **时间采样策略**:MeanFlow的全平面采样策略(0 < r < t)至关重要,仅在单线(r=t或r=0)上采样会导致模型失败(FID分别高达194.53和389.28) [33][34] - **预条件器设计**:在高维像素空间场景下,传统的EDM和sCM风格的预条件器设计不如直接的x-prediction方法有效 [33] 行业意义与团队背景 - **技术演进方向**:研究证明了单步无潜空间生成已从“是否可行”进入“如何做得更好”的阶段,鼓励未来对更直接、端到端的生成建模进行探索 [36] - **团队构成**:论文共同一作为四名MIT本科生,其中包括多名国际奥林匹克竞赛(数学、物理)金牌得主,显示了顶尖年轻研究人才在该领域的活跃度 [37][38]
扩散模型走了十年弯路!何恺明重磅新作JiT:回归真正“去噪”本质
自动驾驶之心· 2025-12-01 08:04
文章核心观点 - MIT何恺明团队提出极简扩散模型架构JiT,让模型直接预测干净图像本身,而非预测噪声或混合噪声 [10] - 该方法在高维像素空间中表现更强、更稳、更简单,无需潜在空间、分词器、预训练或额外损失函数 [11][13] - 直接预测干净图像的任务更简单,因为自然图像位于低维流形上,而噪声是高维乱流,网络容量有限时预测噪声会导致模型崩溃 [14][15][17] 技术原理与创新 - 核心思想是让网络预测干净数据,而非噪声或混合噪声,通过数学推导证明直接输出干净图像可使任务更简单 [18][19] - 即使在高维场景如3072维patch(32×32×3)中,只有直接预测干净图像的方式不会崩溃 [20] - 框架仅使用Vision Transformer直接在原始像素patch上操作,输入输出均为像素patch,结构极简 [17] 模型性能与实验结果 - 在ImageNet 256×256分辨率上,JiT-L/16模型FID达到2.36,JiT-G/16模型FID达到1.82,与依赖复杂潜在空间的大型扩散模型性能相当 [30] - 在512×512分辨率下,JiT-H/32模型FID为1.94,JiT-G/32模型FID为1.78,证明在3072维高维patch下仍能稳定训练 [31] - 在1024×1024超高分辨率下,JiT-B/64模型FID为4.82,且计算成本几乎不随分辨率增加而上升,序列长度保持恒定 [32] 架构优势与反直觉发现 - 即使将patch embedding压缩至低维瓶颈(如32维甚至16维),模型不仅未崩溃,FID指标反而显著提升,与低维流形假设一致 [27][28][35] - 模型可处理高达12288维的patch(64×64×3),完全摆脱潜在空间,在原生像素空间自洽工作 [24][25] - 该方法特别适合需要处理原始高维数据的领域,如具身智能和科学计算,有望成为更通用的生成基础方式 [34]
何恺明团队新作:扩散模型可能被用错了
36氪· 2025-11-19 19:22
核心观点 - 最新研究颠覆了扩散模型的主流范式,提出让模型直接预测干净图像而非噪声,实现了“大道至简”的设计理念 [1][2] - 该研究指出当前主流的预测噪声方法存在根本性矛盾,而直接预测图像更符合神经网络处理高维数据的本质 [3][5][6] - 基于此理念提出的极简架构JiT,在不依赖复杂组件的情况下,在多个标准数据集上取得了领先的性能 [7][8][13] 技术原理与创新 - 根据流形假设,自然图像存在于高维空间中的低维流形上,而噪声则均匀弥散于整个高维空间,预测无规律的噪声对模型容量要求极高 [3][5] - 直接预测干净图像是让网络学习将噪点投影回低维流形,对模型容量的要求显著降低,更符合神经网络“过滤噪声、保留信号”的设计初衷 [6] - JiT架构完全基于像素,使用纯Transformer处理大尺寸图像块(Patch),输出目标直接设定为预测干净的图像块,无需VAE、Tokenizer、CLIP等复杂组件 [7][8] 性能表现 - 实验显示,在低维空间下不同方法差异不大,但在高维空间中,传统预测噪声模型FID指数级飙升至379.21,而直接预测原图的JiT模型FID保持稳健,仅为10.14 [10][11] - 模型扩展能力出色,即使将Patch尺寸扩大至64x64(输入维度超过一万维),只要坚持预测原图,无需增加网络宽度也能实现高质量生成 [11] - JiT在ImageNet 256x256和512x256分辨率上分别达到了1.82和1.78的FID分数,实现了SOTA性能 [13][14] 研究团队 - 论文一作为何恺明的开门弟子之一黎天鸿,本科毕业于清华姚班,在MIT获得硕博学位,目前在该团队从事博士后研究 [15][17] - 其主要研究方向为表征学习、生成模型及两者协同作用,目标是构建能理解人类感知之外世界的智能视觉系统 [17]
何恺明团队新作:扩散模型可能被用错了
量子位· 2025-11-19 17:01
文章核心观点 - 何恺明团队提出颠覆性观点,认为当前主流扩散模型的使用方法存在根本性问题,应回归去噪本质,直接预测干净图像而非噪声 [4][5][6] - 基于此观点提出极简架构JiT,仅使用纯Transformer直接处理高维像素,在多项指标上达到SOTA水平,证明了该方法的有效性和优越性 [10][11][18] 技术路径与理论依据 - 当前主流扩散模型架构复杂,通过预测噪声或速度场进行训练,但偏离了其作为去噪模型的初衷 [4][6] - 根据流形假设,自然图像存在于高维空间中的低维流形上,而有规律的干净数据更易被神经网络学习,无规律的噪声则难以拟合 [7][9] - 直接预测干净图像实质是让网络将噪点投影回低维流形,对模型容量要求更低,更符合神经网络设计本质 [9] JiT架构设计与优势 - JiT采用极简设计,仅为纯图像Transformer,无需VAE压缩、Tokenizer、CLIP/DINO对齐或额外损失函数 [11] - 直接处理原始像素,将其切分为大Patch输入,输出目标直接设定为预测干净的图像块 [12] - 在高维空间中优势显著,传统预测噪声模型FID指数级飙升至379.21,而JiT的x-pred方法FID仅为10.14,表现稳健 [14][15] - 模型扩展能力出色,即使Patch尺寸扩大至64x64,输入维度高达一万多维,仍能实现高质量生成 [15] 实验性能与成果 - 在ImageNet 256x256和512x512数据集上,JiT达到SOTA级FID分数,分别为1.82和1.78 [18] - 不同模型规模下性能持续提升,JiT-G/16在256x256任务上200-ep和600-ep的FID分别为2.15和1.82 [19] - 引入瓶颈层进行降维操作,非但未导致模型失效,反而因契合流形学习本质进一步提升了生成质量 [17]