Workflow
JiT(Just image Transformers)
icon
搜索文档
何恺明团队新作:扩散模型可能被用错了
36氪· 2025-11-19 19:22
何恺明又一次返璞归真。 最新论文直接推翻扩散模型的主流玩法——不让模型预测噪声,而是直接画干净图。 如果你熟悉何恺明的作品,会发现这正是他创新的典型路径,不提出更复杂的架构,而是把问题拆回最初的样子,让模型做它最擅长的那件事。 实际上,扩散模型火了这么多年,架构越做越复杂,比如预测噪声、预测速度、对齐latent、堆tokenizer、加VAE、加perceptual loss…… 但大家似乎忘了,扩散模型原本就是去噪模型。 现在这篇新论文把这件事重新摆上桌,既然叫denoising模型,那为什么不直接denoise? 于是,在ResNet、MAE等之后,何恺明团队又给出了一个"大道至简"的结论:扩散模型应该回到最初——直接预测图像。 扩散模型可能被用错了 当下的主流扩散模型,虽然设计思想以及名为"去噪",但在训练时,神经网络预测的目标往往并不是干净的图像,而是噪声, 或者是一个混合了图像与 噪声的速度场。 实际上,预测噪声和预测干净图差得很远。 根据流形假设,自然图像是分布在高维像素空间中的低维流形上的,是有规律可循的干净数据;而噪声则是均匀弥散在整个高维空间中的,不具备这种低 维结构。 简单理解就是,把高 ...
何恺明团队新作:扩散模型可能被用错了
量子位· 2025-11-19 17:01
文章核心观点 - 何恺明团队提出颠覆性观点,认为当前主流扩散模型的使用方法存在根本性问题,应回归去噪本质,直接预测干净图像而非噪声 [4][5][6] - 基于此观点提出极简架构JiT,仅使用纯Transformer直接处理高维像素,在多项指标上达到SOTA水平,证明了该方法的有效性和优越性 [10][11][18] 技术路径与理论依据 - 当前主流扩散模型架构复杂,通过预测噪声或速度场进行训练,但偏离了其作为去噪模型的初衷 [4][6] - 根据流形假设,自然图像存在于高维空间中的低维流形上,而有规律的干净数据更易被神经网络学习,无规律的噪声则难以拟合 [7][9] - 直接预测干净图像实质是让网络将噪点投影回低维流形,对模型容量要求更低,更符合神经网络设计本质 [9] JiT架构设计与优势 - JiT采用极简设计,仅为纯图像Transformer,无需VAE压缩、Tokenizer、CLIP/DINO对齐或额外损失函数 [11] - 直接处理原始像素,将其切分为大Patch输入,输出目标直接设定为预测干净的图像块 [12] - 在高维空间中优势显著,传统预测噪声模型FID指数级飙升至379.21,而JiT的x-pred方法FID仅为10.14,表现稳健 [14][15] - 模型扩展能力出色,即使Patch尺寸扩大至64x64,输入维度高达一万多维,仍能实现高质量生成 [15] 实验性能与成果 - 在ImageNet 256x256和512x512数据集上,JiT达到SOTA级FID分数,分别为1.82和1.78 [18] - 不同模型规模下性能持续提升,JiT-G/16在256x256任务上200-ep和600-ep的FID分别为2.15和1.82 [19] - 引入瓶颈层进行降维操作,非但未导致模型失效,反而因契合流形学习本质进一步提升了生成质量 [17]