JiT（Just image Transformers） - 财报，业绩电话会，研报，新闻

JiT（Just image Transformers）

搜索文档

自动驾驶之心· 2025-12-01 08:04

文章核心观点 - MIT何恺明团队提出极简扩散模型架构JiT，让模型直接预测干净图像本身，而非预测噪声或混合噪声 [10] - 该方法在高维像素空间中表现更强、更稳、更简单，无需潜在空间、分词器、预训练或额外损失函数 [11][13] - 直接预测干净图像的任务更简单，因为自然图像位于低维流形上，而噪声是高维乱流，网络容量有限时预测噪声会导致模型崩溃 [14][15][17] 技术原理与创新 - 核心思想是让网络预测干净数据，而非噪声或混合噪声，通过数学推导证明直接输出干净图像可使任务更简单 [18][19] - 即使在高维场景如3072维patch（32×32×3）中，只有直接预测干净图像的方式不会崩溃 [20] - 框架仅使用Vision Transformer直接在原始像素patch上操作，输入输出均为像素patch，结构极简 [17] 模型性能与实验结果 - 在ImageNet 256×256分辨率上，JiT-L/16模型FID达到2.36，JiT-G/16模型FID达到1.82，与依赖复杂潜在空间的大型扩散模型性能相当 [30] - 在512×512分辨率下，JiT-H/32模型FID为1.94，JiT-G/32模型FID为1.78，证明在3072维高维patch下仍能稳定训练 [31] - 在1024×1024超高分辨率下，JiT-B/64模型FID为4.82，且计算成本几乎不随分辨率增加而上升，序列长度保持恒定 [32] 架构优势与反直觉发现 - 即使将patch embedding压缩至低维瓶颈（如32维甚至16维），模型不仅未崩溃，FID指标反而显著提升，与低维流形假设一致 [27][28][35] - 模型可处理高达12288维的patch（64×64×3），完全摆脱潜在空间，在原生像素空间自洽工作 [24][25] - 该方法特别适合需要处理原始高维数据的领域，如具身智能和科学计算，有望成为更通用的生成基础方式 [34]

JiT（Just image Transformers）

JiT（Just image Transformers）

何恺明团队新作：扩散模型可能被用错了

36氪· 2025-11-19 19:22

核心观点 - 最新研究颠覆了扩散模型的主流范式，提出让模型直接预测干净图像而非噪声，实现了“大道至简”的设计理念 [1][2] - 该研究指出当前主流的预测噪声方法存在根本性矛盾，而直接预测图像更符合神经网络处理高维数据的本质 [3][5][6] - 基于此理念提出的极简架构JiT，在不依赖复杂组件的情况下，在多个标准数据集上取得了领先的性能 [7][8][13] 技术原理与创新 - 根据流形假设，自然图像存在于高维空间中的低维流形上，而噪声则均匀弥散于整个高维空间，预测无规律的噪声对模型容量要求极高 [3][5] - 直接预测干净图像是让网络学习将噪点投影回低维流形，对模型容量的要求显著降低，更符合神经网络“过滤噪声、保留信号”的设计初衷 [6] - JiT架构完全基于像素，使用纯Transformer处理大尺寸图像块（Patch），输出目标直接设定为预测干净的图像块，无需VAE、Tokenizer、CLIP等复杂组件 [7][8] 性能表现 - 实验显示，在低维空间下不同方法差异不大，但在高维空间中，传统预测噪声模型FID指数级飙升至379.21，而直接预测原图的JiT模型FID保持稳健，仅为10.14 [10][11] - 模型扩展能力出色，即使将Patch尺寸扩大至64x64（输入维度超过一万维），只要坚持预测原图，无需增加网络宽度也能实现高质量生成 [11] - JiT在ImageNet 256x256和512x256分辨率上分别达到了1.82和1.78的FID分数，实现了SOTA性能 [13][14] 研究团队 - 论文一作为何恺明的开门弟子之一黎天鸿，本科毕业于清华姚班，在MIT获得硕博学位，目前在该团队从事博士后研究 [15][17] - 其主要研究方向为表征学习、生成模型及两者协同作用，目标是构建能理解人类感知之外世界的智能视觉系统 [17]

流形假设

大道至简

Artificial Intelligence

扩散模型

JiT（Just image Transformers）

流形假设

大道至简

Artificial Intelligence

扩散模型

JiT（Just image Transformers）

何恺明团队新作：扩散模型可能被用错了

量子位· 2025-11-19 17:01

文章核心观点 - 何恺明团队提出颠覆性观点，认为当前主流扩散模型的使用方法存在根本性问题，应回归去噪本质，直接预测干净图像而非噪声 [4][5][6] - 基于此观点提出极简架构JiT，仅使用纯Transformer直接处理高维像素，在多项指标上达到SOTA水平，证明了该方法的有效性和优越性 [10][11][18] 技术路径与理论依据 - 当前主流扩散模型架构复杂，通过预测噪声或速度场进行训练，但偏离了其作为去噪模型的初衷 [4][6] - 根据流形假设，自然图像存在于高维空间中的低维流形上，而有规律的干净数据更易被神经网络学习，无规律的噪声则难以拟合 [7][9] - 直接预测干净图像实质是让网络将噪点投影回低维流形，对模型容量要求更低，更符合神经网络设计本质 [9] JiT架构设计与优势 - JiT采用极简设计，仅为纯图像Transformer，无需VAE压缩、Tokenizer、CLIP/DINO对齐或额外损失函数 [11] - 直接处理原始像素，将其切分为大Patch输入，输出目标直接设定为预测干净的图像块 [12] - 在高维空间中优势显著，传统预测噪声模型FID指数级飙升至379.21，而JiT的x-pred方法FID仅为10.14，表现稳健 [14][15] - 模型扩展能力出色，即使Patch尺寸扩大至64x64，输入维度高达一万多维，仍能实现高质量生成 [15] 实验性能与成果 - 在ImageNet 256x256和512x512数据集上，JiT达到SOTA级FID分数，分别为1.82和1.78 [18] - 不同模型规模下性能持续提升，JiT-G/16在256x256任务上200-ep和600-ep的FID分别为2.15和1.82 [19] - 引入瓶颈层进行降维操作，非但未导致模型失效，反而因契合流形学习本质进一步提升了生成质量 [17]

流形假设

扩散模型

JiT（Just image Transformers）

流形假设

扩散模型

JiT（Just image Transformers）