Latent Forcing
搜索文档
李飞飞团队新作:简单调整生成顺序,大幅提升像素级图像生成质量
量子位· 2026-02-14 18:09
文章核心观点 - 李飞飞团队提出的Latent Forcing方法,通过重排扩散模型的生成轨迹,强制实现“先定结构、后填细节”的逻辑,从而在保持100%原始像素精度的同时,解决了传统AI生图方法在效率与保真度之间的取舍矛盾,并在多项指标上刷新了SOTA [4][5][6][26] 传统方法瓶颈 - 传统像素级扩散模型在降噪过程中,高频纹理细节会干扰低频语义结构,导致模型在未明确整体轮廓时就预测局部像素颜色,违背视觉生成的自然逻辑,容易产生结构混乱和速度慢的问题 [8][9] - 潜空间模型通过预训练tokenizer将图像压缩到低维空间,生成速度快,但依赖预训练解码器会引入重建误差,并丧失端到端建模原始数据的能力 [11][12] Latent Forcing方法原理 - 该方法核心是对扩散轨迹进行重新排序,在不改变基础Transformer架构的前提下,引入双时间变量机制,让模型同时但异步地处理像素和潜变量 [14][16] - 在生成初期,潜变量率先完成降噪,在大尺度上确立图像的语义骨架;在结构确定后,像素部分再进行精细化的降噪填色 [19] - 生成过程结束后,用于结构引导的潜变量“草稿”被直接丢弃,最终输出是100%无损的原始像素图像,无需解码器,整个过程端到端、可扩展,且几乎不增加计算量 [20][21] 性能表现与突破 - 在ImageNet-256任务中,相同计算规模下训练80个epochs,Latent Forcing的条件生成FID分数从此前最强的像素级模型JiT+REPA的18.60降至9.76,接近腰斩 [22] - 在200个epoch的最终模型(ViT‑L规模)下,Latent Forcing实现了条件生成FID 2.48(guided)、无条件生成FID 7.2(unguided)的分数,创下像素空间扩散Transformer新的SOTA [23][24] - 该方法打破了学术界“必须通过更高倍率的有损压缩才能换取好的FID表现”的普遍观点,证明在保持100%原始像素精度的情况下,性能可以超越有损模型 [25][26] 研究团队 - 该研究项目由斯坦福大学教授李飞飞领衔,其他共同作者包括Eric Ryan Chan、Kyle Sargent、Changan Chen和Ehsan Adeli,密歇根大学教授Justin Johnson作为合作作者参与 [27][28][29]