REPA
搜索文档
推特吵架吵出篇论文,谢赛宁团队新作iREPA只要3行代码
36氪· 2025-12-16 17:42
要说真学术,还得看推特。 刚刚,谢赛宁自曝团队新作iREPA其实来自4个多月前的,一次与网友的辩论。 这场短暂的线上辩论虽然以谢赛宁被网友说服告终,但在3个多月后,居然有了意料之外的后续—— 多个团队合作,沿着这一思路写出了一篇完整的论文,而且核心框架仅需3行代码。 致谢部分还感谢了当时参与讨论的网友。 一篇推特引发的学术论文 事情是这样的。 一位网友在8月份表示: 别再痴迷于ImageNet-1K的分类分数了!自监督学习(SSL)模型应该专门为稠密任务(如REPA、VLM等)进行训练,因为这些任务真正依赖 的是patch tokens中的空间和局部信息,而不是[CLS]token所代表的全局分类性能。 (注:稠密任务就是要求模型对图像中的"每一个像素"或"每一个局部区域"都做出预测的计算机视觉任务,这类任务需要精确的空间和局部细节信息,而 不仅仅是全局分类标签) 对于网友的观点,谢赛宁表示: 不,使用patch token并不意味着就是在做稠密任务。VLM和REPA的性能与它们在IN1K上的得分高度相关,而与patch级别的对应关系只有很弱 的关联。这并不是[CLS]token的问题,而是高层语义与低层像素 ...
推特吵架吵出篇论文!谢赛宁团队新作iREPA只要3行代码
量子位· 2025-12-16 13:58
henry 发自 凹非寺 量子位 | 公众号 QbitAI 要说真学术,还得看推特。 刚刚,谢赛宁自曝团队新作 iREPA 其实来自4个多月前的,一次与网友的辩论。 这场短暂的线上辩论虽然以谢赛宁被网友说服告终,但在3个多月后,居然有了意料之外的后续—— 多个团队合作,沿着这一思路写出了一篇完整的论文,而且核心框架仅需3行代码。 致谢部分还感谢了当时参与讨论的网友。 一篇推特引发的学术论文 事情是这样的。 一位网友在8月份表示: 别再痴迷于ImageNet-1K的分类分数了!自监督学习(SSL)模型应该专门为稠密任务(如REPA、VLM等)进行训练,因为这些任务 真正依赖的是patch tokens中的空间和局部信息,而不是[CLS]token所代表的全局分类性能。 $${\cal L}_{\rm Gram}=\left\|{\bf X}_{S}\cdot{\bf X}_{S}^{\top}-{\bf X}_{G}\cdot{\bf X}_{G}^{\top}\right\|_{\rm F}^{2}.\tag{2}$$ $${\cal L}_{\rm Ref}=w_{\rm D}{\cal L}_{\rm D ...
谢赛宁REPA得到大幅改进,只需不到4行代码
机器之心· 2025-12-13 12:59
研究核心发现 - 驱动表征对齐(REPA)生成性能的关键因素是目标表征的**空间结构**,而非其**全局语义信息**(如ImageNet-1K准确率)[3][15] - 通过大规模实证分析27种不同视觉编码器,发现空间结构指标(LDS)与生成质量(FID)的皮尔逊相关系数高达 `|r| = 0.852`,而线性探测准确率与FID的相关性仅为 `r = -0.260` [17] 反直觉现象与证据 - 分割模型SAM2-S的ImageNet准确率仅为`24.1%`,但其作为REPA目标表征时,生成的图像质量(FID)优于准确率高出`60%`的模型(如PE-Core-G)[15] - 在同一模型家族中,更大的参数量(如DINOv2-g)并不总能带来更好的生成效果,有时甚至更差[15] - 强行融合包含全局信息的[CLS] token到图像块特征中,会提升线性探测准确率,但导致生成质量(FID)显著下降[15] iREPA方法改进 - 核心改进包含两点:1) 用`3×3`卷积层替代标准REPA中的MLP投影层,以更好地保留局部空间关系[20][21];2) 引入**空间归一化层**,减去目标表征的全局均值信息以增强空间对比度[22] - 该方法代码实现简单,少于4行[5] iREPA性能表现 - **收敛速度**:在各种模型规模(如SiT-XL/2, SiT-B/2)和视觉编码器(如DINOv3, WebSSL, CLIP)下,iREPA均能显著加速扩散Transformer的训练收敛[26] - **编码器通用性**:在测试的27种不同视觉编码器(涵盖监督、自监督及多模态模型)上,iREPA的生成FID分数均低于标准REPA[27] - **扩展性**:模型规模越大,iREPA带来的收益越高。当视觉编码器从PE-B (`90M`参数)增大到PE-G (`1.88B`参数)时,性能提升百分比从`22.2%`增加至`39.6%`[34] - **视觉质量**:生成的图像在物体轮廓、纹理细节和整体结构连贯性上优于标准REPA[36] - **兼容性**:iREPA能无缝集成到现有先进训练流中,如REPA-E、MeanFlow、JiT等,并持续提供额外性能增益[33][37] 消融实验验证 - 完整iREPA方法(包含卷积投影和空间归一化)在所有测试编码器上取得最佳FID分数[41] - 例如,使用DINOv3-B编码器时,完整iREPA的FID为`16.26`,优于仅移除空间归一化的`17.76`和仅移除卷积投影的`18.28`[41]
NeurIPS 2025 Oral | 1个Token零成本,REG让Diffusion训练收敛快20倍!
机器之心· 2025-11-29 09:49
文章核心观点 - REG方法通过将预训练视觉模型的class token与图像latent在空间维度拼接并共同加噪训练,显著加速Diffusion模型的训练收敛,并提升生成性能上限[9] - 该方法仅需引入一个额外token,计算开销小于0.5%,几乎不增加推理成本,却能实现数十倍的训练加速[9][17] - REG在ImageNet 256×256任务上相比基线方法SiT和REPA分别实现63倍和23倍的收敛加速[10][17] 技术方案创新 - REG采用high-level class token与low-level latent混合纠缠的去噪训练范式,使模型具备直接从纯噪声生成图像-类别对的能力[9] - 训练时对class token和latent同时加噪并联合去噪优化,推理时只需将随机初始化的class token参与去噪过程[14][15] - 与REPA仅进行特征对齐不同,REG显式将DINOv2表征作为模型输入,实现真正的语义引导生成[13] 性能表现 - 在ImageNet 256×256上,SiT-XL/2+REG在400K步时FID达到3.4,显著优于SiT-XL/2+REPA的7.9[18] - 经过4M步训练后,REG的FID进一步降至1.8,显示其性能上限优势[17][18] - 使用CFG时,REG在480 epochs达到1.40 FID,超越REPA 800 epochs的1.42 FID[19][20] - 在ImageNet 512×512任务上,REG仅用80 epochs即达到1.68 FID,优于REPA 200 epochs和SiT 600 epochs结果[21] 效率优势 - 训练效率大幅提升,达到相似FID时,REG相比SiT-XL/2训练时间减少98.36%,相比REPA减少95.72%[24][25] - 推理开销几乎可忽略,参数、FLOPs和延迟增加均小于0.5%,但FID比SiT-XL/2+REPA提升56.46%[26][27] - 仅需400K步的SiT-L/2+REG即可优于4M步的SiT-XL/2+REPA,实现10倍训练时长节约[10][17] 技术验证 - 消融实验表明DINOv2 class token效果最佳,high-level全局判别信息能大幅提升生成质量[29][30] - 即使单独插入class token并进行联合加噪训练,也能带来显著性能提升[31][32] - CKNNA指标显示REG在所有训练阶段、网络层和时间步均保持更高的判别语义相似度[35][36][37] 机制分析 - REG促进生成模型的"理解-生成"解耦,class token指引模型前层专注理解噪声latent,后层聚焦生成任务[38] - 通过attention机制传递判别语义,实现"先理解、后生成"的高效生成范式[36][38] - 该方法首次提出high-level与low-level token混合纠缠的训练理念,为生成模型设计提供新思路[38]