空间结构
搜索文档
推特吵架吵出篇论文,谢赛宁团队新作iREPA只要3行代码
36氪· 2025-12-16 17:42
要说真学术,还得看推特。 刚刚,谢赛宁自曝团队新作iREPA其实来自4个多月前的,一次与网友的辩论。 这场短暂的线上辩论虽然以谢赛宁被网友说服告终,但在3个多月后,居然有了意料之外的后续—— 多个团队合作,沿着这一思路写出了一篇完整的论文,而且核心框架仅需3行代码。 致谢部分还感谢了当时参与讨论的网友。 一篇推特引发的学术论文 事情是这样的。 一位网友在8月份表示: 别再痴迷于ImageNet-1K的分类分数了!自监督学习(SSL)模型应该专门为稠密任务(如REPA、VLM等)进行训练,因为这些任务真正依赖 的是patch tokens中的空间和局部信息,而不是[CLS]token所代表的全局分类性能。 (注:稠密任务就是要求模型对图像中的"每一个像素"或"每一个局部区域"都做出预测的计算机视觉任务,这类任务需要精确的空间和局部细节信息,而 不仅仅是全局分类标签) 对于网友的观点,谢赛宁表示: 不,使用patch token并不意味着就是在做稠密任务。VLM和REPA的性能与它们在IN1K上的得分高度相关,而与patch级别的对应关系只有很弱 的关联。这并不是[CLS]token的问题,而是高层语义与低层像素 ...
推特吵架吵出篇论文!谢赛宁团队新作iREPA只要3行代码
量子位· 2025-12-16 13:58
henry 发自 凹非寺 量子位 | 公众号 QbitAI 要说真学术,还得看推特。 刚刚,谢赛宁自曝团队新作 iREPA 其实来自4个多月前的,一次与网友的辩论。 这场短暂的线上辩论虽然以谢赛宁被网友说服告终,但在3个多月后,居然有了意料之外的后续—— 多个团队合作,沿着这一思路写出了一篇完整的论文,而且核心框架仅需3行代码。 致谢部分还感谢了当时参与讨论的网友。 一篇推特引发的学术论文 事情是这样的。 一位网友在8月份表示: 别再痴迷于ImageNet-1K的分类分数了!自监督学习(SSL)模型应该专门为稠密任务(如REPA、VLM等)进行训练,因为这些任务 真正依赖的是patch tokens中的空间和局部信息,而不是[CLS]token所代表的全局分类性能。 $${\cal L}_{\rm Gram}=\left\|{\bf X}_{S}\cdot{\bf X}_{S}^{\top}-{\bf X}_{G}\cdot{\bf X}_{G}^{\top}\right\|_{\rm F}^{2}.\tag{2}$$ $${\cal L}_{\rm Ref}=w_{\rm D}{\cal L}_{\rm D ...
谢赛宁REPA得到大幅改进,只需不到4行代码
机器之心· 2025-12-13 12:59
研究核心发现 - 驱动表征对齐(REPA)生成性能的关键因素是目标表征的**空间结构**,而非其**全局语义信息**(如ImageNet-1K准确率)[3][15] - 通过大规模实证分析27种不同视觉编码器,发现空间结构指标(LDS)与生成质量(FID)的皮尔逊相关系数高达 `|r| = 0.852`,而线性探测准确率与FID的相关性仅为 `r = -0.260` [17] 反直觉现象与证据 - 分割模型SAM2-S的ImageNet准确率仅为`24.1%`,但其作为REPA目标表征时,生成的图像质量(FID)优于准确率高出`60%`的模型(如PE-Core-G)[15] - 在同一模型家族中,更大的参数量(如DINOv2-g)并不总能带来更好的生成效果,有时甚至更差[15] - 强行融合包含全局信息的[CLS] token到图像块特征中,会提升线性探测准确率,但导致生成质量(FID)显著下降[15] iREPA方法改进 - 核心改进包含两点:1) 用`3×3`卷积层替代标准REPA中的MLP投影层,以更好地保留局部空间关系[20][21];2) 引入**空间归一化层**,减去目标表征的全局均值信息以增强空间对比度[22] - 该方法代码实现简单,少于4行[5] iREPA性能表现 - **收敛速度**:在各种模型规模(如SiT-XL/2, SiT-B/2)和视觉编码器(如DINOv3, WebSSL, CLIP)下,iREPA均能显著加速扩散Transformer的训练收敛[26] - **编码器通用性**:在测试的27种不同视觉编码器(涵盖监督、自监督及多模态模型)上,iREPA的生成FID分数均低于标准REPA[27] - **扩展性**:模型规模越大,iREPA带来的收益越高。当视觉编码器从PE-B (`90M`参数)增大到PE-G (`1.88B`参数)时,性能提升百分比从`22.2%`增加至`39.6%`[34] - **视觉质量**:生成的图像在物体轮廓、纹理细节和整体结构连贯性上优于标准REPA[36] - **兼容性**:iREPA能无缝集成到现有先进训练流中,如REPA-E、MeanFlow、JiT等,并持续提供额外性能增益[33][37] 消融实验验证 - 完整iREPA方法(包含卷积投影和空间归一化)在所有测试编码器上取得最佳FID分数[41] - 例如,使用DINOv3-B编码器时,完整iREPA的FID为`16.26`,优于仅移除空间归一化的`17.76`和仅移除卷积投影的`18.28`[41]