谢赛宁REPA得到大幅改进，只需不到4行代码

研究核心发现 - 驱动表征对齐（REPA）生成性能的关键因素是目标表征的空间结构，而非其全局语义信息（如ImageNet-1K准确率）[3][15] - 通过大规模实证分析27种不同视觉编码器，发现空间结构指标（LDS）与生成质量（FID）的皮尔逊相关系数高达 |r| = 0.852，而线性探测准确率与FID的相关性仅为 r = -0.260 [17] 反直觉现象与证据 - 分割模型SAM2-S的ImageNet准确率仅为24.1%，但其作为REPA目标表征时，生成的图像质量（FID）优于准确率高出60%的模型（如PE-Core-G）[15] - 在同一模型家族中，更大的参数量（如DINOv2-g）并不总能带来更好的生成效果，有时甚至更差[15] - 强行融合包含全局信息的[CLS] token到图像块特征中，会提升线性探测准确率，但导致生成质量（FID）显著下降[15] iREPA方法改进 - 核心改进包含两点：1) 用3×3卷积层替代标准REPA中的MLP投影层，以更好地保留局部空间关系[20][21]；2) 引入空间归一化层，减去目标表征的全局均值信息以增强空间对比度[22] - 该方法代码实现简单，少于4行[5] iREPA性能表现 - 收敛速度：在各种模型规模（如SiT-XL/2, SiT-B/2）和视觉编码器（如DINOv3, WebSSL, CLIP）下，iREPA均能显著加速扩散Transformer的训练收敛[26] - 编码器通用性：在测试的27种不同视觉编码器（涵盖监督、自监督及多模态模型）上，iREPA的生成FID分数均低于标准REPA[27] - 扩展性：模型规模越大，iREPA带来的收益越高。当视觉编码器从PE-B (90M参数)增大到PE-G (1.88B参数)时，性能提升百分比从22.2%增加至39.6%[34] - 视觉质量：生成的图像在物体轮廓、纹理细节和整体结构连贯性上优于标准REPA[36] - 兼容性：iREPA能无缝集成到现有先进训练流中，如REPA-E、MeanFlow、JiT等，并持续提供额外性能增益[33][37] 消融实验验证 - 完整iREPA方法（包含卷积投影和空间归一化）在所有测试编码器上取得最佳FID分数[41] - 例如，使用DINOv3-B编码器时，完整iREPA的FID为16.26，优于仅移除空间归一化的17.76和仅移除卷积投影的18.28[41]