谢赛宁REPA得到大幅改进,只需不到4行代码
机器之心·2025-12-13 12:59

研究核心发现 - 驱动表征对齐(REPA)生成性能的关键因素是目标表征的空间结构,而非其全局语义信息(如ImageNet-1K准确率)[3][15] - 通过大规模实证分析27种不同视觉编码器,发现空间结构指标(LDS)与生成质量(FID)的皮尔逊相关系数高达 |r| = 0.852,而线性探测准确率与FID的相关性仅为 r = -0.260 [17] 反直觉现象与证据 - 分割模型SAM2-S的ImageNet准确率仅为24.1%,但其作为REPA目标表征时,生成的图像质量(FID)优于准确率高出60%的模型(如PE-Core-G)[15] - 在同一模型家族中,更大的参数量(如DINOv2-g)并不总能带来更好的生成效果,有时甚至更差[15] - 强行融合包含全局信息的[CLS] token到图像块特征中,会提升线性探测准确率,但导致生成质量(FID)显著下降[15] iREPA方法改进 - 核心改进包含两点:1) 用3×3卷积层替代标准REPA中的MLP投影层,以更好地保留局部空间关系[20][21];2) 引入空间归一化层,减去目标表征的全局均值信息以增强空间对比度[22] - 该方法代码实现简单,少于4行[5] iREPA性能表现 - 收敛速度:在各种模型规模(如SiT-XL/2, SiT-B/2)和视觉编码器(如DINOv3, WebSSL, CLIP)下,iREPA均能显著加速扩散Transformer的训练收敛[26] - 编码器通用性:在测试的27种不同视觉编码器(涵盖监督、自监督及多模态模型)上,iREPA的生成FID分数均低于标准REPA[27] - 扩展性:模型规模越大,iREPA带来的收益越高。当视觉编码器从PE-B (90M参数)增大到PE-G (1.88B参数)时,性能提升百分比从22.2%增加至39.6%[34] - 视觉质量:生成的图像在物体轮廓、纹理细节和整体结构连贯性上优于标准REPA[36] - 兼容性:iREPA能无缝集成到现有先进训练流中,如REPA-E、MeanFlow、JiT等,并持续提供额外性能增益[33][37] 消融实验验证 - 完整iREPA方法(包含卷积投影和空间归一化)在所有测试编码器上取得最佳FID分数[41] - 例如,使用DINOv3-B编码器时,完整iREPA的FID为16.26,优于仅移除空间归一化的17.76和仅移除卷积投影的18.28[41]