Workflow
全局信息
icon
搜索文档
谢赛宁REPA得到大幅改进,只需不到4行代码
机器之心· 2025-12-13 12:59
研究核心发现 - 驱动表征对齐(REPA)生成性能的关键因素是目标表征的**空间结构**,而非其**全局语义信息**(如ImageNet-1K准确率)[3][15] - 通过大规模实证分析27种不同视觉编码器,发现空间结构指标(LDS)与生成质量(FID)的皮尔逊相关系数高达 `|r| = 0.852`,而线性探测准确率与FID的相关性仅为 `r = -0.260` [17] 反直觉现象与证据 - 分割模型SAM2-S的ImageNet准确率仅为`24.1%`,但其作为REPA目标表征时,生成的图像质量(FID)优于准确率高出`60%`的模型(如PE-Core-G)[15] - 在同一模型家族中,更大的参数量(如DINOv2-g)并不总能带来更好的生成效果,有时甚至更差[15] - 强行融合包含全局信息的[CLS] token到图像块特征中,会提升线性探测准确率,但导致生成质量(FID)显著下降[15] iREPA方法改进 - 核心改进包含两点:1) 用`3×3`卷积层替代标准REPA中的MLP投影层,以更好地保留局部空间关系[20][21];2) 引入**空间归一化层**,减去目标表征的全局均值信息以增强空间对比度[22] - 该方法代码实现简单,少于4行[5] iREPA性能表现 - **收敛速度**:在各种模型规模(如SiT-XL/2, SiT-B/2)和视觉编码器(如DINOv3, WebSSL, CLIP)下,iREPA均能显著加速扩散Transformer的训练收敛[26] - **编码器通用性**:在测试的27种不同视觉编码器(涵盖监督、自监督及多模态模型)上,iREPA的生成FID分数均低于标准REPA[27] - **扩展性**:模型规模越大,iREPA带来的收益越高。当视觉编码器从PE-B (`90M`参数)增大到PE-G (`1.88B`参数)时,性能提升百分比从`22.2%`增加至`39.6%`[34] - **视觉质量**:生成的图像在物体轮廓、纹理细节和整体结构连贯性上优于标准REPA[36] - **兼容性**:iREPA能无缝集成到现有先进训练流中,如REPA-E、MeanFlow、JiT等,并持续提供额外性能增益[33][37] 消融实验验证 - 完整iREPA方法(包含卷积投影和空间归一化)在所有测试编码器上取得最佳FID分数[41] - 例如,使用DINOv3-B编码器时,完整iREPA的FID为`16.26`,优于仅移除空间归一化的`17.76`和仅移除卷积投影的`18.28`[41]