Workflow
LeCun在Meta的最后论文?还是共同一作,LeJEPA:JEPAs理论拼图补完
机器之心·2025-11-14 09:33

文章核心观点 - LeCun团队为联合嵌入预测架构提出了一个全面的理论框架LeJEPA,旨在解决当前JEPA训练方法缺乏理论指导、过程脆弱且易出现表征崩溃的问题[2][4] - 该理论证明各向同性高斯分布是基础模型的最佳嵌入分布,并基于此引入了名为概略各向同性高斯正则化的新型分布匹配目标,使LeJEPA成为一个具有统计最优性且能消除表征崩溃的解决方案[5][6][8] - 实验表明,LeJEPA在超过10个数据集和60多种架构上达到或超过了最先进方法的性能,并在特定领域数据集上显示出优于迁移学习的效果,同时具有理论合理、计算高效、架构稳定等优势[9][10][23] JEPA架构的现有挑战与LeJEPA的理论基础 - 当前JEPA训练方法依赖复杂的启发式方法以防止表征崩溃,这些机制使训练过程复杂、脆弱且对超参数敏感,缺乏理论保证[2][3] - 研究团队证明了各向同性高斯分布是基础模型的最佳嵌入分布,该分布在广泛的下游任务族中能唯一地最小化下游预测风险,为JEPA设计提供了明确的理论优化目标[5] - 基于该理论引入的SIGReg目标通过随机投影和特征函数匹配来高效强制嵌入服从理想的各向同性高斯分布,独特地结合了可证明的正确性与大规模计算效率[6][7] LeJEPA框架的设计与实现 - LeJEPA框架由SIGReg损失和预测损失结合而成,其实现不依赖原型、停止梯度和教师-学生网络,整个PyTorch实现仅需约50行代码,且只包含一个用于平衡预测项与各向同性高斯项的超参数[11][19] - 框架移除了许多传统上用于防止坍塌的启发式方法,如预测器和教师-学生架构,而不会遭受表征崩溃,显示出架构无关的设计优势[27] - 研究指出LeJEPA与现有SSL框架存在理论联系,但通过使用特定的检验避免了可能导致捷径解的设置[20][21] LeJEPA的实证性能表现 - 在ImageNet-1K上预训练并进行线性评估,LeJEPA达到79%的准确率,在特定领域数据集如Galaxy10、Food101上,其领域内预训练效果优于基于DINOv2的迁移学习[10] - 实验涵盖接近10亿参数的模型规模,LeJEPA在不同架构和超参数下均保持高度稳定性,例如在ImageNet-1K上使用小至128的批量大小即可达到有竞争力性能[10][24] - 研究在ImageNet-10上预训练了约50种来自8个不同族的架构,所有模型通过线性探测均达到91.5%到95%的top 1准确率,证明了其架构无关的稳定性[26] LeJEPA的训练特性与扩展性 - LeJEPA的训练损失与下游任务准确率表现出高相关性,斯皮尔曼相关性约为85%,通过简单缩放定律可使相关性达到近99%,为无标签的SSL模型选择提供了可能[30][31][32] - 框架在数据和模型规模上均显示出良好的可扩展性,在ViT-gigantic等大型模型上的训练曲线稳定平滑,且在更大预训练数据集和主干网络上的迁移学习性能持续优于IJEPA等基线[38][39] - 学习到的表示中涌现出具有语义意义的注意力模式,能够实现无监督视频分割,显示出对空间语义和时间结构的捕捉能力[41][43]