LeJEPA
搜索文档
LeCun在Meta的最后一篇论文
36氪· 2025-11-14 11:04
LeJEPA方法核心创新 - 提出潜在欧几里得联合嵌入预测架构(LeJEPA),通过使嵌入空间遵循特定统计分布来提升预测性能[2] - 核心创新是草图化各向同性高斯正则化(SIGReg),这是一种可处理、可证明正确的正则化方法,通过单变量方向检验结合Epps-Pulley测试判断嵌入分布匹配程度[6] - 研究表明各向同性高斯分布是嵌入空间的最佳分布,可在没有任务信息情况下保证最小化偏差和方差,提高下游任务表现[5] 技术优势与实验验证 - 等向高斯分布能够最小化训练过程中的偏差和方差,在总方差相同情况下,非等向分布会导致更高偏差和方差[3] - 在ViT、ConvNeXt、ResNet、MaxViT和Swin Transformer等大型架构上进行实验,模型规模接近10亿参数[8] - 实验显示LeJEPA在这些架构上表现超越现有方法,在Galaxy10、Food101等特定领域数据集上直接预训练时超越了基于DINOv2的迁移学习方法[10] JEPA架构发展历程 - JEPA(联合嵌入预测架构)是自监督学习框架,旨在通过嵌入空间联合预测方法提升模型表达和推理能力,与生成式模型不同,仅捕捉依赖关系而不显式生成预测[16] - JEPA可进一步通过分层架构(H-JEPA)增强抽象能力,低层处理短期预测,高层用于长期预测,提高可预测性和减少信息损失[18] - JEPA架构与世界模型密切相关,通过学习状态与动作转移训练世界模型,从当前状态表示推断未来状态表示[20] JEPA系列模型演进 - I-JEPA充分利用Transformer架构灵活性,上下文编码器是ViT仅处理可见上下文块,预测器根据位置标记预测特定位置目标块表示[24] - V-JEPA是I-JEPA在视频领域扩展,将视频视为3D图像,通过屏蔽视频序列token进行训练,V-JEPA 2进一步提升了动作预测和世界建模能力[26][28] - MC-JEPA是JEPA扩展,使其包含运动信息,在视频中使用光流估计学习运动,通过图像视角联合嵌入学习内容,以多任务方式共享编码器[30] 行业影响与人物动态 - LeCun在Meta期间个人被引次数大幅增长至406,919次,占总引用数的93%,深度学习爆发期个人学术影响力显著提升[37] - LeCun已离开Meta并筹集资金创办初创公司,继续推进在世界模型方面的工作,尽管面临从学术研究向商业环境转型的挑战[33] - LeCun2013年加入Meta后推动了公司AI转型,成为行业金字招牌,Meta也为其提供了自由的研究环境,这段合作促进了整个AI领域发展[40]
LeCun在Meta的最后论文?还是共同一作,LeJEPA:JEPAs理论拼图补完
机器之心· 2025-11-14 09:33
文章核心观点 - LeCun团队为联合嵌入预测架构提出了一个全面的理论框架LeJEPA,旨在解决当前JEPA训练方法缺乏理论指导、过程脆弱且易出现表征崩溃的问题[2][4] - 该理论证明各向同性高斯分布是基础模型的最佳嵌入分布,并基于此引入了名为概略各向同性高斯正则化的新型分布匹配目标,使LeJEPA成为一个具有统计最优性且能消除表征崩溃的解决方案[5][6][8] - 实验表明,LeJEPA在超过10个数据集和60多种架构上达到或超过了最先进方法的性能,并在特定领域数据集上显示出优于迁移学习的效果,同时具有理论合理、计算高效、架构稳定等优势[9][10][23] JEPA架构的现有挑战与LeJEPA的理论基础 - 当前JEPA训练方法依赖复杂的启发式方法以防止表征崩溃,这些机制使训练过程复杂、脆弱且对超参数敏感,缺乏理论保证[2][3] - 研究团队证明了各向同性高斯分布是基础模型的最佳嵌入分布,该分布在广泛的下游任务族中能唯一地最小化下游预测风险,为JEPA设计提供了明确的理论优化目标[5] - 基于该理论引入的SIGReg目标通过随机投影和特征函数匹配来高效强制嵌入服从理想的各向同性高斯分布,独特地结合了可证明的正确性与大规模计算效率[6][7] LeJEPA框架的设计与实现 - LeJEPA框架由SIGReg损失和预测损失结合而成,其实现不依赖原型、停止梯度和教师-学生网络,整个PyTorch实现仅需约50行代码,且只包含一个用于平衡预测项与各向同性高斯项的超参数[11][19] - 框架移除了许多传统上用于防止坍塌的启发式方法,如预测器和教师-学生架构,而不会遭受表征崩溃,显示出架构无关的设计优势[27] - 研究指出LeJEPA与现有SSL框架存在理论联系,但通过使用特定的检验避免了可能导致捷径解的设置[20][21] LeJEPA的实证性能表现 - 在ImageNet-1K上预训练并进行线性评估,LeJEPA达到79%的准确率,在特定领域数据集如Galaxy10、Food101上,其领域内预训练效果优于基于DINOv2的迁移学习[10] - 实验涵盖接近10亿参数的模型规模,LeJEPA在不同架构和超参数下均保持高度稳定性,例如在ImageNet-1K上使用小至128的批量大小即可达到有竞争力性能[10][24] - 研究在ImageNet-10上预训练了约50种来自8个不同族的架构,所有模型通过线性探测均达到91.5%到95%的top 1准确率,证明了其架构无关的稳定性[26] LeJEPA的训练特性与扩展性 - LeJEPA的训练损失与下游任务准确率表现出高相关性,斯皮尔曼相关性约为85%,通过简单缩放定律可使相关性达到近99%,为无标签的SSL模型选择提供了可能[30][31][32] - 框架在数据和模型规模上均显示出良好的可扩展性,在ViT-gigantic等大型模型上的训练曲线稳定平滑,且在更大预训练数据集和主干网络上的迁移学习性能持续优于IJEPA等基线[38][39] - 学习到的表示中涌现出具有语义意义的注意力模式,能够实现无监督视频分割,显示出对空间语义和时间结构的捕捉能力[41][43]
LeCun在Meta的最后一篇论文
量子位· 2025-11-13 19:52
论文核心观点 - 论文提出了一种名为LeJEPA的新型自监督学习方法,其核心是通过引入SIGReg正则化,使嵌入空间遵循各向同性高斯分布,从而有效解决表示崩溃问题并提升模型泛化能力[5][6] - LeJEPA是Yann LeCun在Meta任职期间以Meta身份发表的最后一篇公开研究成果,于11月11日在arXiv提交,被视为他在Meta的告别之作[2][4][69] 技术原理与创新 - 传统JEPA框架面临表示崩溃问题,即模型将所有输入映射到单一低维空间,导致嵌入空间样本不可区分[6] - LeJEPA通过最小二乘回归分析表明,各向同性高斯分布能够最小化训练过程中的偏差和方差,在总方差相同的情况下,非等向分布会导致更高偏差和方差[8][9] - 研究提出的SIGReg正则化方法将分布匹配转化为统计假设检验,通过Epps-Pulley测试判断嵌入分布与目标分布的匹配程度[15][16][17] - SIGReg通过两条机制解决高维计算挑战:嵌入函数的Sobolev平滑性保证仅需O(K)个方向切片即可约束整个空间;SGD迭代特性使方向数量很少时也能快速收敛[21][22] 实验验证结果 - 实验在ViT、ConvNeXt、ResNet、MaxViT和Swin Transformer等多种大型架构上进行,模型规模接近10亿参数[20] - LeJEPA在这些架构上表现超越现有方法,保持了训练的简便性和鲁棒性[23] - 在领域特定数据集如Galaxy10、Food101上,LeJEPA在直接目标数据预训练时超越了基于DINOv2的迁移学习方法[24] JEPA架构发展历程 - JEPA是LeCun于2022年提出的自监督学习框架,旨在通过嵌入空间的联合预测提升模型表达和推理能力[28][31] - 与生成式模型不同,JEPA仅捕捉x和y之间的依赖关系而不显式生成y的预测[32] - JEPA可通过分层架构增强抽象能力,低层处理短期预测,高层用于长期预测,提高可预测性和减少信息损失[34][35][36] - JEPA架构发展三年来已产生多个变体:I-JEPA充分利用Transformer架构灵活性处理图像[43][45];V-JEPA将其扩展至视频领域[49][51];V-JEPA 2进一步提升了动作预测和世界建模能力[58][60];MC-JEPA使其能够包含运动信息[61][63] 行业影响与人物背景 - LeCun自2013年加入Meta以来个人被引次数飙升,达到406919次,占总数的93%,其中与三巨头合写的《深度学习》综述贡献超10万次[77][78] - 尽管JEPA架构提供新路径,但毁誉参半,被批评过于抽象难以应用到主流模型,与生成式AI的背离也被部分人归咎于Meta的AI研究失利[67][68] - LeCun已开始筹集资金创办初创公司继续推进世界模型工作,但其过于学术的风格在商业世界的适应性受到关注[72][73]