论文核心观点 - 论文提出了一种名为LeJEPA的新型自监督学习方法,其核心是通过引入SIGReg正则化,使嵌入空间遵循各向同性高斯分布,从而有效解决表示崩溃问题并提升模型泛化能力[5][6] - LeJEPA是Yann LeCun在Meta任职期间以Meta身份发表的最后一篇公开研究成果,于11月11日在arXiv提交,被视为他在Meta的告别之作[2][4][69] 技术原理与创新 - 传统JEPA框架面临表示崩溃问题,即模型将所有输入映射到单一低维空间,导致嵌入空间样本不可区分[6] - LeJEPA通过最小二乘回归分析表明,各向同性高斯分布能够最小化训练过程中的偏差和方差,在总方差相同的情况下,非等向分布会导致更高偏差和方差[8][9] - 研究提出的SIGReg正则化方法将分布匹配转化为统计假设检验,通过Epps-Pulley测试判断嵌入分布与目标分布的匹配程度[15][16][17] - SIGReg通过两条机制解决高维计算挑战:嵌入函数的Sobolev平滑性保证仅需O(K)个方向切片即可约束整个空间;SGD迭代特性使方向数量很少时也能快速收敛[21][22] 实验验证结果 - 实验在ViT、ConvNeXt、ResNet、MaxViT和Swin Transformer等多种大型架构上进行,模型规模接近10亿参数[20] - LeJEPA在这些架构上表现超越现有方法,保持了训练的简便性和鲁棒性[23] - 在领域特定数据集如Galaxy10、Food101上,LeJEPA在直接目标数据预训练时超越了基于DINOv2的迁移学习方法[24] JEPA架构发展历程 - JEPA是LeCun于2022年提出的自监督学习框架,旨在通过嵌入空间的联合预测提升模型表达和推理能力[28][31] - 与生成式模型不同,JEPA仅捕捉x和y之间的依赖关系而不显式生成y的预测[32] - JEPA可通过分层架构增强抽象能力,低层处理短期预测,高层用于长期预测,提高可预测性和减少信息损失[34][35][36] - JEPA架构发展三年来已产生多个变体:I-JEPA充分利用Transformer架构灵活性处理图像[43][45];V-JEPA将其扩展至视频领域[49][51];V-JEPA 2进一步提升了动作预测和世界建模能力[58][60];MC-JEPA使其能够包含运动信息[61][63] 行业影响与人物背景 - LeCun自2013年加入Meta以来个人被引次数飙升,达到406919次,占总数的93%,其中与三巨头合写的《深度学习》综述贡献超10万次[77][78] - 尽管JEPA架构提供新路径,但毁誉参半,被批评过于抽象难以应用到主流模型,与生成式AI的背离也被部分人归咎于Meta的AI研究失利[67][68] - LeCun已开始筹集资金创办初创公司继续推进世界模型工作,但其过于学术的风格在商业世界的适应性受到关注[72][73]
LeCun在Meta的最后一篇论文