LeJEPA方法核心创新 - 提出潜在欧几里得联合嵌入预测架构(LeJEPA),通过使嵌入空间遵循特定统计分布来提升预测性能[2] - 核心创新是草图化各向同性高斯正则化(SIGReg),这是一种可处理、可证明正确的正则化方法,通过单变量方向检验结合Epps-Pulley测试判断嵌入分布匹配程度[6] - 研究表明各向同性高斯分布是嵌入空间的最佳分布,可在没有任务信息情况下保证最小化偏差和方差,提高下游任务表现[5] 技术优势与实验验证 - 等向高斯分布能够最小化训练过程中的偏差和方差,在总方差相同情况下,非等向分布会导致更高偏差和方差[3] - 在ViT、ConvNeXt、ResNet、MaxViT和Swin Transformer等大型架构上进行实验,模型规模接近10亿参数[8] - 实验显示LeJEPA在这些架构上表现超越现有方法,在Galaxy10、Food101等特定领域数据集上直接预训练时超越了基于DINOv2的迁移学习方法[10] JEPA架构发展历程 - JEPA(联合嵌入预测架构)是自监督学习框架,旨在通过嵌入空间联合预测方法提升模型表达和推理能力,与生成式模型不同,仅捕捉依赖关系而不显式生成预测[16] - JEPA可进一步通过分层架构(H-JEPA)增强抽象能力,低层处理短期预测,高层用于长期预测,提高可预测性和减少信息损失[18] - JEPA架构与世界模型密切相关,通过学习状态与动作转移训练世界模型,从当前状态表示推断未来状态表示[20] JEPA系列模型演进 - I-JEPA充分利用Transformer架构灵活性,上下文编码器是ViT仅处理可见上下文块,预测器根据位置标记预测特定位置目标块表示[24] - V-JEPA是I-JEPA在视频领域扩展,将视频视为3D图像,通过屏蔽视频序列token进行训练,V-JEPA 2进一步提升了动作预测和世界建模能力[26][28] - MC-JEPA是JEPA扩展,使其包含运动信息,在视频中使用光流估计学习运动,通过图像视角联合嵌入学习内容,以多任务方式共享编码器[30] 行业影响与人物动态 - LeCun在Meta期间个人被引次数大幅增长至406,919次,占总引用数的93%,深度学习爆发期个人学术影响力显著提升[37] - LeCun已离开Meta并筹集资金创办初创公司,继续推进在世界模型方面的工作,尽管面临从学术研究向商业环境转型的挑战[33] - LeCun2013年加入Meta后推动了公司AI转型,成为行业金字招牌,Meta也为其提供了自由的研究环境,这段合作促进了整个AI领域发展[40]
LeCun在Meta的最后一篇论文