LeCun在Meta的最后一篇论文

LeJEPA方法核心创新 - 提出潜在欧几里得联合嵌入预测架构（LeJEPA），通过使嵌入空间遵循特定统计分布来提升预测性能[2] - 核心创新是草图化各向同性高斯正则化（SIGReg），这是一种可处理、可证明正确的正则化方法，通过单变量方向检验结合Epps-Pulley测试判断嵌入分布匹配程度[6] - 研究表明各向同性高斯分布是嵌入空间的最佳分布，可在没有任务信息情况下保证最小化偏差和方差，提高下游任务表现[5] 技术优势与实验验证 - 等向高斯分布能够最小化训练过程中的偏差和方差，在总方差相同情况下，非等向分布会导致更高偏差和方差[3] - 在ViT、ConvNeXt、ResNet、MaxViT和Swin Transformer等大型架构上进行实验，模型规模接近10亿参数[8] - 实验显示LeJEPA在这些架构上表现超越现有方法，在Galaxy10、Food101等特定领域数据集上直接预训练时超越了基于DINOv2的迁移学习方法[10] JEPA架构发展历程 - JEPA（联合嵌入预测架构）是自监督学习框架，旨在通过嵌入空间联合预测方法提升模型表达和推理能力，与生成式模型不同，仅捕捉依赖关系而不显式生成预测[16] - JEPA可进一步通过分层架构（H-JEPA）增强抽象能力，低层处理短期预测，高层用于长期预测，提高可预测性和减少信息损失[18] - JEPA架构与世界模型密切相关，通过学习状态与动作转移训练世界模型，从当前状态表示推断未来状态表示[20] JEPA系列模型演进 - I-JEPA充分利用Transformer架构灵活性，上下文编码器是ViT仅处理可见上下文块，预测器根据位置标记预测特定位置目标块表示[24] - V-JEPA是I-JEPA在视频领域扩展，将视频视为3D图像，通过屏蔽视频序列token进行训练，V-JEPA 2进一步提升了动作预测和世界建模能力[26][28] - MC-JEPA是JEPA扩展，使其包含运动信息，在视频中使用光流估计学习运动，通过图像视角联合嵌入学习内容，以多任务方式共享编码器[30] 行业影响与人物动态 - LeCun在Meta期间个人被引次数大幅增长至406,919次，占总引用数的93%，深度学习爆发期个人学术影响力显著提升[37] - LeCun已离开Meta并筹集资金创办初创公司，继续推进在世界模型方面的工作，尽管面临从学术研究向商业环境转型的挑战[33] - LeCun2013年加入Meta后推动了公司AI转型，成为行业金字招牌，Meta也为其提供了自由的研究环境，这段合作促进了整个AI领域发展[40]