研究背景与范式转变 - 视觉预训练的核心传统目标是学习表征,将原始像素映射到固定维度表征以供下游任务微调[8][9] - 自然语言处理领域的成功建立在根本不同的范式上,其预训练目标是作为生成式和预测式系统,通过因果目标对数据分布本身进行建模[13] - 研究表明,生成式预测而非表征学习,可能为扩展预训练提供更直接的途径[15] NEPA核心方法与架构 - 研究团队提出“下一嵌入预测自回归”方法,核心是让模型以过去图块嵌入为条件,学习预测未来的图块嵌入,类似于语言模型的下一词预测[2][16] - 该方法采用带有因果注意力掩码的标准视觉Transformer主干网络,无需单独的解码器,使用单个主干同时进行上下文编码和预测[22] - 训练中对目标嵌入使用停止梯度以创建稳定的预测任务,方法极简,无需像素级解码器、视觉分词器或对比学习中的工程化组件[17][20] 性能表现与实验结果 - 仅在ImageNet-1K上预训练,NEPA的ViT-B和ViT-L模型分别达到83.8%和85.3%的Top-1准确率,优于MoCo v3、BEiT,与MAE和JEPA处于同一水平[29][31] - 在ADE20K语义分割任务上,NEPA的ViT-B和ViT-L模型分别取得48.3%和54.0%的mIoU,证明了纯粹嵌入预测的强大迁移能力[31][32] - 可视化分析显示,模型自动学会了长距离且以对象为中心的注意力模式,预测出的嵌入在语义上与同一物体的其他图块高度相似[37] 研究意义与影响 - 该方法实现了从学习表征到学习模型的范式转变,是视觉预训练领域的一种新探索[2] - NEPA证明了极简的因果预训练可以产生强大的视觉学习器,为跨模态的统一预训练范式提供了无需复杂手工设计的通用视角[16][37] - 该论文在发布时成为arXiv上热度第一的论文,显示了学术界对此方向的关注[4]
自回归也能做强视觉模型?NEPA开启「下一嵌入预测」时代,谢赛宁参与
机器之心·2026-01-02 13:00