Workflow
自监督学习(SSL)
icon
搜索文档
推特吵架吵出篇论文,谢赛宁团队新作iREPA只要3行代码
36氪· 2025-12-16 17:42
要说真学术,还得看推特。 刚刚,谢赛宁自曝团队新作iREPA其实来自4个多月前的,一次与网友的辩论。 这场短暂的线上辩论虽然以谢赛宁被网友说服告终,但在3个多月后,居然有了意料之外的后续—— 多个团队合作,沿着这一思路写出了一篇完整的论文,而且核心框架仅需3行代码。 致谢部分还感谢了当时参与讨论的网友。 一篇推特引发的学术论文 事情是这样的。 一位网友在8月份表示: 别再痴迷于ImageNet-1K的分类分数了!自监督学习(SSL)模型应该专门为稠密任务(如REPA、VLM等)进行训练,因为这些任务真正依赖 的是patch tokens中的空间和局部信息,而不是[CLS]token所代表的全局分类性能。 (注:稠密任务就是要求模型对图像中的"每一个像素"或"每一个局部区域"都做出预测的计算机视觉任务,这类任务需要精确的空间和局部细节信息,而 不仅仅是全局分类标签) 对于网友的观点,谢赛宁表示: 不,使用patch token并不意味着就是在做稠密任务。VLM和REPA的性能与它们在IN1K上的得分高度相关,而与patch级别的对应关系只有很弱 的关联。这并不是[CLS]token的问题,而是高层语义与低层像素 ...
推特吵架吵出篇论文!谢赛宁团队新作iREPA只要3行代码
量子位· 2025-12-16 13:58
henry 发自 凹非寺 量子位 | 公众号 QbitAI 要说真学术,还得看推特。 刚刚,谢赛宁自曝团队新作 iREPA 其实来自4个多月前的,一次与网友的辩论。 这场短暂的线上辩论虽然以谢赛宁被网友说服告终,但在3个多月后,居然有了意料之外的后续—— 多个团队合作,沿着这一思路写出了一篇完整的论文,而且核心框架仅需3行代码。 致谢部分还感谢了当时参与讨论的网友。 一篇推特引发的学术论文 事情是这样的。 一位网友在8月份表示: 别再痴迷于ImageNet-1K的分类分数了!自监督学习(SSL)模型应该专门为稠密任务(如REPA、VLM等)进行训练,因为这些任务 真正依赖的是patch tokens中的空间和局部信息,而不是[CLS]token所代表的全局分类性能。 $${\cal L}_{\rm Gram}=\left\|{\bf X}_{S}\cdot{\bf X}_{S}^{\top}-{\bf X}_{G}\cdot{\bf X}_{G}^{\top}\right\|_{\rm F}^{2}.\tag{2}$$ $${\cal L}_{\rm Ref}=w_{\rm D}{\cal L}_{\rm D ...
Meta王炸DINOv3:视觉自监督新巅峰!7B模型狂揽多任务SOTA
自动驾驶之心· 2025-08-17 00:04
自监督视觉模型DINOv3的技术突破 - 彻底摆脱对人工标注数据的依赖 实现仅通过观察世界就能学习强大视觉理解能力的自监督学习终极目标 [4] - 通过Gram Anchoring策略解决大规模模型训练中密集特征退化问题 在10万轮内将VOC分割mIoU提升3+ [24][25] - 采用固定超参数训练100万轮 突破传统动态调度限制 使ViT-7B全局性能随训练轮次稳步提升 [21][22] 数据构建与训练策略 - 从170亿张图像中通过三层筛选构建16.89亿张高质量训练集LVD-1689M 包含聚类选多样/检索补相关/公开数据提精度三个层级 [16][20] - 采用10%纯ImageNet1k与90%混合数据的采样策略 在IN1k线性探测达87.2% ObjectNet达72.8% 全面超越纯聚类或原始数据 [16] - 使用7B参数ViT架构 嵌入维度提升至4096 采用16像素patch与轴向RoPE编码 增强对分辨率与尺度的鲁棒性 [28] 多分辨率与跨领域适配 - 支持4096×4096超高清推理 在768×768分辨率下IN1k精度提升0.5% ADE20k分割mIoU提升2.1% [26][31] - 专为卫星图像训练DINOv3-Sat模型 在树冠高度估计任务MAE达3.2 超越多光谱输入模型 [50][52] - 通过高分辨率适配阶段处理医疗影像与卫星图像 特征图在4096×4096分辨率下仍保持语义清晰度 [26][31] 模型压缩与部署优化 - 采用单教师-多学生并行蒸馏技术 训练参数量840M的ViT-H+模型 IN1k精度90.3% 接近7B教师但推理速度快5倍 [35] - ConvNeXt系列适配移动端 ConvNeXt-L在512分辨率下IN-ReAL精度达89.4% 超监督模型1.6% [35] - 通过冻结视觉encoder实现文本对齐 在ImageNet1k零样本分类达82.3% 开放词汇分割mIoU 24.7% [36] 性能表现基准测试 - 密集任务全面领先:ADE20k分割mIoU 55.9超DINOv2的6.4 NYUv2深度估计RMSE 0.309超DINOv2的0.063 [42][44] - 全局任务媲美监督模型:ImageNet线性探测精度88.4% ObjectNet达79.0超DINOv2的12.6 [47] - 视频跟踪任务DAVIS数据集J&F 83.3超DINOv2的6.7 且性能随分辨率提升持续增长 [45][46] 行业应用场景 - 工业检测领域采用ViT-L处理高分辨率产品图像实现缺陷分割 [52] - 自动驾驶领域使用ConvNeXt-B实时输出道路语义分割结果 [52] - 卫星遥感领域应用DINOv3-Sat分析4K图像监测森林覆盖变化 LoveDA分割mIoU 55.3超BillionFM的0.9 [52]