DINO

搜索文档
没PhD,算什么AI研究员,LeCun论文竟要28岁辍学生审批,发文“暗讽”内讧升级
36氪· 2025-09-05 11:44
Meta内讧大戏再升级!首席AI官Alexandr Wang审核图灵奖大佬论文,LeCun亲自发帖疑似暗讽28岁新上司。没有PhD、没开源代码、没发表论文,都称 不上AI研究员。 Meta内部的AI大戏,剧情又加码了! 最近,首席科学家LeCun亲自下场,发了一篇帖子,字里行间疑似在「内涵」新BOOS——Alexandr Wang。 这是一段写给AI领域的记者和评论家们的话——在AI领域工作的人,并非都是「研究员」。 他特意列出了,「研究员」的学术标准—— 发表研究成果、开源代码:查阅个人Google Scholar或GitHub。 发表论文和开源代码,对学术圈有实打实影响:查看Google Scholar论文引用量和h指数。 拥有AI相关领域PhD学位。当然,没有博士学位的也有优秀的研究员,但也凤毛麟角。 从读研期间就发表过论文,工作后也持续输出,不然就转型成了工程师或管理者。 LeCun话锋一转,直言「研究与工程/产品开发」是两码事,因其动机、激励机制和运作模式都各不相同。 有些人两者兼能,有些人则只能做其中一种。 简单来说,衡量一个研究员要看其学术影响力,而衡量一个工程师要看其产品影响力。 对于推动科学 ...
Meta视觉基座DINOv3王者归来:自监督首次全面超越弱监督,商用开源
机器之心· 2025-08-15 11:29
计算机视觉模型发展 - 计算机视觉下游任务的基础是二维图像理解(特征提取)[1] - CV基本任务的三大模型代表:全监督SAM、弱监督CLIP、自监督DINO [2] - 自监督学习(SSL)成为主流范式,推动大语言模型崛起,具备无标注数据优势 [2] DINO系列模型演进 - 2021年Meta发布DINO模型,基于ViT架构实现无标注语义分割/检测 [2] - 2023年DINOv2改进训练数据规模与稳定性,支持线性分类/深度估计等任务 [2] - DINOv3实现单一冻结骨干网络在目标检测/语义分割等密集预测任务超越专业方案 [6] DINOv3核心技术突破 - 训练数据扩展至17亿张图像,参数规模达70亿 [9] - 创新Gram Anchoring策略解决特征坍缩问题,引入旋转位置编码RoPE [18] - 在15个视觉任务/60+基准测试中表现优异,密集预测任务理解场景布局能力突出 [31] 性能对比与优势 - 图像分类任务:ImageNet ReaL准确率90.4%,与SigLIP 2(90.5%)相当 [17] - 密集预测任务:ADE-20k分割得分55.9,显著高于DINOv2(49.5)和SigLIP 2(42.7) [17] - 实例检索任务:Met指标55.4,远超DINOv2(44.6)和SigLIP 2(13.9) [17] 高分辨率与密集特征 - 支持4096×4096分辨率图像处理,生成语义一致的锐利特征图 [26][28] - 通过PCA可视化显示特征空间对主体区域的精准捕捉能力 [27] - 卫星图像树冠高度测量误差从DINOv2的4.1米降至1.2米 [40] 应用部署与生态 - 提供ViT-B/ViT-L等蒸馏模型变体,全面超越CLIP同类模型 [36] - 开源ConvNeXt架构模型(T/S/B/L版本)满足不同计算需求 [37] - 已应用于医学影像、卫星遥感、火星机器人等现实场景 [39] 行业影响 - 世界资源研究所使用DINOv3自动化气候金融支付流程,提升验证效率 [39] - NASA喷气推进实验室采用DINOv2构建火星探索机器人多任务系统 [39] - 标志着自监督学习首次在广泛任务上超越弱监督模型 [15]
港大马毅团队等开源新作:用编码率正则化重构视觉自监督学习范式,“少即是多”
量子位· 2025-03-08 11:35
视觉预训练模型创新 - SimDINO和SimDINOv2是马毅团队、微软研究院、UC伯克利等联合开发的最新视觉预训练模型,通过编码率正则化简化DINO系列训练流程 [1] - 模型核心创新在于去除DINO系列复杂的后处理步骤(如输出层高维投影、教师网络中心化-锐化操作等),同时性能反而提升 [5][6][12] - 简化设计理念体现"简单即是美",马毅团队强调这是对视觉表示学习本质规律的重新发现 [7][17] 技术突破与优势 - 引入编码率正则化替代原有复杂设计,显式度量模型表征质量,防止特征崩溃 [14][16][17] - 训练流程显著简化:移除权重归一化线性层、温度调度等超参数,改用欧几里得距离/余弦相似度直接比较特征 [18][19] - 实验显示模型对超参数和数据变化更稳健,训练稳定性提升且计算效率优于DINO系列 [21][23][32] 性能验证结果 - ImageNet-1K评估:SimDINOv2(ViT-B/16)线性评估达36.9% mIoU,优于DINOv2同架构的32.5% [30] - COCO目标检测:SimDINOv2在AP50/AP75/AP指标上全面超越DINOv2 [27][28] - 视频分割任务:SimDINOv2(ViT-L/16)在DAVIS-2017的(J&F)m指标达62.6%,展现更强语义表达能力 [30][31] 行业应用与影响 - DINOv2已被Meta首席AI科学家杨立昆团队用于世界模型构建,并是多模态大模型视觉编码器标配 [3][10] - 简化框架降低工程实现门槛,有利于研究人员改进模型架构或适配新领域 [11][18][39] - 开源生态建设完善,项目提供论文、GitHub代码和主页,潜在改进方向包括探索无自蒸馏优化目标 [43][45]