DINOv3

搜索文档
同类规模第一的科创AIETF(588790)盘中涨超2%,本月以来份额增长5.16亿份,多省市接连发布人工智能产业发展支持政策
新浪财经· 2025-08-19 11:12
指数及成分股表现 - 上证科创板人工智能指数强势上涨1.68% [3] - 成分股芯原股份上涨15.38%,云从科技上涨3.95%,恒玄科技上涨3.17% [3] - 科创AIETF盘中最高涨超2%,现涨1.58%,报价0.71元 [3] - 科创AIETF近1周累计上涨8.59%,涨幅排名可比基金第1 [3] 政策动态 - 上海市发布《上海市加快推动"AI+制造"发展实施方案》,推动人工智能与制造业深度融合 [3] - 广东省发布《人工智能与机器人产业创新发展资金管理细则》,对国家级制造业创新中心最高补助5000万元 [4] 技术进展 - 谷歌发布轻量级模型GEMMA3 270M,适用于边缘计算 [4] - Meta开源视觉基础模型DINOv3,在自监督学习方面实现突破 [4] - 昆仑万维一周发布六款AI模型,涵盖视频生成、世界模型等多模态方向 [4] 基金流动性 - 科创AIETF盘中换手率4.29%,成交额3.04亿元 [3] - 近1周日均成交5.78亿元,排名可比基金第一 [3] 资金流向 - 最新单日资金净流出7700.82万元 [5] - 近10个交易日累计资金净流入2.13亿元 [5] - 本月融资净买入额2034.27万元,融资余额达7.97亿元 [5] 规模与份额 - 近2周规模增长5.14亿元,新增规模排名可比基金第1 [4] - 本月份额增长5.16亿份,新增份额排名可比基金第1 [4] 业绩表现 - 近6月净值上涨16.66%,排名可比基金第一 [5] - 成立以来最高单月回报15.59%,月盈利概率60.45% [5] - 持有6个月盈利概率100% [5] - 近3个月超越基准年化收益2.72%,排名可比基金第1 [5] 风险收益指标 - 近1个月夏普比率1.31 [5] - 成立以来相对基准回撤0.40%,回撤修复天数133天 [5] 费率结构 - 管理费率0.50%,托管费率0.10%,处于行业较低水平 [5] 跟踪精度 - 近1月跟踪误差0.008%,在可比基金中跟踪精度最高 [6] 指数构成 - 上证科创板人工智能指数选取30只科创板人工智能相关上市公司 [7] - 前十大权重股包括寒武纪、金山办公等,合计权重67.36% [7]
腾讯研究院AI速递 20250818
腾讯研究院· 2025-08-18 00:01
谷歌开源Gemma 3 270M - 谷歌发布轻量级模型Gemma 3 270M,参数规模2.7亿(嵌入参数1.7亿,Transformer模块1亿),下载体积仅241MB [1] - 模型在Pixel 9 Pro手机上25次对话仅耗电0.75%,INT4量化后适配资源受限设备 [1] - IFEval基准测试表现超越Qwen 2.5同级模型,下载量突破两亿次,支持任务微调 [1] Meta开源DINOv3视觉模型 - DINOv3采用自监督学习,在密集预测任务中超越弱监督模型,参数规模达70亿,训练数据17亿张图像 [2] - 创新技术包括Gram Anchoring策略和旋转位置编码(RoPE),提供ViT-B/ViT-L等系列模型 [2] - 商业许可开源,已应用于卫星图像分析和环境监测领域 [2] 腾讯混元3D世界模型Lite版 - 显存需求降至17GB以下,消费级显卡可运行,显存占用减少35% [3] - 动态FP8量化和SageAttention技术使推理速度提升3倍,精度损失小于1% [3] - 支持单文本/图片输入生成可漫游3D世界,可导出Mesh文件接入游戏引擎 [3] 昆仑万维音乐模型Mureka V7.5 - 一周内发布六款模型覆盖视频生成、AI音乐等热点领域 [4] - Mureka V7.5优化ASR技术提升中文歌曲音色与咬字,超越国外顶尖音乐模型 [4] - 同期推出MoE-TTS框架,通过自然语言控制语音特征,开源条件下超越闭源产品 [4] GPT-5编程提示技巧 - 指令需避免冲突与含糊,过分强硬措辞可能适得其反 [5] - 复杂任务用高推理力度,类XML语法可结构化规则 [6] - 零到一任务需先规划评判标准,控制Agent工具预算与查找节奏 [6] 人形机器人运动会 - 首日赛事包括1500米长跑(宇树机器人夺冠)、5V5足球等,蓝队1号球员完成3次进球 [7] - 现场解说聚焦AI技术,出现机器人集体摔倒等"鬼畜"场面 [7] DeepMind Genie 3世界模型 - 结合Veo 2和Genie 2,每秒生成24帧720p画面,支持单文本创建互动世界 [8] - 具备1分钟视觉记忆能力,物理规律表现随数据规模提升 [8] - 被视为AGI重要路径,可解决机器人训练数据瓶颈 [8] OpenAI战略动向 - 计划斥资数万亿建设数据中心,暗示未来AI可能担任CEO [9] - 与Jony Ive合作开发AI硬件,承认人类创作内容价值将上升 [9] - 认为当前AI泡沫类似互联网泡沫,但技术革命影响占比将达10%-20% [9] AGI发展观点 - AGI定义细化多维能力集合,评测基准需转向应用价值评估 [10] - 模型已在IMO/ICPC等竞赛展现推理能力,编程教育需结合AI辅助 [10][11] Agent市场展望 - AI市场将分基础模型、工具链、应用型Agent三赛道,后者机会最大 [12] - Agent将重构生产力曲线,未来按业务成果定价,长尾型公司大量涌现 [12]
Meta王炸DINOv3:视觉自监督新巅峰!7B模型狂揽多任务SOTA
自动驾驶之心· 2025-08-17 00:04
自监督视觉模型DINOv3的技术突破 - 彻底摆脱对人工标注数据的依赖 实现仅通过观察世界就能学习强大视觉理解能力的自监督学习终极目标 [4] - 通过Gram Anchoring策略解决大规模模型训练中密集特征退化问题 在10万轮内将VOC分割mIoU提升3+ [24][25] - 采用固定超参数训练100万轮 突破传统动态调度限制 使ViT-7B全局性能随训练轮次稳步提升 [21][22] 数据构建与训练策略 - 从170亿张图像中通过三层筛选构建16.89亿张高质量训练集LVD-1689M 包含聚类选多样/检索补相关/公开数据提精度三个层级 [16][20] - 采用10%纯ImageNet1k与90%混合数据的采样策略 在IN1k线性探测达87.2% ObjectNet达72.8% 全面超越纯聚类或原始数据 [16] - 使用7B参数ViT架构 嵌入维度提升至4096 采用16像素patch与轴向RoPE编码 增强对分辨率与尺度的鲁棒性 [28] 多分辨率与跨领域适配 - 支持4096×4096超高清推理 在768×768分辨率下IN1k精度提升0.5% ADE20k分割mIoU提升2.1% [26][31] - 专为卫星图像训练DINOv3-Sat模型 在树冠高度估计任务MAE达3.2 超越多光谱输入模型 [50][52] - 通过高分辨率适配阶段处理医疗影像与卫星图像 特征图在4096×4096分辨率下仍保持语义清晰度 [26][31] 模型压缩与部署优化 - 采用单教师-多学生并行蒸馏技术 训练参数量840M的ViT-H+模型 IN1k精度90.3% 接近7B教师但推理速度快5倍 [35] - ConvNeXt系列适配移动端 ConvNeXt-L在512分辨率下IN-ReAL精度达89.4% 超监督模型1.6% [35] - 通过冻结视觉encoder实现文本对齐 在ImageNet1k零样本分类达82.3% 开放词汇分割mIoU 24.7% [36] 性能表现基准测试 - 密集任务全面领先:ADE20k分割mIoU 55.9超DINOv2的6.4 NYUv2深度估计RMSE 0.309超DINOv2的0.063 [42][44] - 全局任务媲美监督模型:ImageNet线性探测精度88.4% ObjectNet达79.0超DINOv2的12.6 [47] - 视频跟踪任务DAVIS数据集J&F 83.3超DINOv2的6.7 且性能随分辨率提升持续增长 [45][46] 行业应用场景 - 工业检测领域采用ViT-L处理高分辨率产品图像实现缺陷分割 [52] - 自动驾驶领域使用ConvNeXt-B实时输出道路语义分割结果 [52] - 卫星遥感领域应用DINOv3-Sat分析4K图像监测森林覆盖变化 LoveDA分割mIoU 55.3超BillionFM的0.9 [52]
小扎又开源了:7B实现自监督学习SOTA
量子位· 2025-08-16 10:00
核心观点 - Meta发布全新开源视觉模型DINOv3,首次证明自监督学习模型在广泛任务中超越弱监督学习模型 [1] - DINOv3采用无标注方法,数据规模扩展至17亿张图像,模型规模扩展至70亿参数 [1] - 该模型在缺乏标注或跨领域场景中表现绝对领先,并在计算机视觉三大核心任务(分类、检测、分割)上实现SOTA [3] 技术突破 - 采用创新的自监督学习方法,专注于生成高质量高分辨率视觉特征 [6] - 首次实现单一冻结视觉骨干网络在多项密集预测任务中超越专门化解决方案的性能 [6] - 引入"Gram anchoring"新方法解决训练中密集特征图退化问题,显著提升局部特征质量 [8][15] 训练方法 - 构建包含17亿张图片的预训练数据集,主要来自Instagram公开图片和少量ImageNet图片 [10][11] - 采用判别式自监督方法,通过Sinkhorn-Knopp算法和Koleo正则稳定特征分布 [11] - 模型参数从11亿扩展至70亿,增强骨干网络表示能力 [11] - 引入RoPE-box jittering使模型对分辨率、尺度和长宽比变化更具鲁棒性 [13] 性能表现 - 在ADE-20k分割任务中达到55.9,相比DINO的31.8和DINOV2的49.5有显著提升 [4] - 在NYU深度估计任务中达到0.309,优于DINO的0.537和DINOV2的0.372 [4] - 在DAVIS视频跟踪任务中达到83.3,相比DINO的68.7和DINOV2的76.6有明显进步 [4] - 在ImageNet ReaL分类任务中达到90.4,接近SIGLIP 2的90.5 [4] 应用场景 - 消除研究人员为特定任务对模型进行微调的必要 [23] - 通过蒸馏构建开发环境友好的模型矩阵,包括ViT和ConvNeXt架构 [23] - 在卫星影像分析中,将肯尼亚某地区树冠高度测量的平均误差从4.1米降低至1.2米 [28] - 在多个遥感任务中取得SOTA,包括语义地理空间任务和高分辨率语义任务 [29] 发展历程 - 从DINO初步研究使用100万张图像训练8000万参数模型 [38] - 到DINOv2基于1.42亿张图像训练1B参数模型 [38] - 再到DINOv3的70亿参数和17亿张图片 [38] - 标志着视觉模型大规模自监督训练的持续进步 [30]
吞下17亿图片,Meta最强巨兽DINOv3开源,重新定义CV天花板
36氪· 2025-08-15 15:29
技术突破 - Meta推出DINOv3视觉模型,通过自监督学习(SSL)训练,无需人工标注,使用17亿张图片训练出70亿参数的视觉主干网络 [1] - DINOv3在多个密集预测任务中首次超越专用解决方案,刷新或逼近多项基准测试最佳成绩 [1] - 模型参数规模达70亿,训练数据量比前代提升12倍,在15项视觉任务和60多个基准测试中表现优异 [19] 性能表现 - 在ADE-20k分割任务中达到55.9分,相比DINOv2的49.5分有显著提升 [2] - 深度估计任务NYU I误差降至0.309,优于DINOv2的0.372 [2] - 视频跟踪DAVIS得分83.3,实例检索Met得分55.4,均大幅领先前代 [2] - ImageNet ReaL分类准确率达90.4%,与当前最优弱监督模型相当 [2][23] 应用场景 - NASA已将DINOv3应用于火星探测机器人,实现低资源多任务视觉处理 [3][24] - 世界资源研究所使用DINOv3监测森林砍伐,树冠高度测量误差从4.1米降至1.2米 [16][17] - 适用于医疗影像、卫星遥感、自动驾驶等领域,特别适合标注稀缺场景 [10][15] 技术特点 - 采用完全开源策略,包含预训练模型、适配器、训练代码等全流程资源 [6][9] - 支持高分辨率特征提取,能生成包含可测量属性的像素级密集特征 [21] - 无需微调即可直接应用于下游任务,多个任务可共享计算开销 [22][24] - 提供从轻量级到高性能的模型家族,包括ViT和ConvNeXt等多种架构 [26] 行业影响 - 首次证明自监督学习模型能超越弱监督模型,减少对人工标注的依赖 [11][12] - 推动计算机视觉领域范式转变,加速医疗、环保、制造等行业的视觉应用 [10] - 开源策略降低技术门槛,促进社区在视觉基础模型上的创新 [6][26]
Meta视觉基座DINOv3王者归来:自监督首次全面超越弱监督,商用开源
机器之心· 2025-08-15 11:29
计算机视觉模型发展 - 计算机视觉下游任务的基础是二维图像理解(特征提取)[1] - CV基本任务的三大模型代表:全监督SAM、弱监督CLIP、自监督DINO [2] - 自监督学习(SSL)成为主流范式,推动大语言模型崛起,具备无标注数据优势 [2] DINO系列模型演进 - 2021年Meta发布DINO模型,基于ViT架构实现无标注语义分割/检测 [2] - 2023年DINOv2改进训练数据规模与稳定性,支持线性分类/深度估计等任务 [2] - DINOv3实现单一冻结骨干网络在目标检测/语义分割等密集预测任务超越专业方案 [6] DINOv3核心技术突破 - 训练数据扩展至17亿张图像,参数规模达70亿 [9] - 创新Gram Anchoring策略解决特征坍缩问题,引入旋转位置编码RoPE [18] - 在15个视觉任务/60+基准测试中表现优异,密集预测任务理解场景布局能力突出 [31] 性能对比与优势 - 图像分类任务:ImageNet ReaL准确率90.4%,与SigLIP 2(90.5%)相当 [17] - 密集预测任务:ADE-20k分割得分55.9,显著高于DINOv2(49.5)和SigLIP 2(42.7) [17] - 实例检索任务:Met指标55.4,远超DINOv2(44.6)和SigLIP 2(13.9) [17] 高分辨率与密集特征 - 支持4096×4096分辨率图像处理,生成语义一致的锐利特征图 [26][28] - 通过PCA可视化显示特征空间对主体区域的精准捕捉能力 [27] - 卫星图像树冠高度测量误差从DINOv2的4.1米降至1.2米 [40] 应用部署与生态 - 提供ViT-B/ViT-L等蒸馏模型变体,全面超越CLIP同类模型 [36] - 开源ConvNeXt架构模型(T/S/B/L版本)满足不同计算需求 [37] - 已应用于医学影像、卫星遥感、火星机器人等现实场景 [39] 行业影响 - 世界资源研究所使用DINOv3自动化气候金融支付流程,提升验证效率 [39] - NASA喷气推进实验室采用DINOv2构建火星探索机器人多任务系统 [39] - 标志着自监督学习首次在广泛任务上超越弱监督模型 [15]