Workflow
自监督学习
icon
搜索文档
自动驾驶基础模型应该以能力为导向,而不仅是局限于方法本身
自动驾驶之心· 2025-09-17 07:33
基础模型正在为自动驾驶感知领域带来革命性变革,将该领域从专注于特定任务的深度学习模型,转变为在海量、多样数据集上训练的多功能、通用型架构。本 综述探讨了这些模型如何应对自动驾驶感知中的关键挑战,包括泛化能力有限、可扩展性不足以及对分布偏移鲁棒性较差等问题。综述提出了一种全新的分类框 架,该框架围绕动态驾驶环境中实现稳健性能所需的四项核心能力构建:通用知识、空间理解、多传感器鲁棒性和时序推理。针对每一项能力,本文首先阐明其 重要性,随后全面回顾相关前沿方法。与传统的"基于方法"的综述不同,本研究的独特框架优先关注概念设计原则,为模型开发提供了"以能力为导向"的指导, 并更清晰地揭示了基础模型的核心特性。最后,本文讨论了当前面临的关键挑战(尤其是将这些能力集成到实时、可扩展系统中所涉及的挑战),以及与计算需 求、确保模型对幻觉问题和分布外失效问题的可靠性等相关的大规模部署挑战。此外,综述还概述了未来的关键研究方向,以推动基础模型在自动驾驶系统中的 安全有效部署。 论文链接:https://arxiv.org/abs/2509.08302 一、引言 自动驾驶感知是智能交通系统的核心组成部分,其核心作用是使车辆能够实 ...
SceneSplat: 基于3DGS的场景理解和视觉语言预训练,让3D高斯「听懂人话」的一跃
机器之心· 2025-09-07 16:21
技术突破与创新 - 推出首个在3D高斯点(3DGS)上原生运行的端到端大规模3D室内场景理解方法SceneSplat,突破现有方法依赖2D或文本模态的局限 [2] - 提出自监督学习方案,从未标记场景中解锁3D特征学习,支持视觉-语言预训练和自监督预训练两种模式 [2][12][14] - 开发高效语义标注系统,结合SAMv2分割、SigLIP2特征提取和Occam's LGS多视角特征融合技术,实现稳定的3D高斯-语言特征对生成 [8][10] 数据集构建 - 构建并发布首个针对室内场景的大规模3DGS数据集SceneSplat-7K,包含7916个场景,源自7个权威数据集(ScanNet、Matterport3D等) [2][6] - 数据集总计包含112.7亿个高斯点,单场景平均约142万个点,对应472万张RGB训练帧 [6][7] - 重建质量达到PSNR 29.64 dB、平均Depth-L1 0.035米,存储需求2.76TB,计算资源消耗等效NVIDIA L4 GPU运行3592小时(约150天) [6][7] 性能表现 - 在ScanNet200、Matterport3D和ScanNet++的零样本语义分割任务中达到SOTA效果,最高f-mIoU达28.4%(ScanNet++) [21][22] - 无监督预训练后在ScanNet20、ScanNet200和ScanNet++的语义分割任务中均达到SOTA,mIoU最高77.2%(ScanNet20) [23] - 支持开放词汇识别和物体属性查询,能有效处理训练数据中未出现的类别(如Robot Arm) [27][29] 应用与扩展 - 数据集已扩展至SceneSplat-49K,并在多数据集上完成系统化3DGS与语义结合的基准测试 [31] - 技术成果由国际顶尖研究团队(含INSAIT、苏黎世联邦理工等机构成员)联合开发,获CVPR、ICCV等顶级会议论文收录 [32][33][34] - 相关研究获得Google、华为等企业产学协同支持,并参与欧盟"AI工厂"计划(总额9000万欧元) [34][36]
语音分离最全综述来了!清华等团队深度分析200+文章,系统解析「鸡尾酒会问题」研究
机器之心· 2025-09-03 12:33
语音分离技术综述 - 清华大学、青海大学、南京大学、南方科技大学、中国科学院大学、字节跳动的研究者全面调研了语音分离领域 对200余篇代表性论文进行了系统归纳和分析 涵盖深度学习方法、模型架构、研究主题、评测指标、数据集、工具平台、模型效果比较和未来挑战等多个维度[2] 问题定义 - 语音分离任务根据混合说话人数量是否已知分为已知人数分离和未知人数分离两类 已知人数分离可通过深度聚类或排列不变训练等策略解决输出顺序不确定的排列歧义问题 未知人数分离需要模型动态决定输出通道数并判断终止时机 面临说话人排列组合随人数增加呈指数扩展的挑战[6] 学习范式 - 有监督学习利用配对的混合音频及纯净源音频进行训练 采用深度聚类方法将时频单元映射到高维嵌入空间再聚类生成声源掩膜 或使用排列不变训练方法对输出标签进行动态匹配只保留误差最小的排列来更新模型[10] - 无监督学习不依赖配对的干净源参考 探索利用未标注的混合语音直接训练分离模型 MixIT方法通过将两段混合语音再混合作为输入 让模型输出更多分量并设计仅依赖输入混合物的损失函数[12] 模型架构 - 典型架构包含编码器、分离网络和解码器 基于RNN的模型利用循环神经网络捕获语音信号中的长时依赖关系 Dual-Path RNN通过划分长序列为短块并在块内和块间双路径循环处理高效建模长序列[17] - 基于CNN的模型利用卷积神经网络强大的局部特征提取能力 Conv-TasNet等时域卷积模型通过空洞卷积技术兼顾短时细节和长程依赖 基于自注意力的模型引入全局序列建模能力 SepFormer等Transformer架构进一步刷新了分离性能[17] - 音频重构策略包括掩膜估计和直接映射两类 掩膜方法输出每个源的时间频率掩膜乘以混合后重建源信号 直接映射方法直接输出各源的波形或特征表示避免误差传播[18] 评测指标 - 主观评价指标包括MOS(评分范围1-5) 直观贴近人耳体验但难以大规模获取[20] - 客观评价指标包括SDR(单位dB)、SIR(单位dB)、SAR(单位dB)、SISDR(单位dB)、PESQ(窄带和宽带范围-0.5~4.5)、STOI(范围0~1)、ESTOI(范围0~1)、DNSMOS(范围1~5)和SIGMOS(范围1~5)等 各自侧重不同方面需要结合使用[20] 数据集 - 单通道数据集包括WSJ0-2mix(2016年)、WSJ0-3mix(2016年)、WHAM!(2019年)、WHAMR!(2020年)、LibriMix(2020年)、DNS Challenge(2021年)、REAL-M(2022年)、Lombard-GRID(2024年)、LibriheavyMix(2024年)、LRS2-2Mix(2024年)和SonicSet(2024年)等[23] - 多通道数据集包括SMS-WSJ(2019年)、LibriCSS(2020年)、Kinect-WSJ(2021年)和AISHELL-4(2021年)等[23] 模型性能 - 在WSJ0-2mix数据集上 早期模型如DPCL和uPIT-BLSTM达到约10 dB的SDR Conv-TasNet等端到端模型将性能推升到12 dB以上 最近两三年SepFormer、DPRNN系列和双路Transformer等先进架构将SDR提升到20 dB左右[24] - 在含噪声混响的WHAM!和WHAMR!数据集上 模型性能相对无噪条件下降明显 说明噪声鲁棒性仍是挑战[25] 工具平台 - 开源工具包括nussl(2018年 Python语言 PyTorch后端 MIT许可证)、ONSSEN(2019年 Python语言 PyTorch后端 GPL-3.0许可证)、ESPNet-SE(2021年 Python语言 PyTorch后端 Apache-2.0许可证)、Asteroid(2020年 Python语言 PyTorch后端 MIT许可证)、SpeechBrain(2021年 Python语言 PyTorch后端 Apache-2.0许可证)、ClearerVoice-Studio(2024年 Python语言 PyTorch后端 Apache-2.0许可证)和WeSep(2024年 Python/C++语言 PyTorch后端 Apache-2.0许可证)等[29] 未来挑战 - 长时段音频处理需要在保证分离连续性的同时控制模型复杂度和内存开销 移动端和嵌入式应用要求模型具备较小参数量和计算量[32] - 因果语音分离要求算法只能利用当前及过去帧的信息不能窥视未来 对模型延时和缓存机制提出严格要求[32] - 生成式方法包括生成对抗网络和扩散模型开始用于语音分离 在弱监督或无监督场景下展示出潜力[32] - 预训练技术如大规模自监督预训练wav2vec 2.0等可提供强大通用特征 在低资源分离任务上显著提升性能[32] - 目标说话人提取利用已知的目标说话人特征从混合中提取该说话人语音 需要高效利用说话人嵌入并与分离网络融合[33] - 语音分离正日益与语音识别、说话人识别/分离、语音增强等任务结合 形成端到端的联合优化框架[33]
小扎又开源了:7B实现自监督学习SOTA
量子位· 2025-08-16 10:00
核心观点 - Meta发布全新开源视觉模型DINOv3,首次证明自监督学习模型在广泛任务中超越弱监督学习模型 [1] - DINOv3采用无标注方法,数据规模扩展至17亿张图像,模型规模扩展至70亿参数 [1] - 该模型在缺乏标注或跨领域场景中表现绝对领先,并在计算机视觉三大核心任务(分类、检测、分割)上实现SOTA [3] 技术突破 - 采用创新的自监督学习方法,专注于生成高质量高分辨率视觉特征 [6] - 首次实现单一冻结视觉骨干网络在多项密集预测任务中超越专门化解决方案的性能 [6] - 引入"Gram anchoring"新方法解决训练中密集特征图退化问题,显著提升局部特征质量 [8][15] 训练方法 - 构建包含17亿张图片的预训练数据集,主要来自Instagram公开图片和少量ImageNet图片 [10][11] - 采用判别式自监督方法,通过Sinkhorn-Knopp算法和Koleo正则稳定特征分布 [11] - 模型参数从11亿扩展至70亿,增强骨干网络表示能力 [11] - 引入RoPE-box jittering使模型对分辨率、尺度和长宽比变化更具鲁棒性 [13] 性能表现 - 在ADE-20k分割任务中达到55.9,相比DINO的31.8和DINOV2的49.5有显著提升 [4] - 在NYU深度估计任务中达到0.309,优于DINO的0.537和DINOV2的0.372 [4] - 在DAVIS视频跟踪任务中达到83.3,相比DINO的68.7和DINOV2的76.6有明显进步 [4] - 在ImageNet ReaL分类任务中达到90.4,接近SIGLIP 2的90.5 [4] 应用场景 - 消除研究人员为特定任务对模型进行微调的必要 [23] - 通过蒸馏构建开发环境友好的模型矩阵,包括ViT和ConvNeXt架构 [23] - 在卫星影像分析中,将肯尼亚某地区树冠高度测量的平均误差从4.1米降低至1.2米 [28] - 在多个遥感任务中取得SOTA,包括语义地理空间任务和高分辨率语义任务 [29] 发展历程 - 从DINO初步研究使用100万张图像训练8000万参数模型 [38] - 到DINOv2基于1.42亿张图像训练1B参数模型 [38] - 再到DINOv3的70亿参数和17亿张图片 [38] - 标志着视觉模型大规模自监督训练的持续进步 [30]
吞下17亿图片,Meta最强巨兽DINOv3开源,重新定义CV天花板
36氪· 2025-08-15 15:29
技术突破 - Meta推出DINOv3视觉模型,通过自监督学习(SSL)训练,无需人工标注,使用17亿张图片训练出70亿参数的视觉主干网络 [1] - DINOv3在多个密集预测任务中首次超越专用解决方案,刷新或逼近多项基准测试最佳成绩 [1] - 模型参数规模达70亿,训练数据量比前代提升12倍,在15项视觉任务和60多个基准测试中表现优异 [19] 性能表现 - 在ADE-20k分割任务中达到55.9分,相比DINOv2的49.5分有显著提升 [2] - 深度估计任务NYU I误差降至0.309,优于DINOv2的0.372 [2] - 视频跟踪DAVIS得分83.3,实例检索Met得分55.4,均大幅领先前代 [2] - ImageNet ReaL分类准确率达90.4%,与当前最优弱监督模型相当 [2][23] 应用场景 - NASA已将DINOv3应用于火星探测机器人,实现低资源多任务视觉处理 [3][24] - 世界资源研究所使用DINOv3监测森林砍伐,树冠高度测量误差从4.1米降至1.2米 [16][17] - 适用于医疗影像、卫星遥感、自动驾驶等领域,特别适合标注稀缺场景 [10][15] 技术特点 - 采用完全开源策略,包含预训练模型、适配器、训练代码等全流程资源 [6][9] - 支持高分辨率特征提取,能生成包含可测量属性的像素级密集特征 [21] - 无需微调即可直接应用于下游任务,多个任务可共享计算开销 [22][24] - 提供从轻量级到高性能的模型家族,包括ViT和ConvNeXt等多种架构 [26] 行业影响 - 首次证明自监督学习模型能超越弱监督模型,减少对人工标注的依赖 [11][12] - 推动计算机视觉领域范式转变,加速医疗、环保、制造等行业的视觉应用 [10] - 开源策略降低技术门槛,促进社区在视觉基础模型上的创新 [6][26]
Meta视觉基座DINOv3王者归来:自监督首次全面超越弱监督,商用开源
机器之心· 2025-08-15 11:29
计算机视觉模型发展 - 计算机视觉下游任务的基础是二维图像理解(特征提取)[1] - CV基本任务的三大模型代表:全监督SAM、弱监督CLIP、自监督DINO [2] - 自监督学习(SSL)成为主流范式,推动大语言模型崛起,具备无标注数据优势 [2] DINO系列模型演进 - 2021年Meta发布DINO模型,基于ViT架构实现无标注语义分割/检测 [2] - 2023年DINOv2改进训练数据规模与稳定性,支持线性分类/深度估计等任务 [2] - DINOv3实现单一冻结骨干网络在目标检测/语义分割等密集预测任务超越专业方案 [6] DINOv3核心技术突破 - 训练数据扩展至17亿张图像,参数规模达70亿 [9] - 创新Gram Anchoring策略解决特征坍缩问题,引入旋转位置编码RoPE [18] - 在15个视觉任务/60+基准测试中表现优异,密集预测任务理解场景布局能力突出 [31] 性能对比与优势 - 图像分类任务:ImageNet ReaL准确率90.4%,与SigLIP 2(90.5%)相当 [17] - 密集预测任务:ADE-20k分割得分55.9,显著高于DINOv2(49.5)和SigLIP 2(42.7) [17] - 实例检索任务:Met指标55.4,远超DINOv2(44.6)和SigLIP 2(13.9) [17] 高分辨率与密集特征 - 支持4096×4096分辨率图像处理,生成语义一致的锐利特征图 [26][28] - 通过PCA可视化显示特征空间对主体区域的精准捕捉能力 [27] - 卫星图像树冠高度测量误差从DINOv2的4.1米降至1.2米 [40] 应用部署与生态 - 提供ViT-B/ViT-L等蒸馏模型变体,全面超越CLIP同类模型 [36] - 开源ConvNeXt架构模型(T/S/B/L版本)满足不同计算需求 [37] - 已应用于医学影像、卫星遥感、火星机器人等现实场景 [39] 行业影响 - 世界资源研究所使用DINOv3自动化气候金融支付流程,提升验证效率 [39] - NASA喷气推进实验室采用DINOv2构建火星探索机器人多任务系统 [39] - 标志着自监督学习首次在广泛任务上超越弱监督模型 [15]
DeepTiming:日内信息与相似度学习驱动择时
民生证券· 2025-07-31 17:02
量化模型与构建方式 1. **模型名称:民生金工深度学习股票收益预测模型** - **模型构建思路**:基于民生金工历史研究框架,结合日频和分钟频输入数据,通过深度学习预测股票收益,并利用滚动阈值生成交易信号[1][10]。 - **模型具体构建过程**: 1. **输入端**: - 日频特征:51个技术面/情绪面日频特征 + 7个日频基础量价指标 + 10个强化风格因子(通过PPO强化学习生成)[12][22]。 - 分钟频特征:52个分钟频特征(合成至日频)[22]。 2. **基分类器**: - 使用2个GRU分别对日频和分钟频特征解码[22]。 3. **市场信息嵌入**: - 指数量价数据 + 强化风格偏好生成权重嵌入[22]。 4. **损失函数**: - 多期股票收益作为预测目标,多期MSE均值作为损失函数: $$ \text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 $$ 其中,\( y_i \)为实际收益,\( \hat{y}_i \)为预测收益[22][26]。 5. **信号生成**: - 预测值滚动阈值:过去一年预测值的70%分位数作为买入信号,30%分位数作为卖出信号,至少持有10个交易日[30]。 - **模型评价**:模型信号分布集中于0轴附近,右偏且尾部极窄,适合波段择时[27][29]。 2. **模型名称:SimStock股票相似度模型** - **模型构建思路**:通过自监督学习预测股票相似度,结合静态(行业/风格)和动态(量价规律)相关性,生成股票属性向量[47][52]。 - **模型具体构建过程**: 1. **输入数据**: - 个股过去40日量价数据 + Barra风格因子 + 资金流指标(形状为\( N \times 40 \times 20 \))[52]。 2. **样本构建**: - 正样本:\( X_{\text{正}} = 0.75X + 0.25X_{\text{随机}} \) - 负样本:随机抽取不相关特征[52]。 3. **训练目标**: - 最大化正样本相似度,最小化负样本相似度,使用余弦相似度衡量: $$ \text{相似度} = \frac{\mathbf{v}_i \cdot \mathbf{v}_j}{\|\mathbf{v}_i\| \|\mathbf{v}_j\|} $$ 其中,\( \mathbf{v}_i \)为股票属性向量[52][53]。 4. **输出**:个股属性向量用于初始化GRU隐状态,提升收益预测稳定性[57][59]。 - **模型评价**:相似度预测更关注行业而非市值,动态性更强[56]。 3. **复合模型:改进后的收益预测模型** - **构建思路**:将SimStock输出的股票属性向量初始化GRU隐状态,结合原有日频和分钟频输入[57][59]。 - **评价**:改进后模型显著提升预测稳定性,尤其在高波行业中效果突出[60][64]。 --- 模型的回测效果 1. **民生金工深度学习模型**: - 全A股平均年化收益:27%,累积超额收益77%(2019-2025)[33]。 - 沪深300成分股:年化收益17.2%,夏普比率1.24,最大回撤8%[38][41]。 - 中证500成分股:年化收益18.8%,夏普比率1.58,最大回撤10.3%[41][43]。 - 中证1000成分股:年化收益18.1%,夏普比率1.24,最大回撤21.3%[43][46]。 2. **改进后模型(加入SimStock)**: - 全A股平均年化收益:30%,累积超额收益109%[60]。 - 沪深300成分股:年化收益20.7%,夏普比率1.88,最大回撤8.5%[64][67]。 - 中证500成分股:年化收益23.4%,夏普比率1.97,最大回撤10.8%[68][71]。 - 中证1000成分股:年化收益22.5%,夏普比率1.56,最大回撤20.5%[71][73]。 3. **指数择时效果**: - 沪深300:年化收益5.1%,超额收益5.6%[79]。 - 中证500:年化收益12.4%,超额收益12.2%[82]。 - 中证1000:年化收益15.1%,超额收益14.9%[84]。 - 电力设备及新能源行业:年化收益36%,超额收益31.1%[101][103]。 --- 量化因子与构建方式 1. **因子名称:分钟频因子** - **构建思路**:从日内分钟级数据中提取量价相关性、波动率、动量等特征[109]。 - **具体因子示例**: - 分钟收益率与成交量相关系数 - 尾盘半小时动量 - 下行波动率占比 - 开盘成交占比[109]。 --- 因子的回测效果 1. **择时因子RankIC**:周度平均RankIC 4.5%,双周调仓多头年化收益23.2%(费后)[36]。 2. **改进后因子RankIC**:周度平均RankIC 4.2%,年化收益21.7%[74][75]。
何恺明改进了谢赛宁的REPA:极大简化但性能依旧强悍
机器之心· 2025-06-12 17:57
扩散生成模型与表征学习 - 扩散生成模型在建模复杂数据分布方面表现出色,但与表征学习领域关联不大[2] - 扩散模型训练目标包含重构回归项,但缺乏为生成学习表征的显式正则化项,与图像识别领域以表征学习为核心的范式差异明显[3] - 自监督学习中对比学习通过样本对学习表征,已有效解决分类、检测等识别任务,但尚未在生成模型中探索应用[4][5] REPA方法的局限性 - 谢赛宁团队提出表征对齐(REPA)方法,利用预训练表征模型能力实现生成模型内部表征与外部预训练表征对齐[6] - REPA依赖额外预训练、额外模型参数和外部数据访问,操作复杂且不够独立极简[7][8] 分散损失(Dispersive Loss)创新 - MIT团队提出分散损失作为即插即用正则化器,将自监督学习集成到扩散生成模型,无需预训练、额外参数或外部数据[9][10] - 分散损失核心思想是在标准回归损失外增加正则化内部表征的目标,鼓励隐藏空间表征分散[10][13] - 该方法行为类似"没有正例对的对比损失",无需双视图采样、数据增强或额外编码器,仅需增加可忽略计算开销的正则化损失[13] 分散损失技术实现 - 目标函数由标准扩散损失L_Diff和批次依赖的分散损失L_Disp组成,加权系数λ控制正则化强度[14] - 直接应用于中间表示层,不增加额外可学习参数或修改原始L_Diff实现[15][16] - 通过适当移除正例项可从现有对比损失推导分散损失,形成鼓励表征分散的通用目标类别[18] 分散损失变体与性能 - 开发基于InfoNCE、Hinge和Covariance的三种分散损失变体,均比对应对比损失更简洁[19][24][26] - 实验显示采用ℓ₂距离的InfoNCE变体表现最佳,使FID分数降低11.35%[31][34] - 在DiT和SiT模型上分散损失均优于基线,对更强模型改进更显著,验证其正则化作用[36][37] 方法优势与应用 - 相比REPA无需DINOv2等预训练模型(11B参数/1.42亿图像训练),实现完全独立[41][42][43] - 可泛化应用于一步式扩散模型,在MeanFlow上实现持续改进并达到SOTA性能[44][45]
AI“化学侦探”快速解析未知分子结构
科技日报· 2025-05-29 07:43
技术突破 - 捷克技术大学领衔的国际团队研发出名为DreaMS的AI分子解码器,能快速解析未知分子结构 [1] - DreaMS采用自监督学习模式,模仿人类婴儿学习语言的过程,无需预先灌输化学规则 [1] - 通过"阅读"数千万份质谱图,自主构建分子结构认知体系,发现传统方法难以捕捉的深层关联 [1] 应用领域 - 有望应用于药物研发与太空生命探测等领域 [1] - 可解析隐藏在植物、土壤甚至外星环境中的神秘分子,可能蕴藏治疗顽疾的新药配方、环保农药分子蓝图 [1] - 具备氟元素检测能力,突破现代药物和农药中氟原子难以通过质谱法识别的瓶颈 [2] 技术原理 - 每个分子有独特的"指纹"质谱图,现代光谱仪能捕获图谱但解读难度大 [1] - DreaMS能解读由数百万数据点构成的质谱图并揭示确切分子结构 [1] - 特训后掌握氟元素检测法,解决学界多年检测难题 [2] 研究成果 - 相关研究发表于《自然·生物技术》杂志 [1] - 发现杀虫剂、食物与人类皮肤之间的分子相似性,推测某些杀虫剂可能与牛皮癣等自身免疫疾病存在关联 [1]
软件所提出小批量数据采样策略
经济观察网· 2025-05-27 15:50
自监督学习技术突破 - 中国科学院软件研究所科研团队提出小批量数据采样策略,可消除不可观测变量语义对表征学习的干扰,提升自监督学习模型的分布外泛化能力 [1] - 分布外泛化能力指模型在"未见过"数据分布上保持与训练数据相当的性能,但此前模型易受无关变量语义干扰而削弱该能力 [1] - 新策略通过因果效应估计和隐变量模型,计算不可观测变量的平衡分数,将相同分数样本划分为同批次以消除虚假关联 [1] 实验验证与性能提升 - 在ImageNet100和ImageNet分类任务中,新策略使Top1和Top5准确率超越自监督方法SOTA水平 [2] - 半监督分类任务中Top1和Top5准确率分别提升超3%和2%,目标检测与实例分割任务平均精度获稳定增益 [2] - 少样本转移学习任务(Omniglot/miniImageNet/CIFARFS)性能提升超5%,所有实验仅调整批次生成机制无需改动模型架构 [2] 学术影响力 - 研究成果被人工智能顶级会议ICML-25(CCF-A类)接收,证实方法论的前沿性 [2]