Workflow
有监督学习
icon
搜索文档
语音分离最全综述来了!清华等团队深度分析200+文章,系统解析「鸡尾酒会问题」研究
机器之心· 2025-09-03 12:33
语音分离技术综述 - 清华大学、青海大学、南京大学、南方科技大学、中国科学院大学、字节跳动的研究者全面调研了语音分离领域 对200余篇代表性论文进行了系统归纳和分析 涵盖深度学习方法、模型架构、研究主题、评测指标、数据集、工具平台、模型效果比较和未来挑战等多个维度[2] 问题定义 - 语音分离任务根据混合说话人数量是否已知分为已知人数分离和未知人数分离两类 已知人数分离可通过深度聚类或排列不变训练等策略解决输出顺序不确定的排列歧义问题 未知人数分离需要模型动态决定输出通道数并判断终止时机 面临说话人排列组合随人数增加呈指数扩展的挑战[6] 学习范式 - 有监督学习利用配对的混合音频及纯净源音频进行训练 采用深度聚类方法将时频单元映射到高维嵌入空间再聚类生成声源掩膜 或使用排列不变训练方法对输出标签进行动态匹配只保留误差最小的排列来更新模型[10] - 无监督学习不依赖配对的干净源参考 探索利用未标注的混合语音直接训练分离模型 MixIT方法通过将两段混合语音再混合作为输入 让模型输出更多分量并设计仅依赖输入混合物的损失函数[12] 模型架构 - 典型架构包含编码器、分离网络和解码器 基于RNN的模型利用循环神经网络捕获语音信号中的长时依赖关系 Dual-Path RNN通过划分长序列为短块并在块内和块间双路径循环处理高效建模长序列[17] - 基于CNN的模型利用卷积神经网络强大的局部特征提取能力 Conv-TasNet等时域卷积模型通过空洞卷积技术兼顾短时细节和长程依赖 基于自注意力的模型引入全局序列建模能力 SepFormer等Transformer架构进一步刷新了分离性能[17] - 音频重构策略包括掩膜估计和直接映射两类 掩膜方法输出每个源的时间频率掩膜乘以混合后重建源信号 直接映射方法直接输出各源的波形或特征表示避免误差传播[18] 评测指标 - 主观评价指标包括MOS(评分范围1-5) 直观贴近人耳体验但难以大规模获取[20] - 客观评价指标包括SDR(单位dB)、SIR(单位dB)、SAR(单位dB)、SISDR(单位dB)、PESQ(窄带和宽带范围-0.5~4.5)、STOI(范围0~1)、ESTOI(范围0~1)、DNSMOS(范围1~5)和SIGMOS(范围1~5)等 各自侧重不同方面需要结合使用[20] 数据集 - 单通道数据集包括WSJ0-2mix(2016年)、WSJ0-3mix(2016年)、WHAM!(2019年)、WHAMR!(2020年)、LibriMix(2020年)、DNS Challenge(2021年)、REAL-M(2022年)、Lombard-GRID(2024年)、LibriheavyMix(2024年)、LRS2-2Mix(2024年)和SonicSet(2024年)等[23] - 多通道数据集包括SMS-WSJ(2019年)、LibriCSS(2020年)、Kinect-WSJ(2021年)和AISHELL-4(2021年)等[23] 模型性能 - 在WSJ0-2mix数据集上 早期模型如DPCL和uPIT-BLSTM达到约10 dB的SDR Conv-TasNet等端到端模型将性能推升到12 dB以上 最近两三年SepFormer、DPRNN系列和双路Transformer等先进架构将SDR提升到20 dB左右[24] - 在含噪声混响的WHAM!和WHAMR!数据集上 模型性能相对无噪条件下降明显 说明噪声鲁棒性仍是挑战[25] 工具平台 - 开源工具包括nussl(2018年 Python语言 PyTorch后端 MIT许可证)、ONSSEN(2019年 Python语言 PyTorch后端 GPL-3.0许可证)、ESPNet-SE(2021年 Python语言 PyTorch后端 Apache-2.0许可证)、Asteroid(2020年 Python语言 PyTorch后端 MIT许可证)、SpeechBrain(2021年 Python语言 PyTorch后端 Apache-2.0许可证)、ClearerVoice-Studio(2024年 Python语言 PyTorch后端 Apache-2.0许可证)和WeSep(2024年 Python/C++语言 PyTorch后端 Apache-2.0许可证)等[29] 未来挑战 - 长时段音频处理需要在保证分离连续性的同时控制模型复杂度和内存开销 移动端和嵌入式应用要求模型具备较小参数量和计算量[32] - 因果语音分离要求算法只能利用当前及过去帧的信息不能窥视未来 对模型延时和缓存机制提出严格要求[32] - 生成式方法包括生成对抗网络和扩散模型开始用于语音分离 在弱监督或无监督场景下展示出潜力[32] - 预训练技术如大规模自监督预训练wav2vec 2.0等可提供强大通用特征 在低资源分离任务上显著提升性能[32] - 目标说话人提取利用已知的目标说话人特征从混合中提取该说话人语音 需要高效利用说话人嵌入并与分离网络融合[33] - 语音分离正日益与语音识别、说话人识别/分离、语音增强等任务结合 形成端到端的联合优化框架[33]
开学了:入门AI,可以从这第一课开始
机器之心· 2025-09-01 16:46
AI核心概念与学习方法 - 人工智能通过机器学习从数据中自行学习规律而非依赖预设规则 核心方法包括有监督学习(使用标记数据训练模型) 无监督学习(从未标记数据中发现模式)和强化学习(通过试错和奖励机制优化行为策略) [9][12] - 2012年Google通过无监督学习使神经网络在观看海量YouTube视频后自发识别"猫"的概念 成为深度学习里程碑事件 [11] - AlphaGo击败人类棋手和ChatGPT的崛起标志着AI技术进入爆发期 深度学习依赖算力(GPU) 数据(互联网)和算法三要素共同推动 [6][69] AI技术基础能力 - 数学是AI底层逻辑的核心 线性代数处理向量与矩阵 概率统计管理不确定性 微积分通过梯度下降优化模型参数 [13] - Python是AI开发首选语言 拥有简洁语法和强大生态圈 关键工具库包括NumPy/Pandas(数据处理) Scikit-learn(机器学习) TensorFlow/PyTorch(深度学习) [19][21] - 其他编程语言各有侧重 R语言擅长统计分析 C++适用于高性能计算 Java用于企业级系统开发 [23] 实践与学习路径 - 学习过程需结合理论深度(数学) 工具掌握(编程)和实践高度(项目) 建议通过Kaggle竞赛 GitHub开源项目和复现论文等方式积累经验 [28][47][53] - 建议建立持续学习机制 关注顶级学术会议(NeurIPS/CVPR/ICML) 筛选高质量信息源 避免被技术营销内容干扰 [24][25] - 初学者可从微项目入门 如用Pandas分析天气数据 用Scikit-learn预测泰坦尼克号幸存者 逐步构建可交互的Demo展示能力 [50][51][53] AI应用领域与职业方向 - 核心职业路径包括机器学习工程师(算法落地) 数据科学家(数据洞察) 算法研究员(前沿探索) 具体职位衍生出算法工程师 AIGC工程师等细分方向 [38][40] - AI与垂直领域结合创造新价值 包括艺术设计(生成式AI创作) 金融商业(量化交易/风控) 医疗健康(新药研发/影像分析) 材料科学(分子模拟)等领域 [42][43] - AI技能将成为通识能力 未来差距体现在顶尖人才(创造AI)与普通劳动者(使用AI)之间 需注重培养解决问题能力和人机协同思维 [37][45][55] AI发展历程 - 1956年达特茅斯会议正式提出人工智能概念 早期发展形成符号主义(逻辑推理) 联结主义(模式识别) 行为主义(环境交互)三大流派 [58][64] - 经历两次AI寒冬后 统计机器学习崛起 2012年AlexNet在ImageNet竞赛中以压倒性优势夺冠 标志着深度学习时代的开启 [66][67] - 现代AI正融合三大流派优势 追求兼具学习能力 逻辑推理和行动能力的综合智能体系 [65]