Workflow
有监督学习
icon
搜索文档
当大脑独处时,它在思考什么?
虎嗅· 2025-10-08 09:33
学习方式的核心差异 - 有监督学习依赖外部明确指引,如通过带标签数据训练预测模型或外部奖惩引导神经连接强化 [2] - 无监督学习源于系统内部自主探索与规律发现,如从无标签数据挖掘规律或大脑自主提取环境特征 [2] - 核心差异在于是否依赖外部明确指引,传统观点认为学习需要奖励信号或明确反馈,但婴儿大脑能力促使该认知被重新审视 [2] 小鼠实验设计与发现 - 实验比较无监督学习组(预先无奖励自由探索视觉纹理)与任务学习组(直接进行奖励训练)小鼠的神经可塑性变化 [3][4] - 使用双光子介观显微镜长期成像并记录九万个神经元活动以追踪神经回路变化 [3] - 无监督学习组小鼠在2周训练后,其视觉关键脑区(内侧高级视觉区HVA)出现与任务组几乎完全一致的神经可塑性变化,表明变化不依赖任务反馈或监督 [4][5] 视觉与空间可塑性机制 - 为区分视觉可塑性(编码视觉特征)和空间可塑性(对刺激空间位置敏感),研究人员引入新的无奖励刺激,其视觉特征相似但空间配置不同 [7] - 实验结果支持视觉可塑性假说,小鼠视觉神经元能忽略纹理空间位置,仅对纹理类别(如树叶vs圆圈)产生响应 [8] - 这种"去空间化"学习规则与人类识别物体的能力一致,表明无监督学习更多受视觉特征相似性影响 [8] 无监督与有监督学习的协同作用 - 大脑学习存在分工:无监督暴露在内侧视觉区构建纯粹刺激表征,任务学习依赖前侧脑区的监督信号关联刺激与奖励 [6] - 行为研究显示,经过10天无奖励预训练的小鼠,在后续5天奖励任务训练的第一天就展现出明显区分能力,而未预训练小鼠处于随机反应状态 [10] - 学习加速效果依赖特定视觉特征,表明无监督预训练形成了"表征预优化",使后续监督学习只需细微调整 [10] 科学意义与跨学科启示 - 发现打破了"没有奖励就没有学习"的传统强化学习理论框架,证明视觉皮层特征提取可在无奖励情况下完成 [14] - 大脑无监督学习机制与人工智能领域的BERT模型通过无监督预训练取得的革命性进展形成呼应 [14] - 神经科学发现为AI无监督学习提供生物合理性验证,并启发设计更高效特征提取网络,如模仿内侧HVA的去空间化编码规则 [14] 潜在应用方向 - 在医学领域,基于无监督学习原理可设计特定视觉刺激方案,帮助存在视觉特征提取困难的患者(如自闭症)更好地理解复杂视觉信号 [15] - 在计算机领域,模仿"无监督预习+监督微调"模式可降低AI对标注数据的依赖,例如让自动驾驶系统先在虚拟环境中无监督学习,再通过少量标注数据优化决策 [15] - 这种双轨制学习模式可能是在复杂多变环境中快速适应的核心密码 [12] 有待解决的科学谜题 - 无监督学习背后的具体神经环路机制尚不清楚,包括哪些突触可塑性规则主导以及是否依赖特定神经调质(如乙酰胆碱、多巴胺) [16][17] - 研究发现主要聚焦小鼠部分脑区,其视觉优先编码规则在灵长类或高阶认知(如抽象概念学习、工作记忆)中的普适性有待验证 [17] - 无监督学习能力是否存在年龄相关的关键期或随年龄增长而衰退,以及如何延缓这种衰退,是未来重要研究方向 [18]
语音分离最全综述来了!清华等团队深度分析200+文章,系统解析「鸡尾酒会问题」研究
机器之心· 2025-09-03 12:33
语音分离技术综述 - 清华大学、青海大学、南京大学、南方科技大学、中国科学院大学、字节跳动的研究者全面调研了语音分离领域 对200余篇代表性论文进行了系统归纳和分析 涵盖深度学习方法、模型架构、研究主题、评测指标、数据集、工具平台、模型效果比较和未来挑战等多个维度[2] 问题定义 - 语音分离任务根据混合说话人数量是否已知分为已知人数分离和未知人数分离两类 已知人数分离可通过深度聚类或排列不变训练等策略解决输出顺序不确定的排列歧义问题 未知人数分离需要模型动态决定输出通道数并判断终止时机 面临说话人排列组合随人数增加呈指数扩展的挑战[6] 学习范式 - 有监督学习利用配对的混合音频及纯净源音频进行训练 采用深度聚类方法将时频单元映射到高维嵌入空间再聚类生成声源掩膜 或使用排列不变训练方法对输出标签进行动态匹配只保留误差最小的排列来更新模型[10] - 无监督学习不依赖配对的干净源参考 探索利用未标注的混合语音直接训练分离模型 MixIT方法通过将两段混合语音再混合作为输入 让模型输出更多分量并设计仅依赖输入混合物的损失函数[12] 模型架构 - 典型架构包含编码器、分离网络和解码器 基于RNN的模型利用循环神经网络捕获语音信号中的长时依赖关系 Dual-Path RNN通过划分长序列为短块并在块内和块间双路径循环处理高效建模长序列[17] - 基于CNN的模型利用卷积神经网络强大的局部特征提取能力 Conv-TasNet等时域卷积模型通过空洞卷积技术兼顾短时细节和长程依赖 基于自注意力的模型引入全局序列建模能力 SepFormer等Transformer架构进一步刷新了分离性能[17] - 音频重构策略包括掩膜估计和直接映射两类 掩膜方法输出每个源的时间频率掩膜乘以混合后重建源信号 直接映射方法直接输出各源的波形或特征表示避免误差传播[18] 评测指标 - 主观评价指标包括MOS(评分范围1-5) 直观贴近人耳体验但难以大规模获取[20] - 客观评价指标包括SDR(单位dB)、SIR(单位dB)、SAR(单位dB)、SISDR(单位dB)、PESQ(窄带和宽带范围-0.5~4.5)、STOI(范围0~1)、ESTOI(范围0~1)、DNSMOS(范围1~5)和SIGMOS(范围1~5)等 各自侧重不同方面需要结合使用[20] 数据集 - 单通道数据集包括WSJ0-2mix(2016年)、WSJ0-3mix(2016年)、WHAM!(2019年)、WHAMR!(2020年)、LibriMix(2020年)、DNS Challenge(2021年)、REAL-M(2022年)、Lombard-GRID(2024年)、LibriheavyMix(2024年)、LRS2-2Mix(2024年)和SonicSet(2024年)等[23] - 多通道数据集包括SMS-WSJ(2019年)、LibriCSS(2020年)、Kinect-WSJ(2021年)和AISHELL-4(2021年)等[23] 模型性能 - 在WSJ0-2mix数据集上 早期模型如DPCL和uPIT-BLSTM达到约10 dB的SDR Conv-TasNet等端到端模型将性能推升到12 dB以上 最近两三年SepFormer、DPRNN系列和双路Transformer等先进架构将SDR提升到20 dB左右[24] - 在含噪声混响的WHAM!和WHAMR!数据集上 模型性能相对无噪条件下降明显 说明噪声鲁棒性仍是挑战[25] 工具平台 - 开源工具包括nussl(2018年 Python语言 PyTorch后端 MIT许可证)、ONSSEN(2019年 Python语言 PyTorch后端 GPL-3.0许可证)、ESPNet-SE(2021年 Python语言 PyTorch后端 Apache-2.0许可证)、Asteroid(2020年 Python语言 PyTorch后端 MIT许可证)、SpeechBrain(2021年 Python语言 PyTorch后端 Apache-2.0许可证)、ClearerVoice-Studio(2024年 Python语言 PyTorch后端 Apache-2.0许可证)和WeSep(2024年 Python/C++语言 PyTorch后端 Apache-2.0许可证)等[29] 未来挑战 - 长时段音频处理需要在保证分离连续性的同时控制模型复杂度和内存开销 移动端和嵌入式应用要求模型具备较小参数量和计算量[32] - 因果语音分离要求算法只能利用当前及过去帧的信息不能窥视未来 对模型延时和缓存机制提出严格要求[32] - 生成式方法包括生成对抗网络和扩散模型开始用于语音分离 在弱监督或无监督场景下展示出潜力[32] - 预训练技术如大规模自监督预训练wav2vec 2.0等可提供强大通用特征 在低资源分离任务上显著提升性能[32] - 目标说话人提取利用已知的目标说话人特征从混合中提取该说话人语音 需要高效利用说话人嵌入并与分离网络融合[33] - 语音分离正日益与语音识别、说话人识别/分离、语音增强等任务结合 形成端到端的联合优化框架[33]
开学了:入门AI,可以从这第一课开始
机器之心· 2025-09-01 16:46
AI核心概念与学习方法 - 人工智能通过机器学习从数据中自行学习规律而非依赖预设规则 核心方法包括有监督学习(使用标记数据训练模型) 无监督学习(从未标记数据中发现模式)和强化学习(通过试错和奖励机制优化行为策略) [9][12] - 2012年Google通过无监督学习使神经网络在观看海量YouTube视频后自发识别"猫"的概念 成为深度学习里程碑事件 [11] - AlphaGo击败人类棋手和ChatGPT的崛起标志着AI技术进入爆发期 深度学习依赖算力(GPU) 数据(互联网)和算法三要素共同推动 [6][69] AI技术基础能力 - 数学是AI底层逻辑的核心 线性代数处理向量与矩阵 概率统计管理不确定性 微积分通过梯度下降优化模型参数 [13] - Python是AI开发首选语言 拥有简洁语法和强大生态圈 关键工具库包括NumPy/Pandas(数据处理) Scikit-learn(机器学习) TensorFlow/PyTorch(深度学习) [19][21] - 其他编程语言各有侧重 R语言擅长统计分析 C++适用于高性能计算 Java用于企业级系统开发 [23] 实践与学习路径 - 学习过程需结合理论深度(数学) 工具掌握(编程)和实践高度(项目) 建议通过Kaggle竞赛 GitHub开源项目和复现论文等方式积累经验 [28][47][53] - 建议建立持续学习机制 关注顶级学术会议(NeurIPS/CVPR/ICML) 筛选高质量信息源 避免被技术营销内容干扰 [24][25] - 初学者可从微项目入门 如用Pandas分析天气数据 用Scikit-learn预测泰坦尼克号幸存者 逐步构建可交互的Demo展示能力 [50][51][53] AI应用领域与职业方向 - 核心职业路径包括机器学习工程师(算法落地) 数据科学家(数据洞察) 算法研究员(前沿探索) 具体职位衍生出算法工程师 AIGC工程师等细分方向 [38][40] - AI与垂直领域结合创造新价值 包括艺术设计(生成式AI创作) 金融商业(量化交易/风控) 医疗健康(新药研发/影像分析) 材料科学(分子模拟)等领域 [42][43] - AI技能将成为通识能力 未来差距体现在顶尖人才(创造AI)与普通劳动者(使用AI)之间 需注重培养解决问题能力和人机协同思维 [37][45][55] AI发展历程 - 1956年达特茅斯会议正式提出人工智能概念 早期发展形成符号主义(逻辑推理) 联结主义(模式识别) 行为主义(环境交互)三大流派 [58][64] - 经历两次AI寒冬后 统计机器学习崛起 2012年AlexNet在ImageNet竞赛中以压倒性优势夺冠 标志着深度学习时代的开启 [66][67] - 现代AI正融合三大流派优势 追求兼具学习能力 逻辑推理和行动能力的综合智能体系 [65]