Workflow
深度学习
icon
搜索文档
语音分离最全综述来了!清华等团队深度分析200+文章,系统解析「鸡尾酒会问题」研究
机器之心· 2025-09-03 12:33
语音分离技术综述 - 清华大学、青海大学、南京大学、南方科技大学、中国科学院大学、字节跳动的研究者全面调研了语音分离领域 对200余篇代表性论文进行了系统归纳和分析 涵盖深度学习方法、模型架构、研究主题、评测指标、数据集、工具平台、模型效果比较和未来挑战等多个维度[2] 问题定义 - 语音分离任务根据混合说话人数量是否已知分为已知人数分离和未知人数分离两类 已知人数分离可通过深度聚类或排列不变训练等策略解决输出顺序不确定的排列歧义问题 未知人数分离需要模型动态决定输出通道数并判断终止时机 面临说话人排列组合随人数增加呈指数扩展的挑战[6] 学习范式 - 有监督学习利用配对的混合音频及纯净源音频进行训练 采用深度聚类方法将时频单元映射到高维嵌入空间再聚类生成声源掩膜 或使用排列不变训练方法对输出标签进行动态匹配只保留误差最小的排列来更新模型[10] - 无监督学习不依赖配对的干净源参考 探索利用未标注的混合语音直接训练分离模型 MixIT方法通过将两段混合语音再混合作为输入 让模型输出更多分量并设计仅依赖输入混合物的损失函数[12] 模型架构 - 典型架构包含编码器、分离网络和解码器 基于RNN的模型利用循环神经网络捕获语音信号中的长时依赖关系 Dual-Path RNN通过划分长序列为短块并在块内和块间双路径循环处理高效建模长序列[17] - 基于CNN的模型利用卷积神经网络强大的局部特征提取能力 Conv-TasNet等时域卷积模型通过空洞卷积技术兼顾短时细节和长程依赖 基于自注意力的模型引入全局序列建模能力 SepFormer等Transformer架构进一步刷新了分离性能[17] - 音频重构策略包括掩膜估计和直接映射两类 掩膜方法输出每个源的时间频率掩膜乘以混合后重建源信号 直接映射方法直接输出各源的波形或特征表示避免误差传播[18] 评测指标 - 主观评价指标包括MOS(评分范围1-5) 直观贴近人耳体验但难以大规模获取[20] - 客观评价指标包括SDR(单位dB)、SIR(单位dB)、SAR(单位dB)、SISDR(单位dB)、PESQ(窄带和宽带范围-0.5~4.5)、STOI(范围0~1)、ESTOI(范围0~1)、DNSMOS(范围1~5)和SIGMOS(范围1~5)等 各自侧重不同方面需要结合使用[20] 数据集 - 单通道数据集包括WSJ0-2mix(2016年)、WSJ0-3mix(2016年)、WHAM!(2019年)、WHAMR!(2020年)、LibriMix(2020年)、DNS Challenge(2021年)、REAL-M(2022年)、Lombard-GRID(2024年)、LibriheavyMix(2024年)、LRS2-2Mix(2024年)和SonicSet(2024年)等[23] - 多通道数据集包括SMS-WSJ(2019年)、LibriCSS(2020年)、Kinect-WSJ(2021年)和AISHELL-4(2021年)等[23] 模型性能 - 在WSJ0-2mix数据集上 早期模型如DPCL和uPIT-BLSTM达到约10 dB的SDR Conv-TasNet等端到端模型将性能推升到12 dB以上 最近两三年SepFormer、DPRNN系列和双路Transformer等先进架构将SDR提升到20 dB左右[24] - 在含噪声混响的WHAM!和WHAMR!数据集上 模型性能相对无噪条件下降明显 说明噪声鲁棒性仍是挑战[25] 工具平台 - 开源工具包括nussl(2018年 Python语言 PyTorch后端 MIT许可证)、ONSSEN(2019年 Python语言 PyTorch后端 GPL-3.0许可证)、ESPNet-SE(2021年 Python语言 PyTorch后端 Apache-2.0许可证)、Asteroid(2020年 Python语言 PyTorch后端 MIT许可证)、SpeechBrain(2021年 Python语言 PyTorch后端 Apache-2.0许可证)、ClearerVoice-Studio(2024年 Python语言 PyTorch后端 Apache-2.0许可证)和WeSep(2024年 Python/C++语言 PyTorch后端 Apache-2.0许可证)等[29] 未来挑战 - 长时段音频处理需要在保证分离连续性的同时控制模型复杂度和内存开销 移动端和嵌入式应用要求模型具备较小参数量和计算量[32] - 因果语音分离要求算法只能利用当前及过去帧的信息不能窥视未来 对模型延时和缓存机制提出严格要求[32] - 生成式方法包括生成对抗网络和扩散模型开始用于语音分离 在弱监督或无监督场景下展示出潜力[32] - 预训练技术如大规模自监督预训练wav2vec 2.0等可提供强大通用特征 在低资源分离任务上显著提升性能[32] - 目标说话人提取利用已知的目标说话人特征从混合中提取该说话人语音 需要高效利用说话人嵌入并与分离网络融合[33] - 语音分离正日益与语音识别、说话人识别/分离、语音增强等任务结合 形成端到端的联合优化框架[33]
Scaling Laws起源于1993年?OpenAI总裁:深度学习的根本已揭秘
具身智能之心· 2025-09-03 08:03
扩展定律的历史溯源 - 扩展定律(Scaling Laws)的核心观点是将模型性能与算力等资源投入相关联 成为构建先进大模型的重要参考标尺[2] - 康奈尔大学博士生Jack Morris指出扩展定律的真正探索者是贝尔实验室 其研究可追溯至1993年[3] - OpenAI联合创始人Greg Brockman认为贝尔实验室的研究结果跨越多个数量级和数十年时间 揭示了深度学习的根本[7] 贝尔实验室的扩展定律研究 - 1993年NeurIPS论文提出通过预测分类器性能来优化算力分配 避免高成本训练过程[12] - 研究证明模型错误率与训练数据量在对数曲线上呈现规律性 并适用于单层和多层网络[12] - 实验显示经过12000种模式训练后 新网络性能优于旧网络 证明模型规模扩大可提升智能水平[16] 论文作者贡献 - 一作Corinna Cortes论文引用量达104,248次 与Vladimir Vapnik共同提出支持向量机(引用77,000+次)并参与构建MNIST数据集[19][21] - 二作Lawrence D Jackel曾与Yann LeCun合作完成高引用研究 包括反向传播论文[23] - 三作Sara A Solla最高引用论文《Optimal brain damage》运用信息论优化神经网络规模[25] - 四作Vladimir Vapnik引用量335,349次 提出统计学习理论VC理论[27] - 五作John S Denker涉足多个领域 包括量子物理 计算机安全及神经网络 并拥有多项专利[29][30] 扩展定律的早期探索 - 心理学领域最早研究学习曲线概念[36] - Vladimir Vapnik在1960年代已研究样本大小的扩展定律[37] - Frank Rosenblatt在1958年感知器论文中清晰描述学习曲线[38] - 日本学者甘利俊一1992年论文证明学习曲线渐进行为 显示预测熵收敛规律与参数数量相关[40][41] 研究脉络总结 - 扩展定律的发展是跨学科跨时代的累积过程 从心理学 感知器到系统化研究 最终通过大规模实验验证[43] - 该定律并非突发顿悟 而是数十年理论与实践反复印证的结果 体现科学探索的长期积累[43]
计划2026年商业化应用!马斯克:特斯拉未来约80%价值将来自于Optimus擎天柱机器人【附人形机器人行业发展趋势】
前瞻网· 2025-09-02 19:00
公司战略与产品定位 - 特斯拉CEO埃隆·马斯克认为公司未来约80%的价值将来自Optimus擎天柱机器人 [2] - Optimus机器人被定位为"解放人类劳动"的核心载体 计划于2026年实现商业化应用 [2] - 机器人使命是改变人们对劳动的认知 帮助人们摆脱枯燥或危险的工作 [3] - 特斯拉预计Optimus将采用即将推出的AI5芯片 并依赖英伟达芯片训练FSD系统 [3] 市场前景与政策环境 - 2024年中国人形机器人市场规模约27.6亿元 [4] - 工信部指导意见明确到2027年产业实现规模化发展 成为重要经济增长新引擎 [4] - 前瞻产业研究院预计2030年全球人形机器人出货量将达到3.80万台 [5] - 人形机器人行业涵盖机械工程 电子技术 计算机科学和人工智能等多领域技术 [3] 技术发展与行业动态 - 人形机器人应用场景不断拓展 包括家庭服务 医疗护理 工业生产和教育娱乐 [3] - 全球多家科技巨头和初创公司积极推进人形机器人量产计划 [7] - 行业面临研发成本高 技术成熟度和市场接受度等挑战 [7] - 深度学习 自然语言处理和计算机视觉等技术突破推动行业发展 [3] 市场预期与风险因素 - 预测平台数据显示用户认为特斯拉Optimus在2027年前上市概率仅为40% [3]
维持推荐小盘成长,风格连续择优正确
2025-09-02 08:42
**行业与公司** * 行业:A股市场、量化投资、资产配置 * 公司:中金公司(量化团队)[1][2][5][8][10] **核心观点与论据** * 风格配置:9月继续推荐小盘成长风格,因市场状态、情绪端和宏观环境维度均支持其占优;8月小盘成长绝对收益16.86%[2] * 资产配置:相对看好国内股票(存在底部支撑信号),商品中性,债券谨慎[3][4] * 行业轮动:9月推荐综合金融、传媒、计算机、银行、基础化工、房地产;8月行业组合涨幅2.4%,YTD超额收益11.5个百分点[5] * 策略表现: - "成长趋势共振"策略8月收益率18.1%,连续6个月跑赢偏股混合型基金指数[7] - 小盘掘金类策略YTD收益超50个百分点,但8月表现一般(低关注度掘金7.8%、次新股掘金7.0%)[8] - XG Boost成长优选策略YTD收益率47.1%,8月收益率13.5%[8] * 模型创新: - Attention GRU周频选股策略全市场YTD跑赢基准11.7个百分点[10] - 深度学习周频选股策略全市场YTD跑赢基准43.4个百分点[10] **其他重要内容** * 风险提示:若权重股行情持续极端化,小盘策略可能阶段性失效[6][9] * 择时工具:大盘择时隐含波动率曲面情绪指标自8月1日持续看多后市[10] * 策略逻辑:行业轮动模型基于价量因子(流动性、动量、调研信息)[5],选股策略注重估值性价比和资金拥挤度[6]
开学了:入门AI,可以从这第一课开始
机器之心· 2025-09-01 16:46
AI核心概念与学习方法 - 人工智能通过机器学习从数据中自行学习规律而非依赖预设规则 核心方法包括有监督学习(使用标记数据训练模型) 无监督学习(从未标记数据中发现模式)和强化学习(通过试错和奖励机制优化行为策略) [9][12] - 2012年Google通过无监督学习使神经网络在观看海量YouTube视频后自发识别"猫"的概念 成为深度学习里程碑事件 [11] - AlphaGo击败人类棋手和ChatGPT的崛起标志着AI技术进入爆发期 深度学习依赖算力(GPU) 数据(互联网)和算法三要素共同推动 [6][69] AI技术基础能力 - 数学是AI底层逻辑的核心 线性代数处理向量与矩阵 概率统计管理不确定性 微积分通过梯度下降优化模型参数 [13] - Python是AI开发首选语言 拥有简洁语法和强大生态圈 关键工具库包括NumPy/Pandas(数据处理) Scikit-learn(机器学习) TensorFlow/PyTorch(深度学习) [19][21] - 其他编程语言各有侧重 R语言擅长统计分析 C++适用于高性能计算 Java用于企业级系统开发 [23] 实践与学习路径 - 学习过程需结合理论深度(数学) 工具掌握(编程)和实践高度(项目) 建议通过Kaggle竞赛 GitHub开源项目和复现论文等方式积累经验 [28][47][53] - 建议建立持续学习机制 关注顶级学术会议(NeurIPS/CVPR/ICML) 筛选高质量信息源 避免被技术营销内容干扰 [24][25] - 初学者可从微项目入门 如用Pandas分析天气数据 用Scikit-learn预测泰坦尼克号幸存者 逐步构建可交互的Demo展示能力 [50][51][53] AI应用领域与职业方向 - 核心职业路径包括机器学习工程师(算法落地) 数据科学家(数据洞察) 算法研究员(前沿探索) 具体职位衍生出算法工程师 AIGC工程师等细分方向 [38][40] - AI与垂直领域结合创造新价值 包括艺术设计(生成式AI创作) 金融商业(量化交易/风控) 医疗健康(新药研发/影像分析) 材料科学(分子模拟)等领域 [42][43] - AI技能将成为通识能力 未来差距体现在顶尖人才(创造AI)与普通劳动者(使用AI)之间 需注重培养解决问题能力和人机协同思维 [37][45][55] AI发展历程 - 1956年达特茅斯会议正式提出人工智能概念 早期发展形成符号主义(逻辑推理) 联结主义(模式识别) 行为主义(环境交互)三大流派 [58][64] - 经历两次AI寒冬后 统计机器学习崛起 2012年AlexNet在ImageNet竞赛中以压倒性优势夺冠 标志着深度学习时代的开启 [66][67] - 现代AI正融合三大流派优势 追求兼具学习能力 逻辑推理和行动能力的综合智能体系 [65]
2025年中国AI工业质检行业发展历程、产业链、市场规模、重点企业及未来趋势研判:AI工业质检市场规模快速增长,3C电子为最大应用领域[图]
产业信息网· 2025-08-30 09:02
AI工业质检行业概述 - AI工业质检基于AI视觉算法及相关硬件解决方案 对工业产品外观表面细粒度质量进行检测 实现缺陷自动识别与分类 [3] - 核心技术包括机器视觉与深度学习 替代传统人工目检 解决效率低下、标准不一、漏检率高等痛点 [1][13] - 主要应用于3C电子、汽车制造、新能源电池、半导体等精密制造领域 [1][13] 技术优势与特点 - 具备高效性、准确性、一致性、可迭代性及数据分析五大技术优势 [4][5] - 高效性体现在快速处理大量数据与产品 提升检测效率 [5] - 准确性通过深度学习与计算机视觉技术实现 避免人为干扰 [5] - 深度学习算法减少对人为主观特征的依赖 通过自动提取特征与参数优化提升检测精度 [7] 市场规模与增长 - 中国AI工业质检市场规模从2017年9亿元增长至2024年454亿元 年复合增长率75.09% [1][13] - 预计2025年市场规模达649亿元 [1][13] - 图像传感器作为核心硬件 市场规模从2017年296.34亿元增长至2024年948.98亿元 年复合增长率18.09% [9] - 图像传感器产量从2017年10.73亿颗增至2024年52.06亿颗 年复合增长率25.31% [9] 产业链结构 - 上游包括机器视觉算法库、光学器件及图像传感器等硬件 [7] - 下游应用以3C电子为主导 市场份额超50% 汽车制造占比18.6% [10] - 图像传感器需求从2017年38.79亿颗增至2024年70.2亿颗 年复合增长率8.84% [9] 竞争格局与重点企业 - 行业集中度较低 前五企业市场份额合计44.7% [14] - 百度智能云、创新奇智、腾讯云市场份额分别为10.6%、10.4%、10.2% [14] - 百度集团2025年第一季度营业收入324.52亿元 同比增长2.98% [14] - 创新奇智2024年集成产品及解决方案营业收入11.49亿元 数据解决方案服务营业收入0.72亿元 [16] 技术发展趋势 - 向全自动化方向发展 基于深度学习的视觉检测系统替代人工质检 [16] - 融合边缘计算与5G技术 实现毫秒级缺陷识别与分拣 [16] - 应用场景从3C电子、汽车向新能源、生物医药等领域拓展 [17] - 多模态技术融合高光谱成像、3D视觉及红外热成像 扩展检测边界 [18] - 生成式AI与仿真技术降低模型开发成本 加速算法迭代 [19] 相关企业 - 上市企业包括百度集团-SW、创新奇智、格科微、思特威、比亚迪等 [2] - 非上市企业包括腾讯云、微亿智造、阿丘科技、华为、商汤科技等 [3]
创业黑马:子公司黑马天启联合厦门算能推出了政企服务一体机
证券日报网· 2025-08-29 19:45
公司产品发布 - 子公司黑马天启联合厦门算能于2024年1月推出政企服务一体机 旨在解决政府与中小企业在项目申报过程中的问题 [1] - 产品利用企业及知识产权大数据 自然语言处理 深度学习技术及政策大模型 实现政策信息快速获取 项目精准匹配和申报材料高效生成 [1] - 产品依托算能SG系列智算服务器打造 采用软硬件一体化设计 可满足不同场景需求 [1] 产品价值与影响 - 政企服务一体机降低企业申报成本并提高申报成功率 [1] - 产品有助于提升政策执行效率和透明度 促进政府与企业合作共赢 [1] 未来发展策略 - 公司将根据市场需求和行业发展决定下一步发展策略 [1]
英伟达自动驾驶算法工程师面试
自动驾驶之心· 2025-08-29 07:32
公司招聘流程与职位设置 - 公司职位划分非常细致 特别是规划控制方向 如自主记忆泊车-自动开出职位[3] - 公司今年没有校招名额 主要通过实习转正方式招聘 实习转正概率较大且支持线上实习[3] - 招聘流程包括笔试和五轮技术面试 每轮面试均包含算法题考察[3] 笔试内容与考察重点 - 笔试包含三道算法题 涉及图搜索、模拟和动态规划 难度为LeetCode中等水平[4] - 具体题目包括对数组相邻元素进行异或操作后求和最大化 问题可转化为不相邻元素选取最大值问题[4] - 测试用例通过率分别为90%、0%和70% 主要问题在于模拟题未完成和动态规划边界处理[4] 技术面试深度与范围 - 面试问题覆盖项目经验、算法理论和工程实践 如MPC优化问题构造、求解器选择、约束设计等[5] - 非线性优化器知识被深入考察 包括GN/LM/共轭梯度区别、line search与trust region应用场景等[5] - 规划算法要求熟练掌握Hybrid A*流程、与A*区别、运动学约束算法改进方法如kinodynamic-RRT等[12] 算法编码能力测试 - 编码题涵盖数据结构基础如链表操作(合并、拷贝构造)和经典算法如棋盘路径动态规划[6][8] - 题目难度从基础到进阶 包括带障碍物的路径规划、TopK问题求解(堆排序应用)、岛屿数量DFS计算等[8][11][13] - 算法实现要求兼顾效率 如BFS被提示超时后需优化为动态规划或记忆化搜索[8] 行业技术趋势与人才需求 - 自动驾驶技术栈呈现趋同态势 传统多算法方向向统一方案如one model、VLM、VLA演进[22] - 行业对跨领域技能需求增加 如感知转大模型、规控转具身智能 反映技术壁垒提升[22] - 专业社群规模近4000人 覆盖30+技术方向 显示行业对系统化学习路径的需求[25] 公司技术团队协作特点 - 工作中需频繁参考学术论文 组内与组间合作紧密 工程问题解决占比较高[9][13] - 技术主管面试采用全英文 考察项目深度如EKF原理、工程调参经验 并关注实习时间与offer选择[14]
科学界论文高引第一人易主,Hinton、何恺明进总榜前五!
机器人圈· 2025-08-27 17:41
学术引用排名分析 - Yoshua Bengio总被引用量达973,655次 近五年引用量698,008次 位列全球科学家首位[1] - 其2014年发表的生成对抗网络论文引用量突破100,904次 2015年深度学习论文引用量达100,061次[1][2] - Geoffrey Hinton总被引用量超95万次 近五年引用量57万次 排名第二[3] - Hinton参与的AlexNet论文引用量达181,968次 为计算机视觉领域突破性研究[3][5] 跨学科引用表现 - 医学领域研究者Ahmedin Jemal总引用量924,788次 近五年引用量520,211次 排名第三[7] - 数学与生物学交叉领域研究者Eric Lander总引用量737,656次 近五年引用量247,907次 排名第四[7] - 何恺明总引用量735,881次 其2016年ResNet论文引用量达290,239次 排名第五[9] - ResNet被Nature评为21世纪被引量最多论文 引用范围在103,756-254,074次之间[9][10] 高影响力论文特征 - AlexNet论文引用量181,968次 推动深度学习在计算机视觉应用[3][5] - 生成对抗网络与深度学习论文引用量均超10万次 形成持续学术影响[1][2] - 全球科学家排名涵盖2,626,749名研究者 涉及221个学科领域[1] - Ilya Sutskever总引用量超67万次 单篇最高引用18万次 排名第七[10]
打磨7年,李航新书《机器学习方法(第2版)》发布,有了强化学习,赠书20本
机器之心· 2025-08-27 11:18
文章核心观点 - 李航老师推出了新版教材《机器学习方法(第2版)》,旨在构建一个覆盖监督学习、无监督学习、深度学习与强化学习的完整知识框架,以反映当前机器学习技术的全貌[4][5] - 新版教材是对其经典著作《统计学习方法》系列的全面更新和扩展,新增了深度学习和强化学习等关键内容,以解决现有教材内容滞后于技术快速发展的问题[3][4] - 该书定位为大学教材、辅助读物或专业人员的参考书,历时7年完成,标志着作者最初写作规划的最终版[22] 书籍内容与结构 - 全书共分为4篇,分别对应监督学习、无监督学习、深度学习和强化学习四个主要分支[5] - 第1篇监督学习介绍了线性回归、感知机、支持向量机、最大熵模型与逻辑斯谛回归、提升方法、隐马尔可夫模型和条件随机场等方法[7] - 第2篇无监督学习介绍了聚类、奇异值分解、主成分分析、马尔可夫链蒙特卡罗法、EM算法、潜在语义分析、潜在狄利克雷分配等方法[8] - 第3篇深度学习介绍了前馈神经网络、卷积神经网络、循环神经网络、Transformer、扩散模型、生成对抗模型等方法[9] - 第4篇强化学习是新增且独立成篇的内容,系统介绍了马尔可夫决策过程、多臂老虎机、近端策略优化、深度Q网络等方法[4][10] 书籍特点与更新 - 新版教材不仅新增了强化学习篇章,还增加了若干监督学习方法(如线性回归),并根据读者反馈对监督学习的大部分内容和无监督学习的少部分内容做了大幅修改[11] - 书中删除了部分目前已不常用的技术,如部分机器学习优化算法[11] - 每章详细介绍一两种机器学习方法,从具体例子入手,并由浅入深地给出严格的数学推导,以帮助读者直观理解基本思路并掌握基本原理[12] - 书中包含公式和图表,适合作为教材,并为满足进一步学习需要,总结了方法要点、提供了习题并列出主要参考文献[18][19] - 全书统一了符号用法,修改了几十处错误,并重新绘制了几乎所有的插图,以增加可读性[21] 作者与背景 - 作者李航是ACM Fellow、ACL Fellow和IEEE Fellow,拥有京都大学和东京大学的学术背景,并曾任职于NEC中央研究所、微软亚洲研究院、华为诺亚方舟实验室,目前在字节跳动Seed部门工作[24] - 其主要研究方向为自然语言处理、信息检索、机器学习、数据挖掘[24] - 该书从2018年开始写作,历经2022年出版的第1版(增加了深度学习内容),至2024年12月完成第2版,总计历时7年[22]