Workflow
生成式方法
icon
搜索文档
拿走200多万奖金的AI人才,到底给出了什么样的技术方案?
机器之心· 2025-12-23 12:15
文章核心观点 - 文章通过分析2025年腾讯广告算法大赛冠亚军的解决方案,探讨了广告推荐系统从传统判别式方法向全模态生成式方法演进的技术趋势,并展示了年轻技术人才如何解决工业界真实存在的复杂难题 [1][4][5][51] 广告推荐的技术演进与挑战 - 广告推荐的核心目标是在合适的时间将广告推送给真正可能需要的人,以减少无效曝光和对用户的打扰 [7] - 业界目前主要有两种方法:传统判别式方法和新兴的生成式方法 [8] - 传统判别式方法通过级联架构和手工特征匹配用户与广告,但已遇到效果提升有限、冷启动困难等瓶颈 [11][14] - 生成式方法通过分析用户长时间跨度的行为序列,预测用户“下一步最可能发生什么”,能更好地理解用户意图和利用世界知识 [14][15] - 腾讯广告算法大赛的赛题定为“全模态生成式推荐”,要求基于用户的多模态历史行为数据预测下一次交互 [16] - 工业界已出现相关探索,如Google TIGER、Meta HSTU、快手的OneRec和腾讯的GPR,其中HSTU首次在推荐中观察到了Scaling Law [17] - 该领域仍面临工业级动态词表带来的训练/推理爆炸、毫秒级延迟与巨量算力的矛盾等挑战 [19] 大赛赛题的难点与要求 - 赛题对应超大规模数据场景:涉及千万级广告、千万级用户及同等规模的交互序列,但训练计算资源有限 [21] - 数据结构复杂:包含经过脱敏处理的文本、图像及协同行为等多模态数据,且存在特征缺失、行为序列时间跨度大等问题 [21] - 任务目标复杂:复赛需同时优化曝光、点击与转化等多个隐式目标,且存在近半数的冷启动广告项目 [22] 冠军团队Echoch的解决方案 - 团队来自华中科技大学、北京大学、中国科学技术大学 [25] - **特征工程**:提出三级会话体系、周期编码和时间差分桶,让模型理解用户“此时此刻”的状态,具备时间感和节奏感 [28][29][32] - **模型设计**:针对需同时预测点击与转化的问题,让同一模型能根据目标自动切换推荐策略 [35] - **基座模型优化**:将基座模型从HSTU换为LLM,利用其RoPE位置编码自带“时间感”,使线上得分提升,显存占用减少约5G [36] - **语义ID改进**:在编码最后一层引入随机性,使码表使用更均匀,长尾物品训练关注度提升190倍,码表利用率从81.2%提升至100%,衡量曝光不平等度的Gini系数从0.53降至近0 [37] - **训练加速**:引入Muon优化器,与AdamW相比,显存占用实测锐减45%,收敛速度提升40% [38] 亚军团队leejt的解决方案 - 团队来自中山大学 [40] - **数据处理**:通过将低频广告映射到共享词表及ID哈希编码,压缩千万级广告词表规模,解决显存瓶颈 [42] - **特征处理**:对高维多模态特征使用SVD降维去噪,再通过RQ-KMeans离散为语义ID,对缺失率高、效果不佳的模态特征选择舍弃 [43] - **序列建模**:通过session划分明确行为边界,并引入异构时序图,利用用户、广告及语义节点之间的关系网络来弥补个体数据的稀疏性 [44] - **工程优化**:采用混合精度训练、梯度检查点、torch.compile图编译等技术,将每步训练时间从3.5秒压缩到0.8秒,GPU利用率拉满至100%,成功将模型从4层512维扩展到8层2048维,验证了Scaling is all you need的核心信念 [45][48] 行业趋势与未来展望 - 从判别式到生成式的演进正在平稳推进,腾讯内部已在召回和粗排阶段用生成式模型替代传统模型,并取得了不错的效果,相关收益已在财报营收数据上有所体现 [51] - 生成式推荐是能落地并创造商业价值的技术方向 [51] - 为适应趋势,腾讯广告的数据将全面多模态化,内部广告系统也将全面Agent化,并将本次大赛数据开源以支持社区发展 [52] - 未来广告推荐可能走向即时生成,根据用户当下的兴趣、场景、情绪实时生成个性化广告内容,实现真正的“千人千面” [52]
语音分离最全综述来了!清华等团队深度分析200+文章,系统解析「鸡尾酒会问题」研究
机器之心· 2025-09-03 12:33
语音分离技术综述 - 清华大学、青海大学、南京大学、南方科技大学、中国科学院大学、字节跳动的研究者全面调研了语音分离领域 对200余篇代表性论文进行了系统归纳和分析 涵盖深度学习方法、模型架构、研究主题、评测指标、数据集、工具平台、模型效果比较和未来挑战等多个维度[2] 问题定义 - 语音分离任务根据混合说话人数量是否已知分为已知人数分离和未知人数分离两类 已知人数分离可通过深度聚类或排列不变训练等策略解决输出顺序不确定的排列歧义问题 未知人数分离需要模型动态决定输出通道数并判断终止时机 面临说话人排列组合随人数增加呈指数扩展的挑战[6] 学习范式 - 有监督学习利用配对的混合音频及纯净源音频进行训练 采用深度聚类方法将时频单元映射到高维嵌入空间再聚类生成声源掩膜 或使用排列不变训练方法对输出标签进行动态匹配只保留误差最小的排列来更新模型[10] - 无监督学习不依赖配对的干净源参考 探索利用未标注的混合语音直接训练分离模型 MixIT方法通过将两段混合语音再混合作为输入 让模型输出更多分量并设计仅依赖输入混合物的损失函数[12] 模型架构 - 典型架构包含编码器、分离网络和解码器 基于RNN的模型利用循环神经网络捕获语音信号中的长时依赖关系 Dual-Path RNN通过划分长序列为短块并在块内和块间双路径循环处理高效建模长序列[17] - 基于CNN的模型利用卷积神经网络强大的局部特征提取能力 Conv-TasNet等时域卷积模型通过空洞卷积技术兼顾短时细节和长程依赖 基于自注意力的模型引入全局序列建模能力 SepFormer等Transformer架构进一步刷新了分离性能[17] - 音频重构策略包括掩膜估计和直接映射两类 掩膜方法输出每个源的时间频率掩膜乘以混合后重建源信号 直接映射方法直接输出各源的波形或特征表示避免误差传播[18] 评测指标 - 主观评价指标包括MOS(评分范围1-5) 直观贴近人耳体验但难以大规模获取[20] - 客观评价指标包括SDR(单位dB)、SIR(单位dB)、SAR(单位dB)、SISDR(单位dB)、PESQ(窄带和宽带范围-0.5~4.5)、STOI(范围0~1)、ESTOI(范围0~1)、DNSMOS(范围1~5)和SIGMOS(范围1~5)等 各自侧重不同方面需要结合使用[20] 数据集 - 单通道数据集包括WSJ0-2mix(2016年)、WSJ0-3mix(2016年)、WHAM!(2019年)、WHAMR!(2020年)、LibriMix(2020年)、DNS Challenge(2021年)、REAL-M(2022年)、Lombard-GRID(2024年)、LibriheavyMix(2024年)、LRS2-2Mix(2024年)和SonicSet(2024年)等[23] - 多通道数据集包括SMS-WSJ(2019年)、LibriCSS(2020年)、Kinect-WSJ(2021年)和AISHELL-4(2021年)等[23] 模型性能 - 在WSJ0-2mix数据集上 早期模型如DPCL和uPIT-BLSTM达到约10 dB的SDR Conv-TasNet等端到端模型将性能推升到12 dB以上 最近两三年SepFormer、DPRNN系列和双路Transformer等先进架构将SDR提升到20 dB左右[24] - 在含噪声混响的WHAM!和WHAMR!数据集上 模型性能相对无噪条件下降明显 说明噪声鲁棒性仍是挑战[25] 工具平台 - 开源工具包括nussl(2018年 Python语言 PyTorch后端 MIT许可证)、ONSSEN(2019年 Python语言 PyTorch后端 GPL-3.0许可证)、ESPNet-SE(2021年 Python语言 PyTorch后端 Apache-2.0许可证)、Asteroid(2020年 Python语言 PyTorch后端 MIT许可证)、SpeechBrain(2021年 Python语言 PyTorch后端 Apache-2.0许可证)、ClearerVoice-Studio(2024年 Python语言 PyTorch后端 Apache-2.0许可证)和WeSep(2024年 Python/C++语言 PyTorch后端 Apache-2.0许可证)等[29] 未来挑战 - 长时段音频处理需要在保证分离连续性的同时控制模型复杂度和内存开销 移动端和嵌入式应用要求模型具备较小参数量和计算量[32] - 因果语音分离要求算法只能利用当前及过去帧的信息不能窥视未来 对模型延时和缓存机制提出严格要求[32] - 生成式方法包括生成对抗网络和扩散模型开始用于语音分离 在弱监督或无监督场景下展示出潜力[32] - 预训练技术如大规模自监督预训练wav2vec 2.0等可提供强大通用特征 在低资源分离任务上显著提升性能[32] - 目标说话人提取利用已知的目标说话人特征从混合中提取该说话人语音 需要高效利用说话人嵌入并与分离网络融合[33] - 语音分离正日益与语音识别、说话人识别/分离、语音增强等任务结合 形成端到端的联合优化框架[33]