清华大学x生数科技:从波形到隐空间,AudioLBM引领音频超分新范式
量子位·2025-10-12 12:07

音频超分辨率技术概述 - 音频超分辨率技术旨在从低采样率音频恢复高采样率版本,是提升语音清晰度、音乐细节与沉浸式音频体验的关键技术[1] - 该技术可应用于老旧录音修复、语音通信增强、音乐制作与多模态生成,高分辨率音频能显著提升听感与表现力[1] - OpenAI的有声视频模型Sora 2已能生成采样率高达96 kHz的音频,为高保真音频生成树立了新标杆[1] - 现有学术界的音频超分模型大多局限于48 kHz以内,缺乏能稳定支持更高采样率的通用框架[1] 清华大学与生数科技的研究成果 - 清华大学与生数科技团队围绕桥类生成模型与音频超分任务展开系统研究,在ICASSP 2025和NeurIPS 2025发表两项连续成果[1] - 研究成果包括轻量化语音波形超分模型Bridge-SR,以及面向高达192 kHz母带级音频的多功能超分框架AudioLBM[1] - AudioLBM覆盖语音、音效与音乐等多类内容,在通用高分辨率音频生成方面展现出重要的扩展潜力[2] Bridge-SR模型技术特点 - Bridge-SR工作首次将薛定谔桥模型引入语音超分任务,建立低分辨率波形与高分辨率波形之间的可解桥接过程[3] - 不同于扩散模型从随机噪声逐步生成信号的"噪声到数据"方式,Bridge-SR直接利用低分辨率波形作为生成先验[3] - 模型采用轻量化网络,仅1.7M参数即实现高效、高保真的语音超分,在VCTK语音测试集上优于多项主流方法[3] - 通过非对称噪声调度设计、频域幅度谱与相位谱的辅助监督,以及一阶PF-ODE采样,Bridge-SR实现了语音超分的质量突破[7] Bridge-SR性能表现 - 在VCTK Benchmark测试集的24K采样率超分任务中,Bridge-SR的LSD T指标为0.716,优于对比模型[8] - 在8K到48K的超分任务中,Bridge-SR的LSD T指标为1.015,SISNR指标为19.02,均优于多数对比模型[8] - Bridge-SR仅使用1.7M参数,显著少于对比模型如AudioSR的258.2M参数和NVSR的122.1M参数[8] AudioLBM模型技术突破 - AudioLBM实现了从"波形域生成"到"隐空间建模"的转变,在波形连续隐空间中构建低分辨率到高分辨率的隐变量桥接生成过程[10] - 研究团队通过变分自编码器将波形压缩为连续隐空间表征,并在该空间中学习概率生成映射,提升模型的泛化建模能力[10] - 为应对高分辨率数据稀缺问题,AudioLBM提出频率感知机制,使模型能够学习"任意采样率到任意采样率"的超分过程[13] - 团队设计了级联桥类模型,将模型能力从48 kHz扩展至96 kHz与192 kHz,首次实现覆盖192 kHz工业级采样率的探索[13] AudioLBM性能表现 - 在Any-to-48kHz超分任务上,AudioLBM取得新的SOTA表现,在VCTK数据集8 kHz->48 kHz任务中LSD指标为0.742[16] - 在音效数据集ESC-50的8 kHz->44.1 kHz任务中,AudioLBM的LSD指标为1.087,VisQOL指标为3.089[16] - 在音乐数据集SDS的8 kHz->44.1 kHz任务中,AudioLBM的LSD指标为1.223,VisQOL指标为2.939[16] - 相较于基线模型AudioSR与FlowHigh,AudioLBM在对数谱距离上均明显下降,同时在96 kHz与192 kHz任务中保持稳定性能[17]

清华大学x生数科技:从波形到隐空间,AudioLBM引领音频超分新范式 - Reportify