视听语音分离技术 - 财报，业绩电话会，研报，新闻

视听语音分离技术

搜索文档

36氪· 2026-02-13 15:58

模型核心突破 - 清华大学团队推出Dolphin模型，突破了视听语音分离领域“高性能必高能耗”的瓶颈，为在智能助手、手机等端侧设备部署高清语音分离开辟了新路径 [1] - 该模型通过引入离散化视觉语义表征和基于物理先验的全局-局部注意力机制，在大幅降低计算复杂度的同时，刷新了多项基准数据集的性能记录 [2] - Dolphin是首个将参数量压缩至6M级别（计入视觉编码器）的兼顾高质量与高性能的视听语音分离模型，并在GPU推理速度上实现了相对于现有SOTA模型6倍以上的提升 [2] 技术挑战与解决方案 - 现有主流方法面临三大挑战：视觉编码器路径依赖导致计算量大、迭代推理导致高延迟、特征建模难以兼顾全局与局部细节 [4][5] - 针对视觉编码，团队设计了基于矢量量化的双路径离散视觉编码器DP-LipCoder，以极低计算成本提取高判别力视觉特征，解决轻量化与语义丰富度的冲突 [4][7] - 针对推理效率，模型摒弃多轮迭代，采用单轮编码器-解码器架构，并设计全局-局部注意力模块，确保单次前向传播即可完成高质量分离 [8] - 针对特征建模，全局注意力在低分辨率下捕捉长时序全局语境，局部注意力创新性引入基于热扩散方程的“热扩散注意力”，能去噪并保留语音瞬态细节 [8] - 模型采用直接回归目标语音深层表征的策略，相比传统掩码方法，在SI-SNRi指标上带来了约0.5dB的额外提升 [10] 性能表现与数据 - 在LRS2、LRS3和VoxCeleb2三个权威基准数据集上，Dolphin的分离质量全面领先 [11] - 在LRS2数据集上，Dolphin的尺度不变信噪比达到16.8 dB，优于当前SOTA模型IIANet的16.0 dB和AV-Mossformer2的15.1 dB [12][14] - 在计入视觉编码器参数的情况下，Dolphin总参数量仅为6.22M，相比IIANet的15.01M，参数量减少了50%以上 [12][14] - 在GPU推理延迟测试中，Dolphin处理1秒音频仅需33.24毫秒，比IIANet快4倍以上，比轻量化模型RTFS-Net也快了近50% [12][14] - 模型的计算量仅为10.89 G，相比IIANet、RTFS-Net等模型降低了50%以上 [12][14] - 在主观听感测试中，Dolphin获得了3.86的高分，远超对比模型的2.24分，证明其分离出的语音更加清晰、自然 [14] 行业影响与前景 - Dolphin的提出打破了视听语音分离领域长期存在的“参数量换性能”的固有思维，证明了轻量化模型完全有能力在性能上超越大模型 [13] - 这项工作为未来在智能眼镜、手机端侧大模型以及实时会议系统等资源受限场景中部署高精度语音分离技术，提供了全新的技术路径和理论支撑 [13]

Artificial Intelligence

Artificial Intelligence

Dolphin模型