时间可控音频生成

搜索文档
AI音效90秒长时可控生成!“狼嚎2秒,蟋蟀鸣8秒”精准搞定!清华&生数科技新研究入选ACM MM 2025
量子位· 2025-07-23 12:10
技术突破 - 文生音频系统FreeAudio实现精确时间控制与90秒长时音频生成,支持复杂指令如0-10秒森林风吹声、0-4秒鸟儿鸣叫等[1][2][4] - 系统采用免训练方法突破行业瓶颈,基于自然语言文本与时间提示实现精确控制,在10秒任务中显著优于以往免训练方法[6] - 首次在长时音频生成中实现时间控制,大幅降低计算开销同时保持与训练式方法相当性能[7][29] 技术架构 - 利用LLM规划时间结构,将文本与时间提示解析为不重叠时间窗口并生成适配描述,通过上下文融合与参考引导机制完成合成[14][18] - Decoupling&Aggregating Attention Control模块包含局部对齐与全局融合子机制,保障时序连贯与语义一致[19][21] - 波形重建阶段对相邻片段重叠区域去重裁剪,确保时域连续性与声学自然性[22] 性能表现 - 在AudioCondition测试集上事件级对齐(Eb)达44.34、片段级准确率(At)68.50,全面超越AudioLDM、Tango等主流方法[24][26] - 10秒/26秒/90秒生成任务中均表现优异,主观评估音质、连贯性等维度最佳[29][30] - 在AudioCaps和MusicCaps数据集上展现长时生成的扩展性与稳定性[32] 行业应用 - 技术已通过生数科技Vidu平台商用,支持多音轨时间窗精准可控功能[31][33] - 为影视音效制作提供灵活精准的解决方案,显著降低制作成本并规避版权风险[36] - 未来计划拓展至自然语言事件描述训练、无限长生成及空间音频方向[34][35][36] 学术认可 - 研究成果被ACM Multimedia 2025录用为Oral报告,该会议是CCF推荐的多媒体领域唯一A类国际会议[8]