Workflow
人人皆可创作音乐!腾讯AI Lab开源音乐生成大模型SongGeneration

模型核心功能与优势 - 腾讯AI Lab推出开源SongGeneration音乐生成大模型,专注解决音质、音乐性与生成速度三大难题,基于LLM-DiT融合架构,生成速度与音质表现显著提升,质量媲美商业闭源模型[1] - 支持文本控制、多轨合成与风格跟随功能,兼顾C端可玩性与B端稳定性,构建未来音乐AI生产力工具[2] - 模型参数量3B,采用codec、LM、FM、VAE模块化设计,支持48kHz采样率音乐生成,具备音色克隆级人声表现[12][15][13] 技术创新突破 - 首创25Hz极低码率+0.35kbps超低比特率双通道编解码器,实现最佳音乐重建效果[19] - 提出"混合优先+双轨其次"并行预测策略,解决人声伴奏不和谐问题,序列长度缩减50%[21] - 业内首个多维度人类偏好对齐模型,通过半自动数据构建解决音乐性/歌词对齐/提示一致性三大挑战[23][25] - 创新三阶段训练范式(预训练+模块化扩展+多偏好对齐),优化生成质量与指令遵循能力[27][30] 评测表现 - 客观评测中CE(7.78)、CU(7.90)、PQ(8.46)三项指标位列榜首,PC(6.03)领先[33] - 主观评测歌词准确度(PER 7.2)超越Suno v4.5等商业模型,旋律/伴奏/音质维度与顶级商业模型持平[32][34] - 综合表现开源模型第一,商业模型前二,在结构连贯性(开源第一)与情感表达力上优势显著[32][34] 应用场景与生态布局 - 覆盖短视频配乐、游戏音效、虚拟人演出、商业广告及个人创作等场景,推动AI音乐从"辅助工具"向"智能共创"演进[5] - 开源版本支持多语种歌词输入、一键生成、风格迁移,适配流行/嘻哈/古风/电子等曲风[6][13] - 通过Hugging Face全面开放模型权重与代码,构建开放音乐AI生态系统[36]