Suno V4.5
搜索文档
中国AI音乐,悄悄把全球第一拿走了
量子位· 2026-03-25 14:31
核心观点 - 昆仑万维旗下AI音乐模型Mureka V8在第三方评测平台Artificial Analysis的音乐模型榜单中,于人声和器乐两个分榜均位列第一,超越了Suno V4.5、Udio v1.5 Allegro等国际主流模型,标志着中国AI音乐模型在全球范围内取得领先地位 [1][2][3] 榜单表现与技术实力 - **人声榜单表现**:Mureka V8在Artificial Analysis人声音乐排行榜上以ELO评分1,137分位列第一,领先于第二名Suno V4.5的1,079分 [3] - **器乐榜单表现**:Mureka V8在器乐音乐排行榜上以ELO评分1,179分位列第一,领先于第二名Suno V4.5的1,120分 [3] - **模型生成质量**:实测显示,Mureka V8生成的人声具有真实的呼吸感、吐字清晰且能根据歌曲情绪进行细腻的气息与唱法处理,例如在民谣生成中能自然融入换气声与气息起伏 [4][5][6][7][8][9] - **复杂指令执行**:模型能够理解并执行复杂的混合曲风与唱法切换指令,例如在一首歌中融合Pop Rock和R&B,并在气声、摇滚嘶吼、R&B转音和假声等多种唱法间丝滑切换 [11][12][13] - **器乐生成能力**:模型生成的纯器乐作品能精准把握特定音乐风格的精髓,如成功复现了标志性的失真吉他riff,且器乐编排富有画面感和专业度 [14][15][16][17][18] - **完整歌曲创作**:模型结合其人声与器乐能力,能够生成结构完整、情感连贯、制作精良的完整歌曲,而非简单的音频片段,实现了从“可生成”到“可直接发布”的跨越 [20][21][22][23] 公司发展路径与迭代策略 - **快速迭代节奏**:公司从2024年2月SkyMusic 1.0内测开始,至2026年1月发布Mureka V8,在不到两年时间内迭代了8个大版本,平均更新周期约为三个月 [26][27][28] - **三阶段发展路径**:公司AI音乐业务的发展经历了从“不能用”到“能用”(1.0-2.0版本)、从“能用”到“好用”(3.0-5.5版本)、再从“好用”到“直接生产可发布内容”(V8版本)的三个明确阶段 [29][30][31][32][34][35][37] - **技术能力演进**:在迭代过程中,公司先后解决了端到端生成、规模化生产、音质听感跃迁、多语种工程化等关键问题,并通过引入MusiCoT等技术使模型具备主动规划音乐框架的“思考”能力 [30][32][34][35][36] - **持续投入与前瞻**:公司对AI音乐赛道进行了长期持续投入,并已预告将于近期发布基于MusiCoT进一步深化的Mureka V9,其目标是从“能写出来”进化到“能按你想的方式写出来” [41][42][57] 行业格局与趋势 - **竞争格局变化**:以昆仑万维Mureka V8为代表的国产模型在AI音乐领域登顶,改变了该领域长期由海外公司(如Suno、Udio)主导的局面,呈现出“东升西落”的态势 [44][45][46] - **国产AI发展模式**:在多个AI赛道(如大语言模型、视频生成),普遍出现了前期由海外技术引爆,后期由国产团队实现追赶甚至反超的模式,这得益于“中国速度”、“中国规模”和“中国场景”的优势 [48][49][51] - **本土优势**:国内互联网科技公司擅长“小步快跑、根据用户反馈迭代”的战术,且庞大的用户群体、丰富的应用场景和复杂的内容生态为AI模型提供了快速试错和优化的土壤,易于形成飞轮效应 [51][52][53][55] - **产业象征意义**:昆仑万维作为北京市人工智能产业的科技创新代表,其模型登顶也象征着北京在AI音乐领域占据了高地 [58]
腾讯研究院AI速递 20250507
腾讯研究院· 2025-05-06 18:46
生成式AI - OpenAI放弃完全营利性转型,将由非营利组织继续控制,同时营利性机构转为公益公司(PBC)[1] - 公司架构调整后取消利润上限制度,采用常规股权结构,非营利组织将成为PBC主要股东[1] - 承诺继续专注AGI发展造福人类使命,并计划开源部分高性能模型[1] - 英伟达发布Llama-Nemotron开源模型家族,包含8B到253B三种规格,支持动态切换推理模式,遵循开放商业许可[1] - LN-Ultra运用Puzzle框架和FFN融合技术优化部署效率,在推理性能和吞吐量上超越DeepSeek-R1[1] - 通过Qwen和DeepSeek-R1教师模型支持,结合多阶段训练和强化学习,全面提升模型推理与通用对话能力[1] Grok PDF功能 - Grok新增PDF渲染功能,支持一句话指令快速生成格式化PDF文档,免费和付费用户均可使用[2] - 功能基于LaTeX代码实现,支持学术论文、简历、菜单等多种文档类型,可通过对话优化或直接修改代码[2] - 相比ChatGPT依赖第三方库的PDF生成功能,Grok在排版质量和用户体验上有明显优势[2] Suno音乐生成 - V4.5版本支持长达8分钟的音乐生成,并新增punk rock、jazz house等细分风格,支持跨界混搭创作[3] - 人声表现力全面升级,实现从耳语到高音的动态音域,并优化了颤音、呼吸控制等专业级细节[3] - 提升了音乐描述识别能力,可精准理解抽象表达,并支持乐器分层、环境音效等音乐元素的精细解构[3] 英伟达语音识别 - 英伟达开源的Parakeet TDT 0.6B语音识别模型创下纪录,能在1秒内转录60分钟音频,词错误率仅6.05%[3] - 模型采用FastConformer-TDT架构,可一次性处理24分钟音频片段,支持标点符号预测和时间戳[3] - 以CC-BY-4.0许可开源,参数量600M,支持商用,但目前仅支持英语识别[3] ACE-Step音乐生成 - ACE-Step结合深度压缩自编码器、扩散模型和线性Transformer,在A100上20秒可生成4分钟音乐,比基线快15倍[5] - 支持19种语言音乐生成,覆盖流行、摇滚等多种风格,并具备人声克隆、歌词编辑等高级控制功能[5] - 采用Apache License 2.0开源协议,已开放训练代码和LoRA模块,将陆续推出RapMachine、StemGen等专业功能[5] AI考古发现 - 2025年研究人员首次非侵入性读取到赫库兰尼姆古卷PHerc. 172的标题,内容为斐洛德谟的《论恶习》第一卷[5] - 该发现由两个团队同时完成,获奖团队Marcel Roth和Micha Nowak利用AI图像分割和墨迹检测技术,获得6万美元奖金[5] - 这些古卷源自公元79年维苏威火山爆发被掩埋的罗马贵族别墅,AI技术为解读这些碳化的古代智慧开创新途径[5] AI数学工具 - 陶哲轩在ChatGPT协助下,仅用4小时独立开发了一个验证数学估计的开源工具,可自动判断涉及正参数的不等式是否成立[6] - 他与ChatGPT的交互过程从基础类编写开始,逐步完善功能,显示了AI在复杂数学工具开发中的实用价值[6] - 作为早期接受AI的顶级数学家,陶哲轩认为到2026年AI将成为数学研究的可靠合作者,并建议数学家与程序员协作开发此类工具[6] AI版权问题 - 法律主要保护具体的"表达"而非抽象的"风格",单纯模仿吉卜力画风通常不构成侵权,但使用其具体角色和情节可能侵权[6] - AI训练数据未经授权存在法律风险,但传统"先授权后使用"模式已不适用,目前缺乏相关立法和豁免机制[6] - 面对AI挑战,艺术家的核心竞争力在于思想深度和时代洞察,应关注作品的独特视角而非技术层面的复制能力[6]