Mureka TTS V1

搜索文档
腾讯研究院AI速递 20250724
腾讯研究院· 2025-07-23 19:14
算力军备竞赛 - OpenAI计划年底前上线100万张GPU 对标马斯克xAI五年5000万卡目标 算力竞争进入白热化阶段 [1] - OpenAI通过自研芯片、星门计划和微软合作三路径实现算力自主 计划2030年将75%算力转移至星门项目 [1] - 2025年全球AI资本支出预计达3600亿美元(2.5万亿人民币) 头部云厂商将掌握行业核心资源 [1] AI人才争夺战 - Meta挖走DeepMind参与IMO金牌项目的三位华人科学家Tianhe Yu、Cosmo Du和Weiyue Wang 他们曾参与谷歌Gemini研发 [2] - 微软过去六个月从谷歌DeepMind挖走20多名员工 包括Gemini前工程副总裁Amar Subramanya [2] - Meta成立Meta Superintelligence Labs 曾试图以10亿美元挖角OpenAI首席研究官Mark Chen未果 [2] 大模型技术进展 - 阿里开源Qwen3-Coder-480B-A35B-Instruct模型 参数量4800亿 支持256K上下文 最大输出6.5万token [3] - 该模型在智能体编程等任务中对标Kimi K2、GPT-4.1等 预训练使用7.5万亿token数据(代码占70%) [3] - 清华大学与生数科技开发FreeAudio 实现90秒长时精准音效生成 采用LLM时间规划技术 研究入选ACM MM 2025 [4][5] 语音与音乐AI - 腾讯混元ASR大模型支持语音输入 1分钟识别300字(比手动快4倍) 在中英文混杂场景表现优异 [6] - 昆仑万维Mureka V7音乐模型良品率提升至57.7% 人声真实度提升44% 采用MusiCoT技术模拟人类创作思维 [7] - 同期推出Mureka TTS V1文本转语音模型 语音质量达4.6分 超过Elevenlabs的4.36分 [7] 机器人行业动态 - 智元机器人发布四足机器人D1 Ultra 速度3.7m/s 跳跃高度35cm 宇树科技当前占全球60-70%市场份额 [8] - 魔法原子发布轮式四足机器人MagicDog-W 售价75000元起 2023年中国四足机器人市场规模4.7亿元 [8] - 美国格斗机器人DeREK(基于宇树G1)因制动系统缺陷失控 电机扭矩达120-160牛米 暴露多重安全隐患 [9] AI平台竞争趋势 - a16z指出AI平台竞争焦点转向上下文控制权 模型成为与计算、网络、存储并列的第四层基础设施 [10] - 推理层成为新系统主权竞争场 平台通过接口定义和任务调度能力重塑开发范式 [10] ChatGPT Agent原理 - ChatGPT Agent由研究智能体、操作智能体等组成 通过强化学习自主探索工具组合 无需预设规则 [11] - 团队规模20-35人 实施多层安全措施 未来将发展为通用超级智能体增强复杂任务处理能力 [11]
用户暴涨近300万,国产AI音乐神器Mureka重磅升级V7,我们拿它复刻了「印度神曲」
机器之心· 2025-07-23 16:57
AI音乐生成技术发展 - AI音乐生成技术已实现高度拟真,部分作品在网易云音乐获得15万点赞,但仍有音质糊、人声失真等可识别特征[4] - 行业呈现加速进化态势,AI音乐作品正从"牙齿漏风"向"真假难辨"快速迭代[4][5] - 昆仑万维Mureka V7成为当前国产最强音乐大模型,在平均表现评分(57.7%)、人声真实感(70%)等关键指标超越海外竞品Suno V4.5[6][8] Mureka V7技术突破 - 相比前代V6实现全面升级:旋律动机质量从59.5%提升至72%,编曲质量从41%提升至51.5%,人声真实感从48.5%跃升至70%[7][8] - 创新性推出"自定义歌手"功能,可基于音频/视频链接模仿特定音色(如成功复现王菲空灵声线与气声唱法)[12][16] - 新增自动MV生成能力,支持土味风格视频创作,包含黄色描边歌词等特色元素[20] 核心技术MusiCoT - 采用音乐思维链技术(MusiCoT)实现三大创新:先规划结构后生成(符合人类创作逻辑)、生成结构可解释可控、主客观验证效果全面领先[27][28][32] - 通过CLAP模型实现音乐风格的可控输入,支持任意长度参考音频作为提示[31] - 技术升级推动生成作品结构完整度提升71%,旋律连贯性优化59%,达到行业顶流水准[33][34] 商业化应用场景 - 面向普通用户:支持文字Prompt生成免版权BGM(如"回忆童年的温暖钢琴旋律"),大幅降低创作门槛[23] - 面向专业音乐人:生成作品可提供创作灵感,加速从灵感到成品的转化过程[35] - 新增Mureka TTS V1音频模型,语音质量超越ElevenLabs TTS V2,支持通过文本定义音色特征(如12岁女童音、新闻播音员等)[37][44] 行业竞争格局 - 垂直领域大模型(音乐/视频)成为技术博弈新焦点,各厂商加速抢占AIGC商业化落地场景[48] - 昆仑万维形成"基础研究-基座模型-产品矩阵"全产业链,Mureka系列新增用户近300万[49][51] - 行业呈现从基础模型竞赛向垂直应用转型的趋势,音乐创作正向"全民表达"方向发展[47][52]