Workflow
Mureka V7.5模型
icon
搜索文档
人工智能龙头“开花结果”:昆仑万维发布多款前沿模型,厚积薄发迎商业收获期
每日经济新闻· 2025-08-15 20:45
技术与商业同步跃升 - 公司正处于AI技术与商业同步发展的关键窗口期 在全球AI产业竞争加速背景下 [1] - 通过SkyWork AI技术发布周集中推出六款覆盖多模态AI核心场景的前沿模型 展示高强度研发投入转化为市场竞争力的成果 [1] - 2024年全年研发费用达15.4亿元 同比增长59.5% 重点投入AI算力芯片、大模型及应用等环节 [1][13] Mureka V7.5模型突破 - 模型构建了深度融合文化语境与语言特性的音乐音频理解模块 系统性训练覆盖中文音乐多样性 包括传统民歌、戏曲到当代民谣 [3] - 在音色与演奏技法上实现质的飞跃 通过优化ASR技术提升人声清晰度、结构感和情感真实度 显著降低机械感 [4] - 已形成成熟商业模式 包括C端流媒体平台Melodio和B端创作平台Mureka API 2025年3月年化流水超1200万美元 [3] MoE-TTS框架创新 - 首创基于MOE的角色描述语音合成框架 融合预训练大语言模型文本能力与语音专家模块 实现"知识零损失"的泛化理解能力 [4] - 在双测试集评测中 风格表现力贴合度和整体贴合度等声学控制维度领先 尤其擅长处理比喻、类比等复杂修辞 [6] - 应用潜力覆盖虚拟助手、数字人、有声创作等领域 推动行业从封闭标签式控制迈向自然语言自由控制 [6] 全栈AI技术突破 - SkyReels-A3模型实现音频驱动人像视频生成 基于DiT视频扩散模型+插帧模型+强化学习动作优化技术 [7] - Matrix-Game 2.0世界模型实现25FPS实时长序列交互生成 生成时长扩展至分钟级 为A股唯一对标谷歌Genie的模型 [7][9] - Matrix-3D模型从单图像生成可漫游三维空间 对标WorldLabs效果 短期革新游戏开发、影视制作流程 长期布局元宇宙基础设施 [9] 多模态与智能体技术 - Skywork UniPic 2.0构建理解、生图、编辑一体化能力 已全面开源模型权重与训练代码 降低开发者门槛 [9] - Skywork Deep Research Agent v2整合多模态检索、理解和生成 突破长距离信息收集与异步并行架构 输出视觉友好的深度报告 [10] - 技术迭代源于实际产品需求 具备高应用价值 为产业端提供高效、开放、可落地的AI工具集 [12] 研发战略与商业化闭环 - 公司采用"厚积薄发"策略 2025年一季度研发费用同比增长23.4%至4.3亿元 持续加码AI算力芯片与大模型研发 [13] - 技术突破快速转化为商业化应用 形成研发-落地-收益反哺的正向循环 2024年全球月活用户近4亿 海外收入占比91% [14] - AI社交业务单月最高收入突破100万美元 成为海外增长最快的中国AI应用 构建面向万亿级生态的双轮驱动模式 [14]
昆仑万维Mureka V7.5模型上线 AI音乐创作水平再迎新高度
证券日报之声· 2025-08-15 16:41
昆仑万维SkyWorkAI技术发布周 - 公司于8月11日至8月15日连续五天发布多模态AI前沿模型 包括SkyReels-A3 Matrix-Game2 0 Matrix-3D SkyworkUniPic2 0 SkyworkDeepResearchAgent及MurekaV7 5 [1] - MurekaV7 5模型在中文歌曲演绎上实现音色 演奏技法 咬字与情感表现的大幅提升 [1] 中文音乐AI技术突破 - 模型基于对中文曲风元素的深度理解 覆盖传统民歌 戏曲 华语流行金曲及当代民谣 能精准传达艺术神韵与情感色彩 [1] - 优化ASR技术提升人声真实性 通过分析演唱气息 情感起伏等微观细节 智能划分乐句并确定换气停顿位置 [2] 语音合成技术创新 - 推出MoE-TTS框架 结合预训练大语言模型文本能力与语音专家模块 实现文本与语音模态独立优化 [2] - 采用模态路由技术确保不同模态专家模块互不干扰 提升合成语音质量 [2]
昆仑万维:Mureka V7.5模型正式上线 AI音乐创作水平再迎新高度
证券时报网· 2025-08-15 13:29
8月15日,昆仑万维(300418)正式上线Mureka V7.5模型。Mureka V7.5在中文歌曲上的演绎再上新台阶, 不仅实现了中文歌曲音色、演奏技法的大幅提升,还完成了中文歌曲咬字与情感表现提升。 首先,基于对中文曲风和元素的强大理解,Mureka的理解模型对传统民歌、戏曲到经典华语流行金曲 乃至当代民谣音乐拥有深刻认知。这种在中文音乐多样性与文化特性上的深度积累,使模型在理解和生 成中文音乐时,能够更准确地传达其特有的艺术神韵和情感色彩。 该框架创新性地结合预训练大语言模型(LLM)文本能力与语音专家模块(Speech Expert Modules), 为文本与语音分别配置专用专家模块,并在Transformer核心结构中引入模态路由,确保各模态独立优 化、互不干扰。在冻结文本参数的同时高效对齐跨模态信息,实现"知识零损失"的泛化理解能力。 MoE-TTS的发布不仅为学术界提供了可复现的开放描述 TTS 解决方案,也证明了模态解耦 + 知识冻结 迁移的技术路径在语音合成中的巨大潜力。这一突破有望推动行业从"封闭标签式控制"走向"自然语言 自由控制"的新范式,加速数字人、虚拟助手和沉浸式内容创作的体 ...