Workflow
音果
icon
搜索文档
音乐极客的平权实验:他想在写歌上再造一个快手
虎嗅· 2025-08-25 11:26
AI音乐行业发展历程 - 1938年贝尔实验室成功建造第一台电子语音合成器Voder 实现AI与音频首次结缘[4] - 1957年通过算法生成人类历史上第一支计算机创作音乐作品《Illiac Suite》 此后数十年间AI音乐发展缓慢 马尔可夫链 循环神经网络和卷积神经网络等技术难以突破全链条生成门槛[5] - 2016年谷歌推出Magenta项目 利用深度学习框架展示AI音乐生成能力 成为行业重要里程碑[6] - 2024年Suno横空出世 首次实现歌词 人声 伴奏等音乐内容一次性AI生成 被称为音乐界"ChatGPT"[7] 音潮公司核心战略 - 公司致力于实现"音乐平权" 让每个人都能用音乐记录生活 目标重塑音乐行业和IP生态[35] - 产品采用B端开放API接口与C端按首收费相结合商业模式 C端用户可免费创作4首歌 超过部分需付费 儿童音乐教育和AI教育场景完全免费[51] - 通过自建国内最大音乐数据标注库构建数据壁垒 与上海音乐学院建立联合实验室 由数十名学生参与数据标注工作[52] - 移动端产品每三周迭代一次 网页端每两周迭代一次 持续增加新功能激发用户创作热情[38][47] 技术演进与突破 - 2016年深度学习技术突破解决人声与伴奏分离行业难题 采用医疗影像血管分离模型应用于语谱图分析 效果显著提升[6][11] - 2021年Transformer架构大模型出现 2024年实现端到端音乐生成 模型训练数据达到千万首时出现"智力涌现"现象 质量突飞猛进[7][36] - 使用国产芯片进行训练和推理 采用训推一体化方案降低成本 推理请求量大时将训练机器转为推理使用[48] 市场竞争格局 - 国内AI音乐研究人员屈指可数 算法圈人员分布呈现自然语言处理最多 计算机视觉次之 音频相关最少的格局 音乐生成领域专家不足10人[13][14] - Suno专注于专业音乐人生产工具和流媒体平台 Riffusion采用GPT聊天方式创作音乐 Eleven Labs在语音合成领域领先并推出音乐API[41][59][70] - 腾讯AudioGenie专注于视频和图像配音效 多模态能力突出但非完整音乐作品生成[49] 用户获取与留存策略 - 目标用户首先锁定学生群体 因其思维活跃 接受新事物能力强 使用频率和时间充足[45] - 通过"音果"功能实现歌曲要素混合创作 建立"音缘"社交关系 游戏化创作过程增强用户粘性[43] - 提供IP养成和收益分成机制 用户可通过播放量获得收益 版权完全归用户所有[51][53] 资源投入与成本控制 - 训练推理采用国产芯片方案 性价比显著 通过动态资源调配降低运营成本[48] - 团队每月投入200-300美元测试新兴AI产品 包括可灵 即梦 PixVerse等视频生成工具 保持技术敏感度[68][69] - 依托世界人工智能大会宣传获得数十万注册用户 通过高频迭代维持用户活跃度[65]
自由量级「音潮」音乐大模型独立全栈完成WAIC 2025大会主题曲,无词曲作者
IPO早知道· 2025-07-26 20:58
全链路自研技术 - "音潮"音乐大模型采用AR+NAR架构,具备多模态表征能力和创新重建模型,可高保真重建音乐信号并独立建模音乐特征,解决传统方案的音乐细节丢失问题 [2] - 研发Diffusion Transformer(DiT)模型,通过独特注意力机制同步左右声道差异,生成具有真实声场空间的沉浸式音频 [2] 全新功能"音果" - "音果"功能实现多首歌曲的曲风、情绪、音色等融合再创作,支持超参数调节以控制融合比例 [4] - 支持跨模态输入(文字/图片/视频),系统自动联合音频特征生成场景化专属音乐 [4] - 单首歌曲生成成本低于市场同类产品的五分之一,显著提升效率与成本优势 [6] 产品定位与行业影响 - 目标为音乐人提供可控、高保真、低门槛的生成式工具,推动中国AI音乐技术进入国际一线阵营 [5] - 打破音乐创作技术门槛与资源垄断,形成创作者-用户-平台多方共赢的生态系统 [5] - 版权归属用户,通过生成记录和账户身份生成唯一创作凭证,保障音乐人收益 [6] AI原生设计智能体PI - PI(Presentation Intelligence)通过意图理解、多智能体协作引擎和原生多模态编辑器构建全栈智能体Co-pilot系统 [8] - 支持从内容大纲到设计布局的全流程AI原生创作,实现唯一性专属设计 [9] - 强调人机和谐共赢与学习迭代价值观,支持动态平衡调节的协作环境 [10] 技术愿景 - PI定义"AI原生设计智能体"新品类,以AGI重塑未来交互,释放人类深层创造力 [11] - "音潮"与PI共同推动AI技术在内容创作领域的范式革新,覆盖音乐与设计多场景 [11]