Workflow
Lyria
icon
搜索文档
OpenAI被曝瞄准AI音乐赛道商业化,Suno首当其冲
36氪· 2025-10-27 10:41
OpenAI进军AI音乐市场 - OpenAI正在筹备AI音乐生成项目,并与茱莉亚学院合作进行乐谱标注以训练模型[4] - 新音乐模型未来可能整合进Sora 2视频生成模型,为用户视频自动生成背景音乐或添加乐器伴奏[4] - OpenAI探索AI音乐的To B市场,广告行业是清晰赛道,可用于构思歌词、创作广告歌曲或风格模仿[4] AI音乐市场竞争格局 - 当前AI音乐生成市场竞争分散,前十大平台合计仅占约24%市场份额,头部效应不明显[6] - 主要初创公司包括Suno(主打人人可创作音乐)和Udio(偏向专业用户),市场定位不同[6] - 科技巨头纷纷布局:谷歌推出Lyria模型,字节跳动、阿里、腾讯等国内公司也在慢慢布局[6] Suno AI的商业模式与财务表现 - Suno AI凭借订阅模式实现年经常性收入(ARR)1.5亿美元,同比增长近四倍[8] - 公司毛利率超过60%,在AI领域属于罕见的高利润水平[8] - 音频模型相比大语言模型更"轻"且成本更低,但市场潜在规模和用户付费意愿不差[8] OpenAI的音乐技术积累与战略动机 - OpenAI早在2019年就推出音乐生成模型MuseNet,2020年推出带人声的Jukebox模型[7] - 公司近期频繁推出新产品(如Atlas浏览器、Sora 2),音乐是产品矩阵的新维度[8] - 战略动机是在AGI路径受阻后,推出更多能落地赚钱的产品来抵消庞大算力开支[7] 行业影响与潜在问题 - OpenAI进入将彻底引爆AI音乐赛道竞争,加速创新并为消费者提供更多选择[6] - AI音乐生成技术引发音乐人版权担忧,Suno与Udio的崛起已侵害不少音乐人权益[2] - 事件引发对AI应用公司壁垒的思考:通用模型公司进入特定领域后初创公司优势何在[8]
OpenAI被曝瞄准AI音乐赛道商业化,Suno首当其冲
量子位· 2025-10-26 12:01
OpenAI进军AI音乐的战略动向 - OpenAI已与茱莉亚学院合作进行乐谱标注,旨在利用先进模型创作高质量音乐内容[6][7] - 新产品未来可能整合进Sora 2视频生成模型,实现视频BGM自动生成及人声轨道伴奏添加[7] - OpenAI正探索AI音乐的To B市场,广告行业是最清晰赛道,可用于构思歌词、创作广告歌曲及视频风格模仿[8][9] AI音乐行业竞争格局 - 当前AI音乐生成赛道头部效应不明显,前十大平台合计市场份额约24%[12] - 主要初创公司包括估值20亿美元的Suno(主打人人可创作音乐)和Udio(偏向专业用户)[12][13] - 科技巨头已纷纷布局:谷歌推出Lyria模型,字节跳动、阿里、腾讯等国内公司也在逐步进入市场[16][17] AI音乐商业模式与技术特性 - Suno凭借订阅模式实现年经常性收入1.5亿美元,同比增长近四倍,毛利率超过60%[29][30] - 音频模型相比大语言模型更轻量且成本更低,但市场潜在规模和用户付费意愿不逊于语言模型[32][33] - OpenAI此次举动是商业驱动,旨在通过可落地产品抵消算力开支,而非单纯技术探索[26][34] 历史技术积累与行业影响 - OpenAI早在2019年就推出音乐模型MuseNet(支持10种乐器),2020年推出带人声的Jukebox模型[22][24] - 巨头入场将加速行业创新步伐,消费者可获得更多选择并从中受益[19][20] - 该事件引发对AI应用公司壁垒的思考:通用模型公司进入垂直领域后初创公司的生存空间[35][36]
OpenAI进军音乐模型!
智通财经网· 2025-10-26 11:46
OpenAI音乐模型开发现状与规划 - 公司正积极开发AI音乐模型 工程师与茱莉亚音乐学院学生合作进行乐谱标注作为训练数据[1] - 模型将利用文本和音频提示词生成音乐 例如为现有声乐曲目添加吉他伴奏[1] - 功能旨在降低内容创作门槛 用户可为Sora生成的视频即时配乐并分享至社交平台[1] - 音乐模型将帮助公司构建更全面AI生态系统 提升超过8亿活跃用户的黏性[1] - 模型具体整合方式尚未确定 可能无缝结合ChatGPT或Sora 也可能成为独立应用[1] - 模型具备商业化潜力 广告公司可用其创作广告歌词和旋律 助力公司向广告领域拓展[1] OpenAI音乐领域技术积累 - 公司早在2019年便推出音乐生成模型MuseNet 可结合10种乐器音色生成4分钟多种风格乐曲[2] - 2020年发布会唱歌的Jukebox模型[2] - 但历史模型均未被整合进ChatGPT和Sora 因技术及计算成本限制 生成音乐与人类创作仍有差距[2] 全球AI音乐行业竞争格局 - 音乐生成技术因算力和模型架构进步迎来实用化 成为文本与视频后的新一轮AI竞赛焦点[3] - 谷歌于今年5月推出第二代音乐制作模型Lyria 同样强调为广告制作配乐的功能[3] - 初创公司Suno和Udio已实现商业化 Suno年经常性收入达1.5亿美元 较一年前增长近四倍[3] - 中国AI音乐模型迅速崛起 包括字节跳动Seed-Music 阿里InspireMusic 昆仑万维Mureka O1 腾讯SongGeneration等[3] - MiniMax于9月12日上线Music1.5模型 实现强控制力 人声自然 编曲丰富 结构清晰四大突破[4]
OpenAI放大招:进军音乐模型
财联社· 2025-10-25 22:40
OpenAI音乐模型开发现状 - OpenAI正积极开发AI音乐模型,工程师与茱莉亚音乐学院学生合作进行乐谱标注以获取训练数据[2] - 模型探讨利用文本和音频提示词生成音乐,例如为现有声乐曲目添加吉他伴奏,旨在降低短视频配乐等内容创作门槛[2] - 音乐模型具备商业化潜力,广告公司可用其创作广告歌词和旋律,助力公司向广告领域拓展[4] - OpenAI在音乐领域早有布局,2019年推出音乐生成模型MuseNet,2020年发布会唱歌的Jukebox模型[4] - 但MuseNet和Jukebox均未被整合进ChatGPT和Sora,因技术及计算成本限制,其生成音乐与人类创作仍有差距[6] - 公司拥有超过8亿活跃用户,音乐模型将帮助构建更全面的AI生态系统,进一步提升用户黏性[3] 全球AI音乐行业竞争格局 - 随着算力和模型架构进步,音乐生成技术迎来实用化可能,成为继文本与视频后的新一轮AI技术竞赛焦点[7] - 谷歌于今年5月推出第二代音乐制作模型Lyria,特别强调可为广告制作配乐,与OpenAI商业化方向高度重合[7] - 初创公司Suno和Udio的AI音乐生成产品已成功商业化,Suno成立仅三年,年经常性收入达1.5亿美元,比一年前增长近四倍[7] 中国AI音乐模型发展 - 中国AI音乐模型迅速崛起,去年字节跳动豆包大模型团队推出具备灵活控制能力的音乐生成模型家族Seed-Music[9] - 今年初阿里通义实验室开源音乐生成模型InspireMusic,旨在打造集音乐生成、歌曲生成、音频生成能力为一体的开源AIGC工具包[9] - 3月26日昆仑万维发布全球首款音乐推理大模型Mureka O1,多项性能超越Suno V4、登顶SOTA[10] - 6月16日腾讯AI Lab开源SongGeneration音乐生成大模型,专注解决音乐AIGC中音质、音乐性与生成速度三大共性难题[11] - 9月12日MiniMax上线音乐生成模型Music1.5,实现强控制力、人声自然饱满、编曲层次丰富、歌曲结构清晰四大新突破[12]
OpenAI要用AI“创作音乐” ,加剧与谷歌及初创公司竞争
华尔街见闻· 2025-10-25 11:13
公司战略与产品扩张 - 公司正开发音乐生成AI,以拓展产品线并探索新的收入增长点 [1] - 此举旨在延长其超过8亿用户的日常使用时长,是构建多元化产品生态战略的延续 [1][2] - 公司视频应用Sora在上线不到五天内获得一百万次下载,增长速度超过ChatGPT首次亮相时 [3] - 公司还在聊天机器人内部开发类似社交媒体的信息流功能,以提升用户粘性 [3] 市场竞争格局 - 公司进入AI音乐生成领域将直接与谷歌及其第二代音乐制作模型Lyria竞争 [2] - 公司还将面临来自专业AI音乐初创公司Suno和Udio的挑战 [2] - 初创公司Suno的年化经常性收入已达到约1.5亿美元,相较一年前增长近四倍 [2] 产品功能与应用前景 - 音乐生成AI将使公司的功能超越现有ChatGPT仅能生成歌词、和弦等文本内容的局限 [2] - 产品可能允许通过文本和音频提示生成音乐,例如为已有的人声轨道添加吉他伴奏 [4] - 产品可帮助普通用户为视频内容配乐,并为广告行业等企业级客户提供高效创作工具 [4] - 公司内部曾探讨过让AI工具进行歌词创意构思、基于音乐样本创作广告歌曲等应用 [4] 行业挑战与版权问题 - 版权问题是所有AI音乐生成参与者必须面对的关键挑战 [1] - 美国唱片业协会已对Suno和Udio提起诉讼,指控其未经许可使用受版权保护的歌曲训练模型,并要求每首侵权歌曲赔偿最高15万美元 [4] - 环球音乐和华纳音乐已在与初创公司及谷歌就AI授权协议进行谈判 [5] - 公司已在现有产品中采取预防措施,如ChatGPT不分享某些歌曲的完整歌词,并考虑与版权所有者分享部分收入 [5]
GoogleI/OConnectChina2025:智能体加持,开发效率与全球化双提升
海通国际证券· 2025-08-22 14:30
行业投资评级 - 报告未明确给出具体的行业投资评级 [1] 核心观点 - Google I/O Connect China 2025大会展示了AI模型创新、开发工具升级与全球化平台生态的重要进展 重点包括Gemini 2 5系列在多模态处理与响应速度上的提升 Gemma开放模型系列的多场景应用以及AI开发工具链的全面智能化升级 [1] - Gemini 2 5架构通过统一嵌入表示与跨模态注意力机制显著提升多模态理解与生成的准确性 并集成链式推理与结构化推理模块增强复杂任务的逻辑一致性和多步推理能力 [2] - Gemma系列模型基于Transformer架构 在参数规模、推理优化与许可协议上更具开放性 支持开发者在医疗、教育、语音交互等特定领域进行二次训练 其衍生模型如MedGemma、DolphinGemma和Gemma 3n分别聚焦医学语料、动物声学研究和轻量化端侧部署 [3] - Google将AI智能体功能深度集成到Firebase Studio、Android Studio和Chrome DevTools等核心开发工具中 形成全新工作流 显著提升开发效率与调试能力 [4][7] - 海外生成式模型如Lyria、Veo3、Imagen 4在音乐、视频、图像生成方面的一致性及多模态交互能力较国内模型更成熟 为内容出海团队提供强大生产力工具 [4] 技术架构创新 - Gemini 2 5实现文本、图像、音频和视频的统一嵌入表示与跨模态注意力机制 使开发者能够直接输入多模态提示并在同一向量空间进行联合推理 避免信息割裂 [2] - Gemini 2 5集成链式推理与结构化推理模块 通过中间表征增强逻辑一致性 在复杂任务的多步推理中表现突出 [2] - Gemma 3n通过剪枝、量化和蒸馏技术实现轻量化 仅需2GB内存即可在端侧设备流畅运行 [3] 开发工具升级 - Firebase Studio智能体模式利用任务分解与代码生成技术 可根据自然语言需求自动生成应用原型并递进式完成功能扩展与bug修复 [4][7] - Android Studio引入BYOM功能 允许开发者自由选择Gemini Nano、Gemma或第三方模型在统一IDE环境中进行训练与调试 [4][7] - Chrome DevTools内置Gemini助理 可直接在浏览器环境中进行语义分析与代码修正 快速解决CSS布局或跨浏览器兼容性问题 [4][7] 多场景应用拓展 - MedGemma聚焦医学语料与临床对话 在问答和影像理解任务上表现优异 [3] - DolphinGemma探索动物声学 首度建立海豚语大模型 [3] - Imagen 4在图像生成方面展示出强大能力 为电商营销和游戏出海企业提供高效内容生产工具 [4][8] 全球化生态建设 - Google通过开放海外生成式模型能力 强化内容创作生态 吸引内容出海团队使用其工具提升短视频、电商营销和游戏出海的效率 [4] - 与Trip com合作开发AI旅行助手 展示AI智能体在垂直领域的应用潜力 [13]
「人类飞机上吵架看呆袋鼠」刷屏全网,7000万人被AI耍了
机器之心· 2025-06-16 17:10
AI生成内容的真实性挑战 - 一段AI生成的袋鼠登机视频在X平台获得7460万次观看 Instagram点赞量达1104万次 因动物行为逼真引发广泛传播[4][5] - 视频存在多处AI痕迹 包括登机牌文字乱码 人物使用虚构语言 空乘胸牌无名 乘客戒指突然出现等细节漏洞[5][7][9] - 视频来源账号InfiniteUnreality专门制作超现实AI动物内容 如飞机座椅上的河马 登机长颈鹿等[13][16] 用户误判AI内容的原因 - 谷歌Veo3等技术已实现高清自然影像生成 包括眨眼 头部微动作协调及逼真音效 大幅提升欺骗性[18] - 创作者虽标注AI标签但采用隐蔽符号(∞) 多数用户难以识别 二次传播者常省略AI声明[19][21] - 用户玩梗行为加剧误导 如评论"袋鼠日常"等调侃形成真实性印象叠加 少数质疑声被淹没[24] 真实内容被反向误认为AI的案例 - 博主将12年前Tim Minchin真实演唱会视频伪称为Veo3生成 提示词详细描述哥特钢琴家场景[28][29] - 类似操作包括用Vitas真实影像假冒AI生成 显示当前真伪判断已进入双向混淆阶段[32] AI内容鉴伪技术发展 - 谷歌推出SynthID工具 通过数字水印识别Gemini Imagen等自家AI生成内容 抗裁剪/转格式干扰[35][36] - 该技术局限在于仅适用于谷歌系模型 对ChatGPT Midjourney等第三方AI内容无效 且恶意编辑可能破坏水印[37][38]
Google's SynthID is the latest tool for catching AI-made content. what is AI 'watermarking,' and does it work?
TechXplore· 2025-06-03 21:43
谷歌SynthID工具 - 谷歌推出SynthID Detector工具 可检测AI生成的文本、图像、视频或音频内容 但当前仅通过候补名单向"早期测试者"开放 [1] - SynthID主要适用于谷歌AI服务生成的内容 如Gemini文本、Veo视频、Imagen图像或Lyria音频 无法检测ChatGPT等非谷歌AI生成内容 [2] - 该工具通过识别谷歌AI产品输出的数字水标来检测AI内容 而非直接区分AI与人类创作 [3] 数字水印技术 - 数字水印是嵌入在媒体内容中的机器可读元素 用于追踪内容来源和作者身份 在创意作品确权和应对媒体虚假信息方面有应用 [4] - SynthID将不可见水印嵌入AI模型输出 其他工具可通过水印识别经SynthID处理的AI内容 [5] - 包括Meta在内的多家公司开发了类似水印工具 但均为"模型特定"方案 缺乏统一标准 [5][6] AI检测技术现状 - 现有检测方法还包括元数据分析(如Content Credentials工具) 但元数据易在社交媒体上传或格式转换时丢失 [8] - 部分工具依赖视觉不一致等法医线索 或人工判断方法(如计算AI生成图像的手指数量) 这些方法可能随AI性能提升而失效 [9] - 检测工具对纯AI生成内容效果较好 但对AI编辑人类创作的内容准确率显著下降 存在误判风险 [10] 应用场景与挑战 - AI检测工具在保险理赔验证、新闻事实核查、招聘真实性评估、约会诈骗识别及紧急响应决策等领域具有应用价值 [12][13] - 实时音频视频AI检测工具成为迫切研发方向 静态水印技术已不足以应对实时真实性挑战 [14] - 任何场景下都无法完全依赖单一工具进行真实性判断 需结合工具局限性和上下文知识进行综合评估 [15]
一文读懂Google I/O 2025 开发者大会:开启 “模型即平台” 的 AI 生态新时代
华尔街见闻· 2025-05-21 18:38
谷歌AI战略升级 - 公司全面拥抱AI智能体技术,将Gemini模型深度整合至搜索、Gemini助手等核心业务,推出全新AI模式搜索[1][2][27] - 强调Gemini 2.5 Pro为当前最强通用AI模型,在LLM Arena测评中所有类别排名第一,App月活用户超4亿[19][20][23][24] - 智能体模式(Agent Mode)支持多任务管理(如同时处理10个任务),实验版将向Gemini订阅用户开放[29][30] Gemini模型技术突破 - Gemini 2.5 Pro与Flash双模型协同:Pro侧重高性能,Flash速度更快、成本降低22%,支持"思考预算"机制[3][39] - 多模态能力升级:支持原生音频输出(2种声音)、实时翻译(Google Meet已上线英西互译)、草图转3D动画编码[34][38][41] - 实时语音助手Gemini Live支持45种语言,具备环境音分离、多任务处理(如找房订票)及跨App操作能力[32][35] 开发者工具与平台创新 - AI Studio新增URL Context功能(支持20个链接提取)、原生语音模型及增强函数调用,加速语音助手/游戏开发[6][7][8] - 实验项目Stitch实现文本提示生成App UI设计并一键导出至Figma/IDE,Canvas功能可将文档转为互动网页[4][5][33] - 编码智能体Jules开放公测,支持异步函数调用;Gemini Diffusion文本生成速度提升5倍,处于实验阶段[40][41] 搜索与用户体验革新 - AI模式搜索支持数百字复杂查询,结构化答案整合地图/评论/视频,美国用户已可体验"深度搜索"功能[47][48][49] - AI概览(AI Overviews)月活15亿用户,推动部分查询量增长10%,未来将逐步融入核心搜索[47][50] - Android XR生态推出智能眼镜(物体识别/语音控制)与Moohan头显(沉浸式地图),联合Gentle Monster等厂商[58][59][60] 内容创作与多模态技术 - Imagine 4图像模型细节提升10倍,支持中英复杂字体;Veo 3视频模型实现角色一致性/口型同步/镜头控制[52][53] - Flow平台联合电影人开发,支持AI生成剧本/镜头/配乐;Lyria音频模型可创作专业音乐并与视频协同[54][56][57] - Google Beam视频通信平台采用6摄像头阵列+AI渲染,实现毫米级头部追踪与60fps 3D画面[37] 商业化与订阅服务 - 推出Google AI Ultra订阅套餐(249.99美元/月),包含Gemini高级模型、30TB存储及YouTube Premium等权益[62][63][64] - 惠普将商业化Google Beam设备,Gemini 2.5 Flash模型6月面世,Deep Think模型限测试人员开放[37][39]
一文读懂Google I/O 2025 开发者大会:“降低门槛、加速创造”,谷歌开启 “模型即平台” 的 AI 生态新时代
硬AI· 2025-05-21 11:29
Google I/O 2025核心发布 - Gemini 2 5 Pro被定位为公司最强大的通用AI模型 在LLM Arena所有类别排行榜名列前茅[22][24] - Gemini系列模型每月处理token数量从9 7万亿激增至480万亿 增长近50倍 每月活跃用户超4亿[24] - 公司推出Gemini 2 5 Flash轻量版模型 效率提升22% 支持"思考预算"机制控制输出质量与响应速度[6][39][40] 跨平台AI引擎整合 - Android平台深度整合Gemini Nano 提供summarize等轻量功能 同时推出Androidify应用生成机器人形象[17][19] - 新UI系统Material 3 Expressive增强界面趣味性 Android 16引入live updates等性能优化工具[20] - 智能眼镜Moohan支持沉浸式地图和交互式Gemini AI 合作伙伴包括Gentle Monster和Warby Parker[63][64][65] AI开发工具升级 - AI Studio新增原生语音模型支持24种语言 增强函数调用与搜索推理功能[9][11] - Stitch实验项目实现文本提示自动生成App UI设计 可导出至Figma或IDE继续开发[7][8] - Cloud Run支持一键部署应用到线上 集成至VS Code等IDE[16] 多模态与创作突破 - Imagine 4图像模型细节捕捉能力提升 支持中英文复杂字体识别 生成速度快10倍[56] - Veo 3视频模型实现角色一致性控制 可自动合成环境音与对白 口型同步[56][57] - Lyria音频模型结合Music AI Sandbox可生成专业音乐 Flow平台支持AI视频全流程制作[61] 搜索与智能体革新 - 搜索新增AI模式标签页 支持数百字复杂查询 采用Deep Research模型提供结构化答案[46][47][51] - 智能体模式可同时管理10个任务 实验版将向Gemini订阅用户开放[27][29][30] - AI概览功能月活达15亿 推动部分查询量增长10%[46] 订阅与商业化 - Google AI Ultra套餐月费249 99美元 包含Gemini模型最高使用权限及30TB存储空间[69][70][71] - Google Beam视频通信平台采用六摄像头阵列实现毫米级精度3D渲染 将与惠普合作商业化[37]