音频大模型
搜索文档
A16z 4100万美元领投Mirelo,重磅押注欧洲音频大模型
深思SenseAI· 2025-12-27 09:11
公司概况与融资 - 欧洲音频AI公司Mirelo AI近期完成4100万美元种子轮融资,由Andreessen Horowitz (a16z) 和 Index Ventures共同领投 [1][2][3] - 公司团队规模精干,目前仅有约10人 [1][17] - 公司由拥有约10年AI研究经验且兼具深厚音乐背景的联合创始人创立,结合了AI技术与音乐专长 [3][10] 业务与产品 - 公司核心业务是为视频内容和游戏生成全套音频,包括音乐和音效,主打“视频到音频”的自动生成与同步 [1][3][6] - 已开发两个核心模型:音乐模型和“视频到音效”模型,其中“视频到音效”模型在评测中表现领先,为同类最强 [1][6][12] - 产品形态分为面向创作者的B2C产品Mirelo Studio和面向平台/企业的B2B API [2][6][14] - 当前主要用户是AI视频创作者,用于为AI生成的视频添加音效和配乐,长期目标是服务更广泛的视频内容创作者及专业人士 [6][14] 技术策略与优势 - 公司选择自主研发音频基础模型,而非依赖现成的多模态技术栈,因两年前该领域几乎空白,专注音频有机会建立真正的模型优势 [7] - 音频模型相比大语言模型更为轻量高效,其参数量通常在10亿到100亿之间,算力需求比典型大语言模型少50倍 [8][9] - 竞争逻辑不同于大语言模型,音频模型的性能并不随规模爆炸式增长,因此竞争核心是模型研发能力而非资本规模,这为创业公司提供了对抗大实验室的机会 [13] - 创始人的音乐背景在模型构建中至关重要,影响了音乐的表征方式和架构设计,这构成了训练模型时的核心知识产权之一 [10] 市场认知与商业化路径 - 公司认为音频至关重要,引用乔治·卢卡斯的观点,强调声音至少占电影体验的50%,决定视频的氛围和情绪 [15][16] - 商业化采取双路径:通过Mirelo Studio服务消费者和创作者,同时通过API将模型能力提供给AI视频生成等平台 [14][15] - 目前增长势能最大的点是音效生成,因为需求明确且差异化显著,但未来音乐和音效将同步发展 [17] - 公司面临的市场挑战是需要教育市场,改变音频被视为“事后补丁”的现状,让创作者和平台更早、更重视地集成高质量音频 [20][21] 发展计划与愿景 - 获得融资后,公司计划扩大团队,重点招聘研究科学家、产品人员以及市场与销售人员,以支持技术和业务扩张 [19] - 产品路线图包括增强编辑能力、提升音质,目标是覆盖从AI爱好者到专业工作室的更广泛人群 [15][18] - 未来18-24个月的成功标准是推动市场广泛认识到音频对视频成功的重要性,并理解其经济价值,从而创造对高质量音频服务的更大需求 [20][21] - 公司坚持将核心技术团队放在欧洲,认为欧洲拥有优秀的科学家且竞争环境更有利,资本是欧洲过去的主要短板,而此次融资解决了该问题 [11][23]
没想到,音频大模型开源最彻底的,居然是小红书
机器之心· 2025-09-17 17:37
开源AI音频模型发展现状 - 近几个月国内科技公司开源成为主旋律 七八月国内厂商接连开源33款和31款各类型大模型 主要集中在文本、图像、视频、推理、智能体及世界模型领域 音频生成占比很小[1] - 音频生成面临技术和数据特殊挑战 音频信号计算建模复杂 数据获取难度更大 同时出于安全版权风险考量 OpenAI、ElevenLabs等主流玩家选择闭源或半开源[2] 小红书音频开源技术成果 - 小红书技术团队自去年起在音频领域保持稳定开源节奏 推出FireRedTTS和FireRedASR等系统级音频能力 取得SOTA级别效果并具备工业级可商用属性[3] - FireRedTTS语音合成系统构建基座语音合成框架 只需给定文本和几秒参考音频即可模仿任意音色和说话风格 实现自由定制[6] - FireRedASR语音识别系统包含两个模型 FireRedASR-LLM追求极致识别精度 FireRedASR-AED兼顾准确率与推理效率[6] - 在AISHELL-1/2、WenetSpeech等中文普通话测试集上 FireRedASR字错率(CER)为3.05% 优于豆包Seed-ASR的3.33%和阿里通义Qwen3-ASR-Flash的3.52%[7][8] - 新一代FireRedTTS-2解决语音合成现有方案痛点 在音色克隆、交互式对话和播客生成的主客观测评中实现行业领先 成为当前最强开源播客生成大模型[9][11] - FireRedTTS-2在zero-shot播客生成中全面优于MoonCast、ZipVoice-Dialogue、MOSS-TTSD等开源竞品 支持4位说话人多轮对话生成 可通过扩展数据进一步扩展[14] - 推出业内首个完全开源的全双工语音对话系统FireRedChat 在智能判停与延迟等关键指标达到开源SOTA 端到端性能接近工业级水准[17] - FireRedChat一站式提供VAD、ASR、TTS、上下文感知TTS、音频LLM、Dify支持等核心模块 支持私有化部署 为非专业人士提供快速部署语音助手能力[17] 小红书开源战略布局 - 小红书通过开放高质量音频模型提升技术影响力与话语权 将开源作为长期战略布局 构建高粘性音频大模型开源社区[4] - 围绕文本转语音、语音识别和语音对话形成完整技术栈 探索出以FireRedASR技术为支撑的语音评论等新功能 提升用户粘性与互动趣味性[18] - 开源覆盖语音交互核心环节 从TTS、ASR到语音对话技术矩阵日趋完善 未来计划推出音乐大模型FireRedMusic、多语种语音识别系统FireRedASR-2及音频感知大模型[22] - 开源从模型层走向体系层 扩展至全链路模块 提供系统化能力 降低开发者集成与部署门槛 扩大音频生态创新边界[22] - 目标是建立首个工业级可商用音频大模型开源社区 涵盖语音识别理解、语音音效生成、全双工语音交互、音乐理解生成四大方向[23] - 工业级可商用属性释放更大价值 开发者和企业用户可直接部署使用 缩短技术到产品周期 降低试错成本[23] - 通过开源生态与全球开发者协同进化 推动行业标准演进 为全球创作者创造价值 开启内容生产新范式[23] 开源生态行业影响 - 开源让先进AI能力不再被少数巨头垄断 沉淀为行业共享底层资源 推动大模型技术跃迁[25] - 在开源生态中 模型框架和工具快速迭代自由组合 通过更多创新尝试加快新技术落地 尤其在AI应用长尾场景中 社区广泛参与推动AI从实验室走向产业化[25] - 小红书通过开源持续推动音频大模型技术演进 释放前沿能力 实现技术平权 为开发者和中小企业提供平等技术起点[25] - 在开源生态主导权上的长远布局 为小红书在未来AI音频市场竞争中抢占先机[26]
AI集体“听不懂”!MMAR基准测试揭示音频大模型巨大短板
量子位· 2025-06-09 13:24
MMAR基准测试概述 - MMAR是一个包含1000道高质量问题的音频理解评估基准,要求模型具备多步骤深度推理能力[3] - 问题覆盖信号层、感知层、语义层和文化层四个推理层级,涉及真实场景的语音、音乐和环境声音混合[6] - 测试由上海交通大学、南洋理工大学、字节跳动等机构联合开发,标注过程经过严格审核[1][4] 模型表现分析 - 测试30款模型中,闭源模型Gemini 2.0 Flash以65.6%准确率领先,开源最佳Qwen-2.5-Omni仅56.7%[11] - 音乐相关任务表现最差,显示模型在旋律、节奏和作曲风格识别存在重大缺陷[12] - 显式推理模型(如Audio-Reasoner)性能普遍优于非推理模型,显示推理能力的关键作用[14] 技术瓶颈诊断 - 主要错误类型:感知错误(37%)、推理错误(20%)、知识缺失(9%)[19] - 噪声输入实验证实模型依赖真实音频输入,但Qwen-2.5-Omni暴露语言先验偏差问题[15] - 级联模型组合显示感知能力与推理能力存在协同效应[17] 行业发展趋势 - 闭源模型性能显著领先开源社区,当前开源方案未达实用水平[9][18] - 音视频全模态大模型展现出优于专用音频模型的潜力[20] - 需重点突破多说话人交互、复杂语义理解等场景的技术瓶颈[4][6] 测试方法论价值 - 首创多层级音频推理评估体系,涵盖物理信号到文化背景的完整维度[6] - 通过1000道高难度题目(如声学测井深、音乐家亲子关系判断)建立严格标准[4][5] - 为行业提供可量化的模型能力标尺,推动数据与算法协同创新[21]