开源AI音频模型发展现状 - 近几个月国内科技公司开源成为主旋律 七八月国内厂商接连开源33款和31款各类型大模型 主要集中在文本、图像、视频、推理、智能体及世界模型领域 音频生成占比很小[1] - 音频生成面临技术和数据特殊挑战 音频信号计算建模复杂 数据获取难度更大 同时出于安全版权风险考量 OpenAI、ElevenLabs等主流玩家选择闭源或半开源[2] 小红书音频开源技术成果 - 小红书技术团队自去年起在音频领域保持稳定开源节奏 推出FireRedTTS和FireRedASR等系统级音频能力 取得SOTA级别效果并具备工业级可商用属性[3] - FireRedTTS语音合成系统构建基座语音合成框架 只需给定文本和几秒参考音频即可模仿任意音色和说话风格 实现自由定制[6] - FireRedASR语音识别系统包含两个模型 FireRedASR-LLM追求极致识别精度 FireRedASR-AED兼顾准确率与推理效率[6] - 在AISHELL-1/2、WenetSpeech等中文普通话测试集上 FireRedASR字错率(CER)为3.05% 优于豆包Seed-ASR的3.33%和阿里通义Qwen3-ASR-Flash的3.52%[7][8] - 新一代FireRedTTS-2解决语音合成现有方案痛点 在音色克隆、交互式对话和播客生成的主客观测评中实现行业领先 成为当前最强开源播客生成大模型[9][11] - FireRedTTS-2在zero-shot播客生成中全面优于MoonCast、ZipVoice-Dialogue、MOSS-TTSD等开源竞品 支持4位说话人多轮对话生成 可通过扩展数据进一步扩展[14] - 推出业内首个完全开源的全双工语音对话系统FireRedChat 在智能判停与延迟等关键指标达到开源SOTA 端到端性能接近工业级水准[17] - FireRedChat一站式提供VAD、ASR、TTS、上下文感知TTS、音频LLM、Dify支持等核心模块 支持私有化部署 为非专业人士提供快速部署语音助手能力[17] 小红书开源战略布局 - 小红书通过开放高质量音频模型提升技术影响力与话语权 将开源作为长期战略布局 构建高粘性音频大模型开源社区[4] - 围绕文本转语音、语音识别和语音对话形成完整技术栈 探索出以FireRedASR技术为支撑的语音评论等新功能 提升用户粘性与互动趣味性[18] - 开源覆盖语音交互核心环节 从TTS、ASR到语音对话技术矩阵日趋完善 未来计划推出音乐大模型FireRedMusic、多语种语音识别系统FireRedASR-2及音频感知大模型[22] - 开源从模型层走向体系层 扩展至全链路模块 提供系统化能力 降低开发者集成与部署门槛 扩大音频生态创新边界[22] - 目标是建立首个工业级可商用音频大模型开源社区 涵盖语音识别理解、语音音效生成、全双工语音交互、音乐理解生成四大方向[23] - 工业级可商用属性释放更大价值 开发者和企业用户可直接部署使用 缩短技术到产品周期 降低试错成本[23] - 通过开源生态与全球开发者协同进化 推动行业标准演进 为全球创作者创造价值 开启内容生产新范式[23] 开源生态行业影响 - 开源让先进AI能力不再被少数巨头垄断 沉淀为行业共享底层资源 推动大模型技术跃迁[25] - 在开源生态中 模型框架和工具快速迭代自由组合 通过更多创新尝试加快新技术落地 尤其在AI应用长尾场景中 社区广泛参与推动AI从实验室走向产业化[25] - 小红书通过开源持续推动音频大模型技术演进 释放前沿能力 实现技术平权 为开发者和中小企业提供平等技术起点[25] - 在开源生态主导权上的长远布局 为小红书在未来AI音频市场竞争中抢占先机[26]
没想到,音频大模型开源最彻底的,居然是小红书
机器之心·2025-09-17 17:37