Workflow
FireRedChat
icon
搜索文档
小红书发布FireRedChat:首个可私有化部署的全双工大模型语音交互系统
搜狐财经· 2025-10-03 22:28
产品发布核心 - 小红书智创音频团队推出业内首个支持私有化部署的全双工大模型语音交互系统FireRedChat [2] - 该系统旨在解决延迟高、噪声敏感、可控性差、依赖外部API等行业痛点 [2] - 提供级联与半级联两套端到端服务部署方案,覆盖从稳定易部署到更有温度的不同需求 [2] 技术架构与核心能力 - 基于交互控制器+交互模块+对话管理器的完整架构,可将任意半双工链路一键升级为全双工 [2][11] - 集成自研流式个性化打断pVAD、语义判停EoT、FireRedTTS-1s、FireRedASR、FireRedTTS2等核心模型 [2][11] - 轮次转换控制器基于pVAD与EoT,实时判断对话秩序,显著降低噪声与多说话人场景下的误打断 [11] - 交互模块支持级联模式与半级联模式,后者通过AudioLLM直达语音语义与情感,生成更贴心回应 [7][11] - 对话管理器支持工具调用、RAG检索增强、插件扩展与工作流管理,并内置与Dify的集成样例 [11] 性能优势与实验数据 - 在打断准确率方面,pVAD将误打断率降至10.2%,显著优于LiveKit的33.4%和Ten的78.1% [15] - 语义端点检测准确率方面,EoT在中文和英文上的平均准确率分别达到96.0%和94.9% [16] - 端到端延迟方面,本地级联部署下的P50延迟为2.341秒,P95延迟为3.015秒,逼近工业级闭源系统 [17] 情感交互与用户体验 - 系统能细腻感知用户情绪变化,在用户失落时安慰鼓励,惊喜时共情分享,开心时陪伴欢笑 [4][8] - 通过AudioLLM与FireRedTTS2的联动,捕捉用户声学线索,在回应中自然体现关怀与共情 [8] - 让AI聊天助手不仅能回应文字,更能用富有温度的声音和表达方式,带来被理解、被陪伴的真实感受 [4] 开源与部署策略 - 核心模块TTS、ASR、pVAD、EoT全部开放,无需API费用与外部依赖,坚持彻底开源 [12] - 支持在企业私有环境一键部署,确保数据资产不出域,满足安全合规可审计要求 [12] - 基于LiveKit的清晰模块化设计与完善文档,使普通用户即开即用,开发者可快速二次开发 [12] 应用场景 - 智能语音助手场景可实现自然打断、即时回应,贴近真人对话节奏 [14] - 客服与外呼场景在商场、车站等复杂声场仍能稳定识别与响应 [14] - 教育与心理陪伴场景因情绪感知与表达丰富度而带来更强的同理心体验 [14]
小红书发布FireRedChat:首个可私有化部署的全双工大模型语音交互系统
机器之心· 2025-10-02 11:12
核心观点 - 小红书智创音频团队推出业内首个支持私有化部署的全双工大模型语音交互系统FireRedChat,旨在解决延迟高、噪声敏感、可控性差等痛点 [2] - 该系统通过自研技术实现“快速打断,智能判停,实时响应”的自然对话能力,并具备情绪感知与情感合成功能 [5] - FireRedChat提供彻底开源、可私有化部署的解决方案,在多项关键性能指标上领先其他开源框架,端到端时延逼近工业级应用 [17][22][24] 技术架构与核心突破 - 系统基于“交互控制器+交互模块+对话管理器”的完整架构,可将任意半双工链路升级为全双工 [2] - 集成自研流式个性化打断pVAD、语义判停EoT、FireRedTTS-1s、FireRedASR、FireRedTTS2等核心模型 [2] - 首创“全双工 + 私有化”组合,完整覆盖从音频输入到语音合成的全链路 [10] - 提供级联与半级联两套端到端服务部署方案,兼顾成熟度与体验,满足不同业务场景需求 [10] - 通过AudioLLM与FireRedTTS2联动,系统可捕捉用户声学线索,在回应中体现关怀与共情 [11] 性能优势 - 在打断准确率方面,pVAD显著减少误打断,FireRedChat的误打断率为10.2%,优于LiveKit的33.4%和Ten的78.1% [20][21] - 语义端点检测准确率方面,FireRedChat在中文和英文上的平均准确率分别达到96.0%和94.9%,优于对比系统 [22] - 端到端延迟方面,FireRedChat的P50延迟为2.341秒,P95延迟为3.015秒,表现优于LiveKit等开源框架 [24] 应用场景 - 适用于智能语音助手、客服与外呼、教育与心理陪伴等场景 [23] - 在复杂声场中仍能保持稳定识别与响应,情绪感知功能可带来更强的同理心体验 [23]
没想到,音频大模型开源最彻底的,居然是小红书
机器之心· 2025-09-17 17:37
开源AI音频模型发展现状 - 近几个月国内科技公司开源成为主旋律 七八月国内厂商接连开源33款和31款各类型大模型 主要集中在文本、图像、视频、推理、智能体及世界模型领域 音频生成占比很小[1] - 音频生成面临技术和数据特殊挑战 音频信号计算建模复杂 数据获取难度更大 同时出于安全版权风险考量 OpenAI、ElevenLabs等主流玩家选择闭源或半开源[2] 小红书音频开源技术成果 - 小红书技术团队自去年起在音频领域保持稳定开源节奏 推出FireRedTTS和FireRedASR等系统级音频能力 取得SOTA级别效果并具备工业级可商用属性[3] - FireRedTTS语音合成系统构建基座语音合成框架 只需给定文本和几秒参考音频即可模仿任意音色和说话风格 实现自由定制[6] - FireRedASR语音识别系统包含两个模型 FireRedASR-LLM追求极致识别精度 FireRedASR-AED兼顾准确率与推理效率[6] - 在AISHELL-1/2、WenetSpeech等中文普通话测试集上 FireRedASR字错率(CER)为3.05% 优于豆包Seed-ASR的3.33%和阿里通义Qwen3-ASR-Flash的3.52%[7][8] - 新一代FireRedTTS-2解决语音合成现有方案痛点 在音色克隆、交互式对话和播客生成的主客观测评中实现行业领先 成为当前最强开源播客生成大模型[9][11] - FireRedTTS-2在zero-shot播客生成中全面优于MoonCast、ZipVoice-Dialogue、MOSS-TTSD等开源竞品 支持4位说话人多轮对话生成 可通过扩展数据进一步扩展[14] - 推出业内首个完全开源的全双工语音对话系统FireRedChat 在智能判停与延迟等关键指标达到开源SOTA 端到端性能接近工业级水准[17] - FireRedChat一站式提供VAD、ASR、TTS、上下文感知TTS、音频LLM、Dify支持等核心模块 支持私有化部署 为非专业人士提供快速部署语音助手能力[17] 小红书开源战略布局 - 小红书通过开放高质量音频模型提升技术影响力与话语权 将开源作为长期战略布局 构建高粘性音频大模型开源社区[4] - 围绕文本转语音、语音识别和语音对话形成完整技术栈 探索出以FireRedASR技术为支撑的语音评论等新功能 提升用户粘性与互动趣味性[18] - 开源覆盖语音交互核心环节 从TTS、ASR到语音对话技术矩阵日趋完善 未来计划推出音乐大模型FireRedMusic、多语种语音识别系统FireRedASR-2及音频感知大模型[22] - 开源从模型层走向体系层 扩展至全链路模块 提供系统化能力 降低开发者集成与部署门槛 扩大音频生态创新边界[22] - 目标是建立首个工业级可商用音频大模型开源社区 涵盖语音识别理解、语音音效生成、全双工语音交互、音乐理解生成四大方向[23] - 工业级可商用属性释放更大价值 开发者和企业用户可直接部署使用 缩短技术到产品周期 降低试错成本[23] - 通过开源生态与全球开发者协同进化 推动行业标准演进 为全球创作者创造价值 开启内容生产新范式[23] 开源生态行业影响 - 开源让先进AI能力不再被少数巨头垄断 沉淀为行业共享底层资源 推动大模型技术跃迁[25] - 在开源生态中 模型框架和工具快速迭代自由组合 通过更多创新尝试加快新技术落地 尤其在AI应用长尾场景中 社区广泛参与推动AI从实验室走向产业化[25] - 小红书通过开源持续推动音频大模型技术演进 释放前沿能力 实现技术平权 为开发者和中小企业提供平等技术起点[25] - 在开源生态主导权上的长远布局 为小红书在未来AI音频市场竞争中抢占先机[26]