全双工大模型语音交互
搜索文档
小红书发布FireRedChat:首个可私有化部署的全双工大模型语音交互系统
机器之心· 2025-10-02 11:12
核心观点 - 小红书智创音频团队推出业内首个支持私有化部署的全双工大模型语音交互系统FireRedChat,旨在解决延迟高、噪声敏感、可控性差等痛点 [2] - 该系统通过自研技术实现“快速打断,智能判停,实时响应”的自然对话能力,并具备情绪感知与情感合成功能 [5] - FireRedChat提供彻底开源、可私有化部署的解决方案,在多项关键性能指标上领先其他开源框架,端到端时延逼近工业级应用 [17][22][24] 技术架构与核心突破 - 系统基于“交互控制器+交互模块+对话管理器”的完整架构,可将任意半双工链路升级为全双工 [2] - 集成自研流式个性化打断pVAD、语义判停EoT、FireRedTTS-1s、FireRedASR、FireRedTTS2等核心模型 [2] - 首创“全双工 + 私有化”组合,完整覆盖从音频输入到语音合成的全链路 [10] - 提供级联与半级联两套端到端服务部署方案,兼顾成熟度与体验,满足不同业务场景需求 [10] - 通过AudioLLM与FireRedTTS2联动,系统可捕捉用户声学线索,在回应中体现关怀与共情 [11] 性能优势 - 在打断准确率方面,pVAD显著减少误打断,FireRedChat的误打断率为10.2%,优于LiveKit的33.4%和Ten的78.1% [20][21] - 语义端点检测准确率方面,FireRedChat在中文和英文上的平均准确率分别达到96.0%和94.9%,优于对比系统 [22] - 端到端延迟方面,FireRedChat的P50延迟为2.341秒,P95延迟为3.015秒,表现优于LiveKit等开源框架 [24] 应用场景 - 适用于智能语音助手、客服与外呼、教育与心理陪伴等场景 [23] - 在复杂声场中仍能保持稳定识别与响应,情绪感知功能可带来更强的同理心体验 [23]