全双工语音交互
搜索文档
小红书发布FireRedChat:首个可私有化部署的全双工大模型语音交互系统
搜狐财经· 2025-10-03 22:28
产品发布核心 - 小红书智创音频团队推出业内首个支持私有化部署的全双工大模型语音交互系统FireRedChat [2] - 该系统旨在解决延迟高、噪声敏感、可控性差、依赖外部API等行业痛点 [2] - 提供级联与半级联两套端到端服务部署方案,覆盖从稳定易部署到更有温度的不同需求 [2] 技术架构与核心能力 - 基于交互控制器+交互模块+对话管理器的完整架构,可将任意半双工链路一键升级为全双工 [2][11] - 集成自研流式个性化打断pVAD、语义判停EoT、FireRedTTS-1s、FireRedASR、FireRedTTS2等核心模型 [2][11] - 轮次转换控制器基于pVAD与EoT,实时判断对话秩序,显著降低噪声与多说话人场景下的误打断 [11] - 交互模块支持级联模式与半级联模式,后者通过AudioLLM直达语音语义与情感,生成更贴心回应 [7][11] - 对话管理器支持工具调用、RAG检索增强、插件扩展与工作流管理,并内置与Dify的集成样例 [11] 性能优势与实验数据 - 在打断准确率方面,pVAD将误打断率降至10.2%,显著优于LiveKit的33.4%和Ten的78.1% [15] - 语义端点检测准确率方面,EoT在中文和英文上的平均准确率分别达到96.0%和94.9% [16] - 端到端延迟方面,本地级联部署下的P50延迟为2.341秒,P95延迟为3.015秒,逼近工业级闭源系统 [17] 情感交互与用户体验 - 系统能细腻感知用户情绪变化,在用户失落时安慰鼓励,惊喜时共情分享,开心时陪伴欢笑 [4][8] - 通过AudioLLM与FireRedTTS2的联动,捕捉用户声学线索,在回应中自然体现关怀与共情 [8] - 让AI聊天助手不仅能回应文字,更能用富有温度的声音和表达方式,带来被理解、被陪伴的真实感受 [4] 开源与部署策略 - 核心模块TTS、ASR、pVAD、EoT全部开放,无需API费用与外部依赖,坚持彻底开源 [12] - 支持在企业私有环境一键部署,确保数据资产不出域,满足安全合规可审计要求 [12] - 基于LiveKit的清晰模块化设计与完善文档,使普通用户即开即用,开发者可快速二次开发 [12] 应用场景 - 智能语音助手场景可实现自然打断、即时回应,贴近真人对话节奏 [14] - 客服与外呼场景在商场、车站等复杂声场仍能稳定识别与响应 [14] - 教育与心理陪伴场景因情绪感知与表达丰富度而带来更强的同理心体验 [14]
WAIC 2025现场,惊喜是Soul「活人感」AI给的
36氪· 2025-07-28 18:35
AI社交与情绪价值 - Soul App在WAIC 2025展出的虚拟人对话展示出高度自然交互能力,包括主动打破沉默、引导话题、使用语气词等,被观众评价为"情绪价值满满" [3][6] - 行业趋势显示,2025年提供情绪价值的AI社交和陪伴型机器人厂商展台热度显著,OpenAI CEO奥特曼曾以电影《Her》为例肯定AI情感交互的预言性 [6] - 期刊研究证实AI伴侣能有效缓解孤独感,效果与真人互动相当,核心机制是通过"被倾听感"实现共情,AI社交应用中提及孤独的评论比例显著高于通用AI且与高评分正相关 [8] 全双工交互技术突破 - Soul于2024年7月升级自研端到端全双工语音大模型,摒弃传统VAD机制,实现AI自主决策对话节奏,支持边听边说、主动打断等类现实交互 [7] - 谷歌Gemini Live API和Meta AI App均探索全双工技术,Soul通过多人语音交互场景(如群聊派对AI主持)进一步拓展应用边界 [7][13] - 全双工技术赋予AI主体性,使人机关系从工具升级为"互为主体"的共创伙伴,推动高阶情感链接 [10] Soul的AI社交战略壁垒 - 公司聚焦垂类模型研发,避开通用大模型竞争,重点布局超拟人、情感化、多模态交互技术,2023年推出Soul X大模型后陆续上线语音生成、音乐生成等垂直能力 [12] - 平台18%的用户发帖包含真实社交困境内容,构成独特的"社交样本库",使AI能理解共鸣与倾听,避免书面化表达违和感 [13] - 技术+数据+场景三重优势:基于Z世代社交需求洞察,早期推出灵犀引擎构建关系模型,并快速将全双工技术落地至1V1/多人互动场景 [11][13] 行业方向与产品哲学 - AI社交核心是构建"真人感",需实现倾听、理解、共情等人类特质,Soul通过全双工音视频能力追求交互沉浸感与情绪价值产出 [9] - 公司定位AI为社交网络组成部分而非工具,技术方向包括情感识别、长记忆、心智理论等能力集合,支撑AI Agent生态 [12] - 电影《Her》的2025年设定与当前行业巧合呼应,用户与AI共创回忆的时间积累成为情感关系新范式 [15]