语音交互即服务 - 财报，业绩电话会，研报，新闻

语音交互即服务

搜索文档

量子位· 2025-03-07 15:12

核心观点 - 声网推出超低延迟实时对话式AI引擎，支持DeepSeek等大模型接入，仅需两行代码即可实现高质量语音交互[2][3] - 该引擎每分钟成本仅0.098元，单次对话平均成本3分钱，月成本不足5毛钱，年成本5元，价格极具竞争力[3][5] - 技术突破包括响应延迟中位数650毫秒，打断响应低至340ms，支持嘈杂环境和弱网条件下的稳定交互[7][8][9][10] - 开发者可在15分钟内完成AI语音交互功能部署，支持全球主流大模型和语音合成供应商的灵活切换[11][13][14] - 声网定位为"AI语音交互中间件"，开创"语音交互即服务"新模式，推动生成式AI行业变革[17][19][22] 技术性能 - 关键延迟指标：对话响应延迟中位数650毫秒，远低于1.7秒的体验阈值[7][8] - 打断功能：支持自然打断，响应时间低至340ms，模拟人类对话节奏[9] - 抗干扰能力：可屏蔽95%环境噪声，在嘈杂场所保持对话质量[9] - 弱网适应：80%丢包率下仍可稳定交流，断网3-5秒不影响流畅度[10] - 全球覆盖：依托200+数据中心的SD-RTN网络实现跨区域低延迟[10] 成本优势 - 按用量付费模式：每分钟0.098元，单次赠送1000分钟[3] - 单次对话成本：平均3轮问答/21.1秒，成本3分钱[5] - 月成本：15次对话场景下不足5毛钱，年成本5元[5] - 无使用上限：支持百万级用户规模的多模态AI应用[5] 开发者体验 - 极简接入：2行核心代码即可完成大模型对接[2][11] - 快速部署：15分钟实现从零到完整AI Agent部署[11] - 模型兼容：支持全球主流大模型厂商，与OpenAI协议兼容[13] - 音色定制：可接入语音合成供应商的自定义音色[14] - 硬件适配：音视频SDK支持30000+终端机型，覆盖中低端设备[16] 行业影响 - 模式创新：开创"语音交互即服务"新业态，实现RTC与大模型技术解耦[17][18] - 生态定位：通过统一API接口成为"AI语音交互中间件"[19] - 基础设施：为多模态实时交互的Agent应用提供关键技术支撑[21] - 行业推动：加速"让所有AI都能开口说话"的生成式AI变革[22]