Workflow
声网对话式AI引擎
icon
搜索文档
声网母公司2025年Q2财报:单季度净利润超千万,超一季度3倍以上
IPO早知道· 2025-08-19 09:50
财务表现 - 2025年第二季度总营收3426万美元,同比增长11.0%(不含已终止的低毛利业务) [3] - 预计三季度收入区间为3400-3600万美元,同比2024年三季度增长7.6%-13.9% [3] - 第二季度GAAP净利润146万美元(人民币1050万元),连续三个季度实现GAAP盈利,利润额超过一季度3倍以上 [3] - 截至2025年6月30日,现金及等价物等储备达3.77亿美元 [4] 对话式AI引擎升级 - 新版对话式AI引擎新增声纹识别、数字人与视觉理解三项功能 [5][6] - 声纹识别可智能屏蔽95%环境噪音,支持多人与AI对话场景 [8] - 数字人交互支持商汤等主流方案,适用于虚拟客服、教育陪伴等场景 [8] - 视觉理解支持实时视频解析和图片识别,适用于教育、智能助手等场景 [8] 技术应用与场景落地 - 对话式AI引擎已应用于呼叫中心和AI陪伴硬件等场景 [4] - 发布全球首个AI模型评测平台(对话式),提供ASR+LLM+TTS延迟数据横向测评 [9] - 与MiniMax合作实现星野平台实时语音对话,响应速度快且音色拟人 [11] - 为MiniMax Chat提供弱网环境下清晰流畅的语音对话功能 [11] - 助力智谱清言实现低延迟视频通话和流畅对话 [12] - 支持赋之科技EBO Air 2 Plus实现多模型助手对话和20+音色切换 [12] - 赋能Miko3教育机器人实现儿童情绪识别和情感陪伴 [12][13] 行业影响与未来规划 - 对话式AI正从基础问答向深度理解、情感共鸣演进,成为下一代人机交互基础设施 [9] - 技术已渗透智能硬件、教育、社交等领域,释放行业增长潜力 [13] - 未来将持续深耕场景创新与技术迭代,提升实时互动体验 [13]
WAIC现场最“聪明”展台!AI对话眼睛耳朵能力全打开
量子位· 2025-07-28 14:42
声网对话式AI引擎升级 - 核心观点:声网对话式AI引擎完成三大升级,实现多模态交互能力提升,包括选择性注意力锁定、视觉理解和数字人支持,显著提升AI交互体验[5][6][31] - 升级亮点:新增选择性注意力锁定功能,在嘈杂环境中可屏蔽95%干扰精准识别用户声音[11][12][13] - 技术突破:实现视觉理解能力,可实时看图识物并分析技术图表[18][21][22] - 集成能力:支持与商汤等主流数字人方案无缝集成,实现表情和肢体语言交互[24][25][28] 技术应用场景 - 教育领域:应用于豆神AI超拟人多对一直播课,实现AI教师低延时自然交互[38][39] - 智能硬件:赋能珞博智能"芙崽Fuzozo"情感陪伴产品,优化实时交互体验[41][43] - 家庭机器人:支持Enabot EBO Air 2 Plus实现精准语音识别和全球视频通话[44] - 行业覆盖:技术已应用于MiniMax Chat、星野、智谱清言、商汤商量等主流AI产品[45] 市场竞争优势 - 价格策略:接入成本低至每分钟0.098元,兼容OpenAI协议仅需两行代码[32][34] - 技术积累:依托多年RTE领域经验,具备音视频处理和低延迟传输核心技术[6][49] - 产品理念:以用户体验为核心,专注提升AI交互真实感和自然感[50][51] - 行业趋势:多模态AI交互成为明确发展方向,声网技术布局占据先发优势[48][52]
声网发布对话式AI引擎:让任意大模型开口说话
36氪· 2025-03-07 17:37
产品发布 - 公司于3月6日举办"AI开口,互动无界"发布会,推出全球首个对话式AI引擎,支持任意文本大模型升级为多模态大模型 [2] - 定价策略为0.098元/分钟,单次赠送1000分钟,智能打断功能增值服务0.042元/分钟 [2][7] 核心技术能力 - 模型选择多:支持DeepSeek、ChatGPT等全球主流大模型及语音合成供应商,兼容30000+终端机型 [4] - 响应速度快:全链路优化后语音对话延迟中位数650ms,打断响应低至340ms [5] - 抗干扰能力强:选择性注意力锁定功能屏蔽95%环境噪声,80%丢包率下仍可稳定对话 [5] - 开发效率高:仅需2行代码15分钟完成部署,支持LLM与TTS的URL/Key快速接入 [6] 成本效益分析 - 用户单次对话平均3轮问答21.1秒,成本约3分钱,月均15次对话成本不足5毛钱,年成本5元 [8] 应用场景拓展 - 主要落地场景包括智能助手、虚拟陪伴、口语陪练、智能客服及智能硬件 [10] - 智能硬件领域可实现语音控制、智能看护、个性化服务,覆盖AI玩具、教育硬件、穿戴设备等 [10]
2行代码与DeepSeek语音对话,1分钟不到一毛钱,所有大模型都能开口说话
量子位· 2025-03-07 15:12
核心观点 - 声网推出超低延迟实时对话式AI引擎,支持DeepSeek等大模型接入,仅需两行代码即可实现高质量语音交互[2][3] - 该引擎每分钟成本仅0.098元,单次对话平均成本3分钱,月成本不足5毛钱,年成本5元,价格极具竞争力[3][5] - 技术突破包括响应延迟中位数650毫秒,打断响应低至340ms,支持嘈杂环境和弱网条件下的稳定交互[7][8][9][10] - 开发者可在15分钟内完成AI语音交互功能部署,支持全球主流大模型和语音合成供应商的灵活切换[11][13][14] - 声网定位为"AI语音交互中间件",开创"语音交互即服务"新模式,推动生成式AI行业变革[17][19][22] 技术性能 - 关键延迟指标:对话响应延迟中位数650毫秒,远低于1.7秒的体验阈值[7][8] - 打断功能:支持自然打断,响应时间低至340ms,模拟人类对话节奏[9] - 抗干扰能力:可屏蔽95%环境噪声,在嘈杂场所保持对话质量[9] - 弱网适应:80%丢包率下仍可稳定交流,断网3-5秒不影响流畅度[10] - 全球覆盖:依托200+数据中心的SD-RTN网络实现跨区域低延迟[10] 成本优势 - 按用量付费模式:每分钟0.098元,单次赠送1000分钟[3] - 单次对话成本:平均3轮问答/21.1秒,成本3分钱[5] - 月成本:15次对话场景下不足5毛钱,年成本5元[5] - 无使用上限:支持百万级用户规模的多模态AI应用[5] 开发者体验 - 极简接入:2行核心代码即可完成大模型对接[2][11] - 快速部署:15分钟实现从零到完整AI Agent部署[11] - 模型兼容:支持全球主流大模型厂商,与OpenAI协议兼容[13] - 音色定制:可接入语音合成供应商的自定义音色[14] - 硬件适配:音视频SDK支持30000+终端机型,覆盖中低端设备[16] 行业影响 - 模式创新:开创"语音交互即服务"新业态,实现RTC与大模型技术解耦[17][18] - 生态定位:通过统一API接口成为"AI语音交互中间件"[19] - 基础设施:为多模态实时交互的Agent应用提供关键技术支撑[21] - 行业推动:加速"让所有AI都能开口说话"的生成式AI变革[22]