声网:解读OpenAI新发布高级语音视觉功能及产业机会
2024-12-16 00:04
行业或公司 * OpenAI [1] * 深网 [1] * 声网 [3] * Zoom [11] * 同学 [11] * Agoro [12] * Gemini [9] * Riot Time API [6] 核心观点和论据 * OpenAI 发布了新的高级语音视觉功能,包括理解语言、情绪和做出反应的能力 [2] * OpenAI 的 GPT-4 模型可以接收文本、音频、图像的组合输入,并实时生成文本、音频和图像的组合输出 [2] * OpenAI 的多模态模型互动能力得到升级,提供了更自然的交互方式 [3] * 深网与 OpenAI 合作,成为其语音模型的推荐供应商 [4] * OpenAI 的视频模型可以实时接收视频作为输入,理解视频内容,并与用户进行对话 [7] * OpenAI 的视频模型将首先在 GTT APP 上推出 [8] * Google 的 Gemini 2.0 也发布了视频和音频注目派的能力 [9] * 深网提供音视频会议服务,具有高性能、高质量和稳定的信号 [15] * 深网的收费模式是用量收费,音频和视频的价格分别为每千分钟一美元和四美元 [20] * 深网在全球 RTC 市场份额最高 [23] * AI 应用市场空间巨大,由场景驱动,AI 语音交互和视频交互将带来新的增长机会 [25] 其他重要内容 * 深网与 OpenAI 合作,共同开发语音对话模型 [4] * 深网的技术能力和服务能力得到认可,成为 OpenAI 的推荐供应商 [17] * 深网看好 AI 应用未来的大机会,预计随着成本的下降,需求将爆发式增长 [29]