Workflow
Realtime API
icon
搜索文档
Agora and OpenAI's Realtime API Power Seamless Interaction with Multimodal AI Agents
Prnewswire· 2025-09-05 04:01
公司技术整合进展 - 公司宣布对OpenAI Realtime API的扩展支持现已全面可用 集成功能包括自动问候、混合模态交互和选择性注意力锁定等高级功能[1] - 集成OpenAI Realtime API后显著降低开发复杂度 同时解锁实时交互中的高级能力 使开发者能够创建更自然、响应更迅速且类人的AI智能体[2] - 通过结合OpenAI实时语言模型与公司全球实时网络基础设施(SDRTN®)及专用开发者工具包 团队可加速产品上市时间并简化应用开发流程[3] 技术功能增强 - 自动问候功能确保即时会话感知并提供自然欢迎的入门体验[7] - 混合模态交互支持在单一交互会话中实现语音与文本输入的无缝切换[7] - 选择性注意力锁定技术可过滤环境噪音和干扰语音 实现无中断的交互体验[7] - 灵活的话轮检测选项为开发者提供对对话流程和话轮转换行为的细粒度控制[7] 合作伙伴与客户案例 - 机器人初创公司Carbon Origins已采用该技术集成方案 实现重型设备免提操作并提升操作员效率[4] - 该技术组合支持自动化复杂检查清单和系统操作 使操作员能专注于战略任务而非手动执行[5] 行业应用与市场地位 - 该集成巩固了公司作为对话式AI、实时交互和多模态智能体开发领先平台的地位 应用领域涵盖客户支持、教育、游戏和粉丝互动等[5] - 公司为全球超过1,700家领先组织提供实时交互服务 覆盖社交媒体、直播购物、教育和远程医疗等领域的顶级实时体验[6]
中航证券:政策护航+应用提速 AI有望加速释放新质生产力
智通财经网· 2025-09-01 09:59
政策支持与行业规划 - 国务院印发《深入实施"人工智能+"行动的意见》明确科学技术、产业发展、消费提质等六大深度融合领域并提出强化八大基础支撑能力为行业发展划定战略主线[1] - 国家发改委设定2027、2030、2035三个阶段性目标形成清晰的中长期发展路线并强调未来一到两年是人工智能应用加速落地的关键窗口期[1] - 人工智能测评服务体系已落地覆盖企业超60家累计服务100余次推动标准化、体系化的产业测评建设[1] 技术迭代与突破 - Claude Opus4.1在代理、编码和推理能力全面升级显著强化长期与复杂任务处理能力[2] - 智谱AI发布GLM-4.5V在图像、视频、文档理解等视觉推理任务上实现同级开源VLM最佳性能[2] - xAI推出Grok Code Fast1主打快速编程与低成本推理缓存命中率超90%突出实用与经济性[2] - OpenAI推出GPT-Realtime与Realtime API在语音质量、指令遵循和低延迟方面取得突破已在语音代理场景中应用[2] 应用落地与产业化 - 大模型的多维度升级将加快向教育、影视等场景渗透应用落地与产业化进程提速[1][3] - 短期政策落地与标准化测评体系推动行业进入规范化、可持续发展轨道中长期技术升级加速场景渗透[1][3] - 人工智能产业处于政策、技术、应用的多重共振阶段[1][3] 投资主线与标的 - 大模型开发与AI Agent能力提供商重点关注昆仑万维(300418.SZ)、科大讯飞(002230.SZ)[3] - AI落地场景应用重点关注焦点科技(002315.SZ)、奥飞娱乐(002292.SZ)、值得买、上海电影、恺英网络、中文在线、万兴科技[3]
OpenAI发布端对端语音模型GPT-Realtime,助力开发者构建语音智能体
36氪· 2025-08-31 00:34
产品发布与定价 - 公司发布迄今最先进的端对端语音模型GPT-Realtime并宣布Realtime API全面进入生产环境 [1] - 新模型定价较上一代产品GPT-4o-Realtime-Preview降低20% 输入tokens价格从每百万40美元降至32美元 输出tokens从每百万80美元降至64美元 [1] - 新增对话上下文管理功能 允许开发者灵活设置token限制并一次性截断多轮对话以降低长会话成本 [2] 技术性能提升 - 新模型在遵循复杂指令 精确调用工具及生成更自然富有表现力的语音方面显著进步 [3] - 支持在一句话中无缝切换多种语言 并能识别非语言信号如笑声 [3][5] - 在Big Bench Audio推理测试中准确率达82.8% 显著高于GPT-4o-Realtime-Preview在2024年12月的65.6%和2024年6月的81.5% [5] - 在MultiChallenge Audio测试中指令执行准确率达30.5% 优于上一代产品的20.6%(2024年12月)和26.5%(2024年6月) [7] - 在ComplexFuncBench Audio测试中函数调用准确率达66.5% 支持异步调用 优于上一代产品的49.7%(2024年12月)和58.9%(2024年6月) [10] - 新增支持图像输入功能 可识别照片或截图内容 [10] - 新增两种API专用语音Cedar和Marin 展现最显著的自然语音改进 [10] API功能升级 - Realtime API通过单一模型直接处理音频 降低延迟并保留语音细节 [11] - 新增支持远程模型上下文协议(MCP)服务器 简化AI模型与外部数据的连接 [12] - 新增支持图像输入 启用多模态对话能力 [12] - 新增会话发起协议(SIP)支持 允许与公共电话网络及企业电话端点集成 [12] - 早期采用者Zillow证实新API具备更强推理能力和更自然语音 能处理复杂多步骤请求 [12] 行业竞争格局 - 语音AI市场竞争白热化 Anthropic于2024年5月为Claude AI推出语音模式 Meta于2024年7月以4500万美元收购语音初创公司PlayAI [13] - 开源社区力量显著 法国初创公司Mistral发布Voxtral模型 承诺服务价格低于同类API一半 小米发布自研声音理解大模型MiDashengLM-7B [13] - 传统科技巨头持续发力 亚马逊于2024年4月推出实时表现力模型Nova Sonic并集成至Alexa+助手 [14] - 专业初创公司聚焦细分创新 Stability AI研发设备端语音处理技术 Sesame AI通过添加自然停顿等特征打造逼真AI助手 [14]
OpenAI杀入语音模型大战,祭出最强GPT-RealTime,加量还降价
36氪· 2025-08-29 14:08
产品发布与功能更新 - OpenAI发布语音转语音模型GPT-RealTime 并更新API功能 包括远程MCP服务器支持 图像输入和SIP电话呼叫支持 [1] - GPT-RealTime是公司最先进的语音合成模型 在遵循复杂指令 精确调用工具和生成更自然 更具表现力的语音方面有改进 [1] - 模型能自然朗读重复字母数字 无缝切换语言 捕捉笑声等非语言信号 [1] - 新增两个语音Cedar和Marin 在Realtime API中独家提供 [1] - 增加对对话上下文的细粒度控制 允许设置智能token限制 一次截断多个回合 显著降低长会话成本 [2] 定价与市场反馈 - GPT-RealTime每百万token音频输入价格32美元 缓存输入每百万token 0.4美元 音频输出每百万token 64美元 [1] - GPT-RealTime相比gpt-4o-realtime-preview价格下调20% [1] - 有用户对模型充满期待 称语音应用将更有趣 但也有开发者反映声音仍像机器人 旧语音角色仅稍微更具表现力 [2] 技术性能与评估 - 在Big Bench Audio评估中 GPT-RealTime准确率82.8% 超过2024年12月发布的旧模型 [8] - 在MultiChallenge音频基准测试中 GPT-RealTime得分30.5% 显著高于旧模型的20.6% [10] - 在ComplexFuncBench音频评估中 GPT-RealTime得分66.5% 超过旧模型的49.7% [13] - 改进异步函数调用 长时间运行的函数调用不再中断会话流程 模型可在等待结果时继续对话 [13] 行业竞争与进展 - 国内大模型MiniMax推出语音生成模型Speech 2.5 覆盖超40个语种 [3] - 豆包App更新实时语音通话功能 免费开放 可模仿不同声线并进行情绪感知 [3] - 微软推出高度表现力和自然语音生成模型MAI-Voice-1 同一提示词可生成不同表现音频 [3] 应用场景与合作伙伴 - 与美国房地产信息平台Zillow合作 模型可自然交谈 帮助筛选房源或分析购买价格 [5] - 与T-Mobile合作 AI助手能快速交替对话 即使被打断或开启新话题也不受影响 [5] - 与票务平台StubHub合作 模型可帮助用户付款并指导付款过程问题 [6] - 与Oscar Health合作 模型可帮用户确认空闲预约时间 注意事项和地址 [7] - 与保险科技公司Lemonade合作 AI助手可在对话中获取用户诉求 根据内部储存信息进行购买操作 [7] API功能与技术特性 - Realtime API通过单个模型和API直接处理生成音频 减少延迟 保留语音细微差别 使响应更自然 [16] - 新增远程MCP服务器支持 连接后API自动处理工具调用 无需手动设置集成 [16] - 支持图像输入 开发者可在会话中添加图像 照片和截图 与音频或文本一起使用 [16] - 新增SIP支持 通过API直接连接应用程序到公共电话网络 PBX系统和其他SIP终端 [17] - 新增可重用提示功能 允许保存和重用提示 包含开发者消息 工具 变量及示例消息 支持跨会话使用 [17] 安全防护措施 - Realtime API包含多层安全防护和缓解措施 采用主动分类器 检测到违反有害内容指南时可中止对话 [18] - 开发者可使用Agents SDK添加额外安全防护措施 [18]