OpenAI整合团队拟一季度发布新语音模型为发布AI个人无屏设备铺路

公司战略与产品规划 - OpenAI正集中优化其音频人工智能模型，为计划中的语音驱动型个人设备做准备 [1] - 公司过去两个月内整合了工程、产品和研究力量，以攻克音频交互的技术瓶颈，目标是打造一款可通过自然语音指令操作的消费级设备 [2] - 新语音模型计划于2026年第一季度发布，将具备更自然的情感表达能力和实时对话功能，包括处理对话打断的能力 [2] - 公司还计划推出一系列无屏设备，包括智能眼镜和智能音箱，并将设备定位为用户的“协作伴侣”而非单纯的应用入口 [2] - 公司已在2025年初斥资近65亿美元收购了前苹果设计主管乔尼·艾夫联合创办的io，以推进硬件开发 [4] 技术整合与团队架构 - 公司当前的语音模型与文本模型分属不同架构，导致语音对话的回答质量和速度均逊于文本模型 [2] - 为解决此问题，公司完成了关键团队整合，从Character.AI加入的语音研究员Kundan Kumar担任音频AI项目核心负责人 [3] - 产品研究主管Ben Newhouse正在重构音频AI基础设施，多模态ChatGPT产品经理Jackie Shannon也参与其中 [3] - 新音频模型架构旨在生成更精准深入的回应，并支持与用户实时对话及处理复杂场景 [3] 市场定位与交互理念 - 公司与谷歌、亚马逊、Meta和苹果的判断相似，认为现有主流设备并不适合未来AI交互 [3] - 团队希望用户通过“说话”而非“看屏幕”与设备互动，认为语音才是最贴近人类交流本能的方式 [3] - 合作方前苹果设计主管乔尼·艾夫强调，无屏幕设计不仅更自然，还有助于避免用户沉迷 [3] 面临的挑战与推进路径 - 公司面临的主要障碍是用户行为，多数ChatGPT用户尚未养成语音交互习惯 [4] - 要推出以音频为核心的AI设备，公司需先培养用户通过语音与AI产品互动的习惯 [4] - 公司需要在产品发布前，通过改进现有ChatGPT语音功能来积累用户基础，并验证音频交互在日常场景中的实用性 [5] - 首款设备预计至少还需一年时间才能面世 [4]