Workflow
语音交互
icon
搜索文档
设计师朱梦也以“以人为本”的AI交互设计获多项国际奖项
南方都市报· 2026-01-07 13:35
2025年被誉为设计创新与人本科技深度融合的一年。在这一年里,交互设计师朱梦也(Mengye Zhu) 凭借"以人为本"的人工智能交互设计理念脱颖而出,斩获德国 iF 设计奖、欧洲产品设计奖等多项国际 大奖。她的代表作"Quackiverse"将生成式AI与语音交互应用于儿童语言学习,打造个性化且富有情感温 度的学习体验,同时在健康科技与创意教育等领域探索AI交互的新可能。 朱梦也硕士毕业于康奈尔大学设计专业,立志通过设计提升社会的包容性与公平性。她的设计实践跨越 UI/UX、交互艺术和产品创新多个领域,但始终围绕一个核心——让尖端技术服务于人的真实需求。正 如她所强调的,优秀设计需要将创造力、技术与共情心融合在一起。 在她主导设计的代表作"Quackiverse"中,这一理念被完整地呈现。该平台以生成式AI与语音识别技术为 核心,为6至15岁儿童打造了一个沉浸式语言学习世界,让学习不再枯燥,而是一场充满探索与互动的 旅程。"Quackiverse"针对传统语言教育中"缺乏趣味性""难以坚持""家长陪伴不足"等痛点,构建了一个 AI驱动的动态学习系统。通过智能语音反馈、故事式任务与游戏化闯关机制,孩子可以在互 ...
豆神教育:公司的学伴机器人深度融合了火山引擎RTC技术与豆包大模型,但对公司经营基本面无重大影响
每日经济新闻· 2026-01-05 16:14
公司技术合作 - 豆神教育的学伴机器人产品深度融合了火山引擎的RTC技术与豆包大模型 [2] - 技术合作旨在实现实时对话与精准引导,搭建自然、流畅、富有智慧的语音交互场景 [2] - 以上技术模型的接入有助于提升学伴机器人的语音交互效果和用户体验 [2] 对公司经营的影响 - 公司明确表示,相关技术合作对公司的经营基本面无重大影响 [2]
报道:OpenAI整合团队拟一季度发布新语音模型,为发布AI个人无屏设备铺路
华尔街见闻· 2026-01-02 06:27
公司战略与产品规划 - OpenAI正在优化其音频人工智能模型,为计划中的语音驱动型个人设备做准备 [1] - 公司过去两个月内整合了工程、产品和研究力量,集中攻克音频交互的技术瓶颈,目标是打造一款可通过自然语音指令操作的消费级设备 [2] - 新语音模型计划于2026年第一季度发布,将具备更自然的情感表达能力和实时对话功能,包括处理对话打断的能力 [2] - 公司还计划推出一系列无屏设备,包括智能眼镜和智能音箱,将设备定位为用户的“协作伴侣”而非单纯的应用入口 [2] - 公司在2025年初斥资近65亿美元收购了前苹果设计主管乔尼·艾夫联合创办的io,并同步推进供应链、工业设计与模型研发等多条工作线 [5] 技术整合与团队架构 - OpenAI当前的语音模型与文本模型分属不同架构,导致用户通过语音与ChatGPT对话时,获得的回答质量和速度均逊于文本模型 [2][3] - 为解决此问题,公司完成了关键团队整合,从Character.AI加入的语音研究员Kundan Kumar担任音频AI项目核心负责人 [4] - 产品研究主管Ben Newhouse正在重构音频AI基础设施,多模态ChatGPT产品经理Jackie Shannon也参与其中 [4] - 新音频模型架构旨在生成更精准深入的回应,支持与用户实时对话,并更好地处理对话打断等复杂场景 [4] 产品理念与市场判断 - OpenAI与谷歌、亚马逊、Meta和苹果的判断相似,认为现有主流设备并不适合未来AI交互 [4] - 公司团队希望用户通过“说话”而非“看屏幕”与设备互动,认为语音才是最贴近人类交流本能的方式 [4] - 合作硬件开发的前苹果设计主管乔尼·艾夫强调,无屏幕设计不仅更自然,还有助于避免用户沉迷 [4] 市场挑战与用户培养 - OpenAI面临的主要障碍在于用户行为,多数ChatGPT用户尚未养成语音交互习惯 [5] - 用户习惯未养成的原因包括音频模型质量不足或用户未意识到该功能存在 [5] - 要推出以音频为核心的AI设备,公司需先培养用户通过语音与AI产品互动的习惯 [5] - 公司需要在产品发布前,通过改进现有ChatGPT语音功能来积累用户基础,并验证音频交互在日常场景中的实用性 [6] - 首款设备预计至少还需一年时间才能面世 [5]
OpenAI整合团队开发音频AI模型 为发布AI个人设备铺路
新浪财经· 2026-01-01 23:32
OpenAI音频AI模型优化与硬件战略 - 公司正整合工程、产品和研究团队,在过去两个月内共同推进音频模型的优化,以应对当前语音模型在回答准确性和响应速度上落后于文本模型的挑战 [2] - 新音频模型架构旨在生成更自然、更具情感且更精准深入的回应,同时支持与用户实时对话并更好地处理对话打断,现有模型无法实现此功能 [2] - 该新音频模型的目标发布时间为2026年第一季度 [2] OpenAI消费级AI设备计划 - 公司计划推出一款主要依赖音频交互、支持语音指令的消费级设备,首款设备预计至少一年后面世 [2] - 与谷歌、亚马逊、Meta和苹果类似,公司正探索开发新型个人AI设备,包括可穿戴设备 [3] - 公司计划逐步发布一系列设备,如眼镜、无屏智能音箱,而非单一产品 [4][8] 设备设计理念与交互愿景 - 公司研究人员希望用户通过语音而非屏幕与设备交互,许多AI专家认为语音是更自然的交互方式 [3] - 无屏设计可能减少用户对设备的依赖,与公司合作硬件开发的前苹果设计主管乔尼·艾夫强调,纠正以往消费电子产品的负面影响是其首要目标 [3] - 在今夏的内部演示中,研究人员称该设备将作为用户的“协作伴侣”,主动提供目标达成建议,而非仅作为应用入口,设备还能通过音频捕捉环境与用户信息,实现情景化交互 [4][8] 面临的挑战与团队构成 - 公司面临一大挑战:多数ChatGPT用户尚未养成语音交互习惯,或因音频模型质量不足,或因未意识到该功能,推出以音频为核心的AI设备需先培养用户习惯 [3] - 音频AI项目的核心人物是今夏从Character.AI加入的语音研究员Kundan Kumar [3] - 项目其他负责人包括重构音频AI基础设施的产品研究主管Ben Newhouse,以及多模态ChatGPT产品经理Jackie Shannon [3]
通义端到端语音交互模型Fun-Audio-Chat发布
凤凰网· 2025-12-23 19:50
核心观点 - 通义大模型发布新一代开源端到端语音交互模型Fun-Audio-Chat-8B,主打“语音对语音”多轮对话能力,在多项评测中取得开源模型领先成绩,并已同步在多个平台开源 [1] 模型发布与技术定位 - 模型为通义百聆语音模型系列中首个主打“语音对语音”交互能力的模型,支持用户直接通过语音进行多轮对话 [1] - 模型在OpenAudioBench、VoiceBench、UltraEval-Audio、MMAU、MMSU、SpeechFunctionCall等多项语音与多模态评测中取得当前开源模型中的领先成绩,整体性能超过多款同参数规模模型 [1] - 该模型强调端到端语音交互能力,可直接用于语音聊天、情感陪伴、智能终端交互以及语音客服等场景 [1] - 与此前已发布的语音转文字模型Fun-ASR及文字转语音模型Fun-CosyVoice3不同,新产品聚焦于端到端交互 [1] 技术架构与训练创新 - 公司披露两项关键技术路径:Core-Cocktail两阶段训练策略,通过分阶段引入语音与多模态能力再与原有文本大模型参数融合微调,以降低对原有语言理解能力的影响,缓解“灾难性遗忘”问题 [2] - 引入多阶段、多任务的偏好对齐训练,使模型在真实语音对话中能更准确捕捉语义与情绪线索,提升对话自然度 [2] - 模型采用压缩—自回归—解压缩的双分辨率端到端架构,将音频帧率降低至约5Hz,在保证语音质量的前提下可节省近50%的GPU计算开销 [2] 行业影响与战略意义 - 模型的开源标志着通义大模型在语音交互方向进一步向“低算力、强对话”的实用化阶段推进 [2] - 该设计在当前语音大模型普遍算力成本较高的背景下,具有一定工程意义 [2] - 为开源语音大模型在真实场景中的部署提供了新的技术参考 [2]
完爆ChatGPT,谷歌这招太狠:连你的「阴阳怪气」都能神还原
36氪· 2025-12-15 10:04
谷歌Gemini 2.5 Flash原生音频模型核心更新 - 谷歌发布Gemini 2.5 Flash Native Audio(原生音频模型),标志着AI从“文本转语音”跨越到真正的“拟人化交互”时代 [1][3] - 模型核心在于“原生”,无需将声音转为文字再转回,实现了直接听、直接想、直接说,大幅提升了交互的自然度和流畅感 [6][8] - 此次更新让实时语音代理成为现实,用户可在Google AI Studio、Vertex AI及搜索中与有“脑子”、有“耳朵”的智能体进行实时对话 [10] 实时语音翻译功能突破 - 实时语音翻译功能已在美国、墨西哥和印度的安卓设备上通过Google翻译App进行Beta测试 [11] - 功能支持持续监听与双向对话,可实现“无感”翻译,系统能自动识别说话者并切换语言,用户无需手动操作 [11] - 具备风格迁移能力,能捕捉并保留说话者的语调、节奏、音高及情绪,实现带情感的翻译,而不仅仅是文字转换 [12][14] 开发者与企业级应用能力提升 - 在复杂多步骤函数调用测试ComplexFuncBench Audio中,Gemini 2.5取得了71.5%的高分,表现领先 [18] - 对开发者指令的遵循率从84%提升到了90%,显著增强了构建企业级服务时的可靠性与精准度 [23] - 模型在检索上下文方面取得显著进步,能更有效地记住之前对话内容,使多轮对话更连贯、更具逻辑性 [24] 技术规格与性能优势 - 支持70多种语言和2000多个语言对,覆盖全球绝大多数人的母语 [19] - 支持多语言混输,可同时理解一场对话中混杂的几种不同语言 [19] - 具备噪声鲁棒性,专门针对嘈杂环境优化,能有效过滤背景音 [19] 实验性产品Disco与GenTabs - 谷歌实验室推出实验产品Disco,内置基于Gemini 3打造的工具GenTabs [30][31] - GenTabs能通过主动理解复杂任务(如用户打开的标签页和聊天记录)并创建交互式网络应用程序来帮助完成任务,无需编写代码 [32] - 该工具目前macOS版已开放排队,旨在将“浏览”行为转变为“创造”行为 [36] 产品发布与未来展望 - Gemini 2.5 Flash Native Audio现已在Vertex AI上全面推出,并在Google AI Studio中可供试用 [37] - 预计2026年,实时翻译等功能将通过Gemini API扩展到更多产品中 [28] - 此次更新预示着语音交互正成为下一个时代的入口,AI正从屏幕中被解放出来,融入日常听觉体验 [25][27]
喝点VC|a16z专访百亿美金AI语音独角兽11Labs CEO :首要之务是深入行业内部,花时间理解他们的核心诉求与激励机制
Z Potentials· 2025-12-13 19:09
公司产品与技术演进 - 公司最初从文本转语音技术起步,随后构建了语音助手编排体系,并开发出完全持牌的音乐模型,如今已拓展至AI助手平台 [6] - 研究团队创建了首个能深度理解上下文的文本转语音模型,可精准转化情感语调并捕捉声音特征,实现了声音风格、年龄、性别、方言等要素的精准融合 [8] - 公司产品划分为两大创意领域:面向媒体娱乐创作者的创意平台,提供旁白、配音及音频后期制作服务;以及致力于重塑交互体验的智能助手领域 [8] - 公司拥有约20个产品团队,每个团队规模在5到10人之间,拥有完全自主权推进产品发布,这种小团队模式带来了强烈的主人翁意识和极快的推进速度 [8] - 在转向企业级市场时,核心在于构建系统内的知识库集成,并协助客户将知识库部署到电话服务商等系统中,同时解决从演示到生产环境的部署、测试、版本控制和长期监控优化等关键环节 [23] 研发与产品平衡策略 - 公司决策原则是:若研究工作预计超过三个月,产品团队即可自由添加新模型或扩展功能 [7][9] - 内部研究团队的指导原则是明确本季度希望交付的项目与长期计划,对于长期项目,利用其他工作填补时间差并优化方案 [9] - 公司早期曾为保持产品理念(如不添加语速调节滑块)而在研究层面攻坚九个月未果,最终由产品团队以极简方案解决,赢得了用户认可 [9] - 面向企业客户时,稳定性与可靠性至关重要,公司明确划分Alpha版本与非Alpha版本的界限,合作伙伴可自主决定是否优先获取可能存在不稳定性的Alpha版本 [25] - 在公司内部,项目被划分为“产品市场匹配前”与“产品市场匹配后”的阶段,前者给予6个月验证期,若未能达标则终止该产品 [26] 组织架构与人才管理 - 公司采用扁平化组织架构,实行无头衔制度,员工角色由能力而非资历决定,小团队模式(5-10人)使新成员从加入起就能对公司产生影响 [7][14] - 新组建的团队有六个月时间证明其价值,若能证明即可留存并继续运作 [14] - 公司采用全球化与枢纽办公室混合模式,在伦敦、华沙和旧金山设立枢纽办公室,以帮助新人融入,同时允许习惯远程的员工继续远程工作 [12] - 公司探索非传统招聘路径,例如曾招募一位在呼叫中心工作但拥有顶尖开源文本转语音模型的工程师,他后来成为团队中数据处理领域最杰出的研究员之一 [11] - 公司在某些岗位持续招募非常规背景的人才,并将其与传统背景的员工融合,后者能为前者提供指导,这种组合在销售等领域效果显著 [12] 市场拓展与行业合作 - 公司最初采用产品驱动增长模式,并尝试让工程师承担销售职能,但未奏效;目前采取销售占80%、工程占20%的混合模式,关键在于深度理解客户需求并紧密协作 [21] - 公司创建了声音市场平台,用户可创作并分享声音素材,被使用时即可获得收益;平台已拥有近万种声音资源,并向社区成员返利1000万美元 [17] - 公司与Merlin、Cobalt等四大唱片公司合作,通过授权方式将其音乐资源引入音乐模型,既能生成内容又能授予商业权利,此合作协议花费18个月才敲定 [18] - 行业合作的首要之务是深入理解行业的核心诉求与激励机制,明确哪些环节适合引入AI,哪些需要保留人工操作 [16] - 对于完全陌生的领域(如法律),公司采用引入深耕该领域的全职人员与大量咨询专家相结合的模式,以确保有效沟通和风险共担 [19][20] 企业级转型与规模化挑战 - 公司从服务创作者的品牌成功转向企业级市场,在AI智能助手平台、文本转语音及文本模型领域取得进展 [21] - 企业级应用的核心价值在于基础架构的稳固性,包括安全性、合规性以及高可用性,公司目标是为客户提供99.99%甚至99.999%的可用性保障 [24] - 随着团队规模扩大至350人,市场团队的激励机制变得至关重要;公司意识到配额与佣金是战略的滞后指标,必须确保其与战略目标紧密贴合,以最小化行为偏差 [26][27] - 公司实行独家销售制度,并设置防护措施,例如当销售团队遇到可能损害长期利益的交易时(如为赚取更高佣金而压低价格),可以上报并取消交易,即使这意味着放弃佣金 [27] - 在转向企业市场初期,内部存在怀疑态度,需要让团队相信长期方案的有效性,并在12个月后证明了方案的成功 [24]
瑞声科技助力夸克AI眼镜S1 开创语音交互新范式
中国经济网· 2025-12-03 12:53
产品发布与核心功能 - 阿里巴巴旗下夸克于11月27日正式推出首款自研旗舰双显AI眼镜——夸克AI眼镜S1,主打超级AI助理体验 [2] - 产品核心创新在于与瑞声科技深度共创的5麦克风阵列+骨传导高精度拾音系统,旨在破解智能眼镜在自然、私密、可靠交互方面的行业难题 [1][2] - 该拾音系统由5颗高性能麦克风(MIC)和1颗骨传导麦克风(VPU)组成,是目前AI眼镜行业中最豪华的拾音配置 [2][4] 技术突破与性能指标 - 联合定制的拾音系统通过声学特征识别用户意图,将误唤醒率降至行业新低 [1] - 骨传导麦克风VPU的信噪比高达77dB,专门优化捕捉人声频段,从物理层面隔绝环境噪声干扰 [4] - 该拾音方案的封装尺寸较行业水平缩小25%,为眼镜轻薄化设计释放更多空间 [4] - 其功耗较常规麦克风降低约50%,显著优化整机续航,保障AI功能持续稳定运行 [4] - 实测中,用户只需用近乎耳语的音量下达指令,眼镜便能即刻响应,结合强大的语义识别能力,突破交互瓶颈 [1] 用户体验与应用场景 - 新技术带来了全天候、全场景、私密性的高品质拾音与舒适聆听体验 [2] - 在嘈杂地铁车厢里,夸克眼镜依然能准确接收指令,而传统智能眼镜的语音识别可能失灵 [4] - 在安静图书馆内,用户可以用气声与眼镜交互,不打扰周围读者 [4] - 在户外公园中,大风风噪不再影响智能眼镜通话与交互质量 [4] - 知名UP主电丸科技AK评价其语音交互体验“就像从功能机时代进入了智能机时代” [4] 行业意义与发展前景 - 此次合作精准攻克了智能眼镜在语音交互与私密沟通上的核心技术瓶颈 [5] - 语音交互摆脱了“用户迁就设备”的被动桎梏,私密沟通从“附加需求”升级为“标准配置” [5] - 智能眼镜正从极客玩具走向大众消费品,但此前面临无法在任何场景下实现自然、私密且可靠交互的难题 [1] - 该技术为整个智能穿戴行业勾勒出从“功能满足”到“体验革新”的发展蓝图,推动设备成为真正打破场景限制、契合大众日常需求的“贴身智能伙伴” [5] - 瑞声科技的创新解决方案在多人多语种实时翻译、驾车抗噪交互、运动场景对讲及健康监测等场景带来更大想象空间 [4] - 未来的智能穿戴设备将不再是冰冷的技术集合,而是能读懂需求、尊重隐私、无缝融入生活的“感知延伸”,开启从“可用”到“好用”再到“离不开”的全新体验 [5]
可识别唇语,苹果的新专利可能会解救头戴设备
36氪· 2025-12-01 10:18
苹果公司新专利技术 - 公司获批一项新专利,未来头戴式设备将支持通过视觉传感器读取唇语,实现无声语音输入 [1] - 该技术旨在解决用户在无法或不愿说话的佩戴场景下的交互问题 [3] - 该无声输入模式有望成为解决公共场合使用痛点的两全其美方案 [10] AI/XR头戴设备行业现状与挑战 - 行业正迎来热潮,小米和阿里等公司已相继进入市场 [3] - 但产品面临高退货率挑战,在抖音电商平台上AI眼镜的平均退货率达到40%-50% [3] - 产品被用户列为“吃灰神器”,主要痛点包括元器件增多导致的佩戴负担以及语音交互问题 [3] 语音交互的核心痛点 - 在公共场合使用语音交互会使用户产生“羞耻感”或社交压力 [6] - 公共场合环境音复杂,用户需提高音量以确保指令被识别,这与公序良俗相悖且暴露隐私 [6] - 语音交互的信息量大,需要用户耗费更多精力进行分析和筛选,对人脑的上下文联想不友好 [8] - 马化腾曾指出语音交互在公共场合使用显得“好傻”、不好意思且不私密 [6] 现有交互方案的局限性 - 语音交互是当前最具性价比的解决方案,但要求用户必须发出声音 [8] - 若强化语音识别、自然语义处理、远场拾音等技术以捕捉低声语音,成本将大幅提升,导致潜在受众减少 [8] - 此前主要的镜腿触控交互不符合人体工学,频繁举手操作易导致疲劳 [10] - TWS耳机的触控交互可行是因为其为低频操作场景,不适用于需要频繁交互的头戴设备 [10] 唇语识别技术的潜力与影响 - 识别唇语技术可通过向AI模型灌输不同语言用户的唇部动作数据进行预训练来实现 [12] - 该技术只需搭配成熟的AI视觉模型,并非“黑科技” [10] - 解决识别率问题后,有望搬开阻碍AI眼镜、XR头显在公共场合广泛使用的最大绊脚石 [12] - 一旦用户能毫无顾忌地使用,此类产品将有机会从小众尝鲜产品转变为大众化消费电子产品 [14]
出门问问(02438)下跌16.67%,报0.7元/股
金融界· 2025-08-22 15:26
股价表现 - 8月22日盘中股价下跌16.67%至0.7港元/股 [1] - 当日成交金额达2755.84万元人民币 [1] 财务表现 - 2025财年中报营业总收入为1.79亿元人民币 [2] - 归属股东应占溢利为-289.8万元人民币 [3] - 净利润同比大幅改善,增长幅度达99.5% [3] - 基本每股收益为0元人民币 [3] 公司概况 - 公司专注于生成式AI和语音交互技术 [1] - 业务覆盖AIGC产品、AI政企服务及AIoT智能硬件三大领域 [1] - 服务对象包括内容创作者、企业和消费者群体 [1] - 2024年4月在香港交易所完成上市(股票代码:02438.HK) [1] - 已建立大模型技术能力与产品矩阵 [1] - 战略定位为全球AICoPilot引领者 [1]