语音交互
搜索文档
独家|VUI Labs宇生月伴完成数千万元天使+轮融资,同创伟业领投,打造行业领先的情感语音大模型和多模态Agent
Z Potentials· 2026-02-28 10:12
融资与资金用途 - VUI Labs(宇生月伴)宣布完成数千万元天使+轮融资,由同创伟业领投,老股东靖亚资本、小苗朗程持续加注,心流资本FlowCapital担任长期财务顾问[1] - 公司半年累计获得近亿元投资[1] - 所募资金将用于核心模型迭代、产品和商业化落地、全球人才引进及Voice Agent平台建设,以夯实公司在“超低延迟+情感交互+多模态智能体(Agent)+端侧模型”上的综合壁垒[1] 公司背景与使命 - VUI Labs是语音人工智能领域的先行者,专注于打造全球领先的多模态情感对话语音大模型与语音智能体平台[2] - 公司由教育部长江学者、上海交通大学计算机学院特聘教授和人工智能学院双聘教授、听觉认知与计算声学研究中心负责人钱彦旻教授创办[2] - 公司创始人兼CEO梅杰是一位连续成功创业者,毕业于浙江大学竺可桢学院创新与创业管理强化班[2] - 公司致力于构建全链路情感交互语音技术能力,以“让AI听懂情感,让交互充满温度”为使命,打造下一代AI原生交互入口,为用户提供更智能、更自然的语音交互体验[2] 核心技术:Luna系列模型 - 基于在端到端语音模型的深厚积累(团队于2019年在全球第一个提出端到端语音模型训练),公司自研了多模态情感交互语音大模型Luna系列[3] - Luna-1作为全球首个端到端情感语音交互模型,在VoiceBench权威测评中取得79.05的高分,属于行业第一梯队,语音对话延迟仅1.4秒,达到行业领先水平[3] - 公司覆盖全栈语音模型技术,在超低延时和丰富情感语音交互、丰富情感语音生成、多说话人理解等方面全面对标国内外一线语音模型厂商,如Google、ElevenLabs、OpenAI、HumeAI和Sesame等[3] - Luna-TTS-1语音合成模型延迟低至200毫秒,在自然度、可控性、稳定性方面稳居TTS行业第一梯队[4] - 公司依托自主可控的高吞吐数据管线持续生产高质量语音数据,通过深度场景化优化实现稳定可靠的输出效果,无需依赖“抽卡式”生成[4] 核心技术:同声传译模型 - 团队在同声传译模型领域提出的SimulMEGA无监督策略学习框架,将基于前缀的训练与一个混合专家精炼器结合,以隐式方式学习有效的读/写决策,且推理阶段不引入额外开销[5] - 基于该框架的Luna-Live-Translation-1是全球首个可端侧部署的同声传译模型,模型大小仅500M,延迟低至1.5秒,支持数十种语言互译[5] - 该模型已在某知名手机品牌的欧洲版本上落地商业应用[5] 产品:语音智能体SaySo - 公司于2026年1月推出首个C端语音智能体产品SaySo,定位为智能语音助手[6] - SaySo能够精准理解上下文语境,优化输出内容,消除创意构思和表达落地之间的鸿沟[6] - 公司构建了完整的语音智能体技术框架,涵盖多步规划、工具调用、长时记忆与智能体编排等核心能力,实现从语音交互到任务执行的全链路打通[6] - 与传统的语音转文字工具不同,SaySo被定位为懂思考的合作者[7] 产品表现与用户反馈 - 在早期测试阶段,SaySo展现出远超预期的用户粘性,正迅速演变为核心生产力界面[11] - 用户78%的文字产出已由其完成,横跨近50个主流应用,周处理的语音转文字生成量近千万[11] - 仅6周,中位数用户的键盘依赖度即断崖式降至20%,绝大部分数字化工作流已完全交由语音智能体接管[11] - 早期用户给予极高好评,有用户表示其体验“就像真正拥有了《钢铁侠》里的贾维斯”[7] - 有资深内容创作者分享,过去需要1小时完成的稿件,通过口述与SaySo协作不到10分钟就能搞定,且生成的文本完全不需要二次修改,可一键分发到各大社媒平台,帮助其在一周内收获了“几十万”的爆款流量[7] 战略愿景与行业观点 - 公司创始人钱彦旻教授表示,自然语言正在成为新的编程语言,但键盘逐渐成为束缚人类表达效率的枷锁,公司致力于推动语音成为下一代人机交互的核心界面[12] - 公司通过端到端情感语音交互模型、高表现力语音合成模型、低延迟同声传译模型、多人对话语音理解模型以及Skill-based Voice Agent Framework,为VUI的落地与规模化提供关键基础设施[12] - 投资方同创伟业认为,下一代人机交互界面的核心技术在于语音,语音交互的核心在于时延与情感,VUI Labs在这两方面的基础技术都非常优秀,超越Sonic 3与Elevenlabs[13] - 投资方靖亚资本指出,基于语音大模型的多模态Agent在To B和To C的应用场景中非常有价值,并举例海外市场ElevenLabs的ARR已突破3.3亿美金,估值超过110亿美金,与SaySo相似的Agent应用Wispr Flow估值超过7亿美金[13] - 投资方小苗朗程认为,语音交互作为AI时代全新的核心交互方式与重要信息入口,具备广阔的市场增量空间[14]
汉桑科技(301491.SZ):语音交互模组已用于为海外客户提供的具备语音交互功能的智能硬件产品中
格隆汇· 2026-02-26 16:29
公司业务与产品 - 公司的语音交互模组已应用于为海外客户提供的智能硬件产品中 [1] - 相关智能硬件产品具备语音交互功能 [1] 技术标准与合规 - 公司当前产品暂未涉及IEEE P3746技术标准 [1]
ElevenLabs CEO:语音将成为AI的下一个交互界面
搜狐财经· 2026-02-06 23:18
行业趋势:语音成为下一代AI核心交互界面 - 语音正在成为AI的下一个主要交互界面 随着模型超越文本和屏幕 语音将成为人们与机器交互的主要方式[2] - 行业巨头如OpenAI和谷歌都将语音作为下一代模型的核心重点 苹果也通过收购等方式悄悄构建始终在线的语音技术[2] - 随着AI扩展到可穿戴设备、汽车和其他新硬件中 控制方式正在从点击屏幕转向语音交互 使语音成为AI发展下一阶段的关键战场[2] 技术演进:从模拟语音到智能体协同 - ElevenLabs等公司开发的语音模型已超越简单模拟人类语音 开始与大语言模型的推理能力协同工作[2] - 未来的语音系统将不再需要拼写出每个指令 而是越来越依赖于持续的记忆和随时间建立的上下文 使交互感觉更加自然[3] - 这种向智能体化的转变是正在发生的最大变化之一 AI系统将获得护栏、集成和上下文 从而能够在用户较少明确提示的情况下做出响应[3] 公司动态:ElevenLabs的融资与合作 - ElevenLabs本周完成5亿美元融资 估值达到110亿美元[2] - ElevenLabs已经与Meta合作 将其语音技术带到包括Instagram和Horizon Worlds在内的产品中[4] - 公司愿意与Meta在其Ray-Ban智能眼镜上进行合作 以扩展语音驱动界面到新的形态因子[4] 技术部署与硬件适配 - 高质量的音频模型主要存在于云端 但ElevenLabs正在朝着混合云端和设备处理的方向发展[3] - 这一举措旨在支持新硬件 包括耳机和其他可穿戴设备 在这些设备中 语音成为一个持续的伙伴[3] - 键盘等传统输入方式开始显得“过时” 虽然屏幕在游戏和娱乐方面将继续发挥重要作用[3] 未来愿景与应用场景 - 希望在未来几年内 所有的手机都能重新回到口袋里 人们可以沉浸在周围的真实世界中 用语音作为控制技术的机制[2] - 在可穿戴设备等新硬件中 语音成为一个持续的伙伴 而不是用户决定何时使用的功能[3]
飞书史上第一次硬件合作,和安克创新做了一款「AI录音豆」
36氪· 2026-01-19 08:21
产品发布与合作 - 飞书与安克创新联合发布一款名为“AI录音豆”的智能录音硬件,这是飞书自2017年成立以来首次推出硬件产品,在内部属于探索性项目 [1] - 产品重量仅10克,配合充电舱总重约48克,外观呈豆状,搭载双MEMS麦克风阵列,支持蓝牙与Wi-Fi传输,主打无感佩戴和随时录音 [1] - 产品支持实时纪要功能,用户可在录音中实时查看字幕和AI总结,并支持柱状图等多种图例样式 [4] - 产品配合充电舱可实现超过32小时总续航,存储空间为8GB,可保存约250小时音频,充电10分钟可录音2小时,参数在同类产品中处于主流水平 [4] 产品设计与定位 - 产品采用豆状设计,而非市场主流的卡片形态,这是一个有意的差异化选择,强调无感佩戴和全天候随身 [1] - 豆状设计可夹在衣领、口袋边缘或通过磁吸配件固定,降低了录音的仪式感,便于用户在会议、客户拜访、通勤等场景随时开启录音 [2] - 产品目标用户与飞书现有客户高度重合,均为会议密集、文档繁多的知识密集型行业,如互联网高新技术行业 [6][7] - 产品逻辑基于目标客户的使用习惯和痛点,例如会议纪要需区分发言人、自动提取待办事项、历史记录可被检索 [7] 行业趋势与竞争 - 自2025年海外创业公司Plaud凭借AI录音卡片产品打开市场后,国内已有多家厂商跟进推出类似产品,但大厂亲自下场做AI录音硬件的案例并不多见 [1] - 2024年开始,市场上涌现AI录音卡片、录音豆、AI便携相机、AI眼镜等创新硬件形态,试图在手机之外寻找更贴近用户日常场景的AI交互入口 [1] - 2025年以来,随着基础模型尤其是多模态能力提升,语音交互领域迎来新一波创业热潮,讯飞、搜狗、字节旗下豆包等纷纷升级或推出AI语音输入产品 [5] - 当前市场共识认为,类似录音设备的硬件可在较短时间内被复刻,但产品体验差距更多来自工程层面的持续打磨,如会议纪要模板优化、后处理流程调校等 [7] 战略协同与竞争优势 - 飞书入局AI硬件是其产品体系的自然延伸,能够与飞书文档、飞书多维表格等拳头产品更好地协同 [6][7] - AI录音豆覆盖从会中到会后的全流程:会议进行时可实时查看AI生成的要点总结;会议结束后能快速输出包含发言角色、待办事项和关键决策的完整纪要 [5] - 所有录音内容会自动沉淀至飞书知识库,AI自动完成从语音到文字、从文字到结构化信息的转化,用户可通过AI助手以对话方式对历史内容进行检索、提问和二次创作 [6] - 飞书在AI Native公司中渗透率颇高,例如DeepSeek、MiniMax、月之暗面、智谱AI等头部大模型公司创业初期就选择了飞书作为内部协作工具 [6] - AI录音豆搭载字节跳动自研的豆包大模型,其在多模态理解能力上处于行业领先,识别准确率和对复杂对话的理解能力直接影响转写精准度和智能纪要生成质量,这构成了创业公司难以短期追平的技术壁垒 [7] 市场机遇与产品愿景 - 无论是AI语音输入法还是AI硬件,当前的创业趋势都指向争夺成为用户AI助手的记忆入口,谁能获取更多用户上下文数据,谁就能提供更个性化的AI服务并构建更深的产品壁垒 [5] - 飞书产品体系脱胎于字节跳动这个高知识密度的组织,其从互联网高新技术行业切入,将文档、会议和转写等功能做得足够好的差异化路线,使其在AI时代拥有不错的口碑和产品体感 [6]
设计师朱梦也以“以人为本”的AI交互设计获多项国际奖项
南方都市报· 2026-01-07 13:35
行业趋势 - 2025年被行业视为设计创新与人本科技深度融合的一年[1] - 人机交互的发展趋势在于实现情感共鸣和价值传递,为技术注入人文温度[11] - 行业专家指出,实现有“温度”的人机交互需要在技术突破与设计理念上双轨并进[11] 核心设计理念 - 设计师朱梦也秉持“以人为本”的人工智能交互设计理念,其核心是让尖端技术服务于人的真实需求[1][4] - 优秀的设计需要将创造力、技术与共情心融合在一起[4] - 在技术快速发展的当下,更需要以人文关怀来引导科技方向[11] 产品“Quackiverse”概述 - “Quackiverse”是一款将生成式AI与语音交互应用于儿童语言学习的平台[1] - 该平台旨在为6至15岁儿童打造沉浸式语言学习世界,将学习转化为充满探索与互动的旅程[8] - 产品针对传统语言教育中“缺乏趣味性”、“难以坚持”、“家长陪伴不足”等痛点构建[8] 产品“Quackiverse”功能与机制 - 平台以生成式AI与语音识别技术为核心,通过智能语音反馈、故事式任务与游戏化闯关机制进行教学[8] - 系统能实时判断用户的发音与语义水平,并生成个性化学习任务和奖励机制[9] - 家长端设有“学习中心”,提供详细的进度报告与语音评分分析,实现家庭教育与AI教学的有机协作[9] 市场认可与评价 - 设计师朱梦也凭借其设计理念与作品,斩获德国iF设计奖、欧洲产品设计奖等多项国际大奖[1] - 国际评审团评价“Quackiverse”实现了AI教育体验的情感化与个性化,在社会价值与创新性上均具领先意义[9] - 该产品在健康科技与创意教育等领域探索了AI交互的新可能[1]
豆神教育:公司的学伴机器人深度融合了火山引擎RTC技术与豆包大模型,但对公司经营基本面无重大影响
每日经济新闻· 2026-01-05 16:14
公司技术合作 - 豆神教育的学伴机器人产品深度融合了火山引擎的RTC技术与豆包大模型 [2] - 技术合作旨在实现实时对话与精准引导,搭建自然、流畅、富有智慧的语音交互场景 [2] - 以上技术模型的接入有助于提升学伴机器人的语音交互效果和用户体验 [2] 对公司经营的影响 - 公司明确表示,相关技术合作对公司的经营基本面无重大影响 [2]
报道:OpenAI整合团队拟一季度发布新语音模型,为发布AI个人无屏设备铺路
华尔街见闻· 2026-01-02 06:27
公司战略与产品规划 - OpenAI正在优化其音频人工智能模型,为计划中的语音驱动型个人设备做准备 [1] - 公司过去两个月内整合了工程、产品和研究力量,集中攻克音频交互的技术瓶颈,目标是打造一款可通过自然语音指令操作的消费级设备 [2] - 新语音模型计划于2026年第一季度发布,将具备更自然的情感表达能力和实时对话功能,包括处理对话打断的能力 [2] - 公司还计划推出一系列无屏设备,包括智能眼镜和智能音箱,将设备定位为用户的“协作伴侣”而非单纯的应用入口 [2] - 公司在2025年初斥资近65亿美元收购了前苹果设计主管乔尼·艾夫联合创办的io,并同步推进供应链、工业设计与模型研发等多条工作线 [5] 技术整合与团队架构 - OpenAI当前的语音模型与文本模型分属不同架构,导致用户通过语音与ChatGPT对话时,获得的回答质量和速度均逊于文本模型 [2][3] - 为解决此问题,公司完成了关键团队整合,从Character.AI加入的语音研究员Kundan Kumar担任音频AI项目核心负责人 [4] - 产品研究主管Ben Newhouse正在重构音频AI基础设施,多模态ChatGPT产品经理Jackie Shannon也参与其中 [4] - 新音频模型架构旨在生成更精准深入的回应,支持与用户实时对话,并更好地处理对话打断等复杂场景 [4] 产品理念与市场判断 - OpenAI与谷歌、亚马逊、Meta和苹果的判断相似,认为现有主流设备并不适合未来AI交互 [4] - 公司团队希望用户通过“说话”而非“看屏幕”与设备互动,认为语音才是最贴近人类交流本能的方式 [4] - 合作硬件开发的前苹果设计主管乔尼·艾夫强调,无屏幕设计不仅更自然,还有助于避免用户沉迷 [4] 市场挑战与用户培养 - OpenAI面临的主要障碍在于用户行为,多数ChatGPT用户尚未养成语音交互习惯 [5] - 用户习惯未养成的原因包括音频模型质量不足或用户未意识到该功能存在 [5] - 要推出以音频为核心的AI设备,公司需先培养用户通过语音与AI产品互动的习惯 [5] - 公司需要在产品发布前,通过改进现有ChatGPT语音功能来积累用户基础,并验证音频交互在日常场景中的实用性 [6] - 首款设备预计至少还需一年时间才能面世 [5]
OpenAI整合团队开发音频AI模型 为发布AI个人设备铺路
新浪财经· 2026-01-01 23:32
OpenAI音频AI模型优化与硬件战略 - 公司正整合工程、产品和研究团队,在过去两个月内共同推进音频模型的优化,以应对当前语音模型在回答准确性和响应速度上落后于文本模型的挑战 [2] - 新音频模型架构旨在生成更自然、更具情感且更精准深入的回应,同时支持与用户实时对话并更好地处理对话打断,现有模型无法实现此功能 [2] - 该新音频模型的目标发布时间为2026年第一季度 [2] OpenAI消费级AI设备计划 - 公司计划推出一款主要依赖音频交互、支持语音指令的消费级设备,首款设备预计至少一年后面世 [2] - 与谷歌、亚马逊、Meta和苹果类似,公司正探索开发新型个人AI设备,包括可穿戴设备 [3] - 公司计划逐步发布一系列设备,如眼镜、无屏智能音箱,而非单一产品 [4][8] 设备设计理念与交互愿景 - 公司研究人员希望用户通过语音而非屏幕与设备交互,许多AI专家认为语音是更自然的交互方式 [3] - 无屏设计可能减少用户对设备的依赖,与公司合作硬件开发的前苹果设计主管乔尼·艾夫强调,纠正以往消费电子产品的负面影响是其首要目标 [3] - 在今夏的内部演示中,研究人员称该设备将作为用户的“协作伴侣”,主动提供目标达成建议,而非仅作为应用入口,设备还能通过音频捕捉环境与用户信息,实现情景化交互 [4][8] 面临的挑战与团队构成 - 公司面临一大挑战:多数ChatGPT用户尚未养成语音交互习惯,或因音频模型质量不足,或因未意识到该功能,推出以音频为核心的AI设备需先培养用户习惯 [3] - 音频AI项目的核心人物是今夏从Character.AI加入的语音研究员Kundan Kumar [3] - 项目其他负责人包括重构音频AI基础设施的产品研究主管Ben Newhouse,以及多模态ChatGPT产品经理Jackie Shannon [3]
通义端到端语音交互模型Fun-Audio-Chat发布
凤凰网· 2025-12-23 19:50
核心观点 - 通义大模型发布新一代开源端到端语音交互模型Fun-Audio-Chat-8B,主打“语音对语音”多轮对话能力,在多项评测中取得开源模型领先成绩,并已同步在多个平台开源 [1] 模型发布与技术定位 - 模型为通义百聆语音模型系列中首个主打“语音对语音”交互能力的模型,支持用户直接通过语音进行多轮对话 [1] - 模型在OpenAudioBench、VoiceBench、UltraEval-Audio、MMAU、MMSU、SpeechFunctionCall等多项语音与多模态评测中取得当前开源模型中的领先成绩,整体性能超过多款同参数规模模型 [1] - 该模型强调端到端语音交互能力,可直接用于语音聊天、情感陪伴、智能终端交互以及语音客服等场景 [1] - 与此前已发布的语音转文字模型Fun-ASR及文字转语音模型Fun-CosyVoice3不同,新产品聚焦于端到端交互 [1] 技术架构与训练创新 - 公司披露两项关键技术路径:Core-Cocktail两阶段训练策略,通过分阶段引入语音与多模态能力再与原有文本大模型参数融合微调,以降低对原有语言理解能力的影响,缓解“灾难性遗忘”问题 [2] - 引入多阶段、多任务的偏好对齐训练,使模型在真实语音对话中能更准确捕捉语义与情绪线索,提升对话自然度 [2] - 模型采用压缩—自回归—解压缩的双分辨率端到端架构,将音频帧率降低至约5Hz,在保证语音质量的前提下可节省近50%的GPU计算开销 [2] 行业影响与战略意义 - 模型的开源标志着通义大模型在语音交互方向进一步向“低算力、强对话”的实用化阶段推进 [2] - 该设计在当前语音大模型普遍算力成本较高的背景下,具有一定工程意义 [2] - 为开源语音大模型在真实场景中的部署提供了新的技术参考 [2]
完爆ChatGPT,谷歌这招太狠:连你的「阴阳怪气」都能神还原
36氪· 2025-12-15 10:04
谷歌Gemini 2.5 Flash原生音频模型核心更新 - 谷歌发布Gemini 2.5 Flash Native Audio(原生音频模型),标志着AI从“文本转语音”跨越到真正的“拟人化交互”时代 [1][3] - 模型核心在于“原生”,无需将声音转为文字再转回,实现了直接听、直接想、直接说,大幅提升了交互的自然度和流畅感 [6][8] - 此次更新让实时语音代理成为现实,用户可在Google AI Studio、Vertex AI及搜索中与有“脑子”、有“耳朵”的智能体进行实时对话 [10] 实时语音翻译功能突破 - 实时语音翻译功能已在美国、墨西哥和印度的安卓设备上通过Google翻译App进行Beta测试 [11] - 功能支持持续监听与双向对话,可实现“无感”翻译,系统能自动识别说话者并切换语言,用户无需手动操作 [11] - 具备风格迁移能力,能捕捉并保留说话者的语调、节奏、音高及情绪,实现带情感的翻译,而不仅仅是文字转换 [12][14] 开发者与企业级应用能力提升 - 在复杂多步骤函数调用测试ComplexFuncBench Audio中,Gemini 2.5取得了71.5%的高分,表现领先 [18] - 对开发者指令的遵循率从84%提升到了90%,显著增强了构建企业级服务时的可靠性与精准度 [23] - 模型在检索上下文方面取得显著进步,能更有效地记住之前对话内容,使多轮对话更连贯、更具逻辑性 [24] 技术规格与性能优势 - 支持70多种语言和2000多个语言对,覆盖全球绝大多数人的母语 [19] - 支持多语言混输,可同时理解一场对话中混杂的几种不同语言 [19] - 具备噪声鲁棒性,专门针对嘈杂环境优化,能有效过滤背景音 [19] 实验性产品Disco与GenTabs - 谷歌实验室推出实验产品Disco,内置基于Gemini 3打造的工具GenTabs [30][31] - GenTabs能通过主动理解复杂任务(如用户打开的标签页和聊天记录)并创建交互式网络应用程序来帮助完成任务,无需编写代码 [32] - 该工具目前macOS版已开放排队,旨在将“浏览”行为转变为“创造”行为 [36] 产品发布与未来展望 - Gemini 2.5 Flash Native Audio现已在Vertex AI上全面推出,并在Google AI Studio中可供试用 [37] - 预计2026年,实时翻译等功能将通过Gemini API扩展到更多产品中 [28] - 此次更新预示着语音交互正成为下一个时代的入口,AI正从屏幕中被解放出来,融入日常听觉体验 [25][27]