多模态情感交互语音大模型Luna系列
搜索文档
独家|VUI Labs宇生月伴完成数千万元天使+轮融资,同创伟业领投,打造行业领先的情感语音大模型和多模态Agent
Z Potentials· 2026-02-28 10:12
融资与资金用途 - VUI Labs(宇生月伴)宣布完成数千万元天使+轮融资,由同创伟业领投,老股东靖亚资本、小苗朗程持续加注,心流资本FlowCapital担任长期财务顾问[1] - 公司半年累计获得近亿元投资[1] - 所募资金将用于核心模型迭代、产品和商业化落地、全球人才引进及Voice Agent平台建设,以夯实公司在“超低延迟+情感交互+多模态智能体(Agent)+端侧模型”上的综合壁垒[1] 公司背景与使命 - VUI Labs是语音人工智能领域的先行者,专注于打造全球领先的多模态情感对话语音大模型与语音智能体平台[2] - 公司由教育部长江学者、上海交通大学计算机学院特聘教授和人工智能学院双聘教授、听觉认知与计算声学研究中心负责人钱彦旻教授创办[2] - 公司创始人兼CEO梅杰是一位连续成功创业者,毕业于浙江大学竺可桢学院创新与创业管理强化班[2] - 公司致力于构建全链路情感交互语音技术能力,以“让AI听懂情感,让交互充满温度”为使命,打造下一代AI原生交互入口,为用户提供更智能、更自然的语音交互体验[2] 核心技术:Luna系列模型 - 基于在端到端语音模型的深厚积累(团队于2019年在全球第一个提出端到端语音模型训练),公司自研了多模态情感交互语音大模型Luna系列[3] - Luna-1作为全球首个端到端情感语音交互模型,在VoiceBench权威测评中取得79.05的高分,属于行业第一梯队,语音对话延迟仅1.4秒,达到行业领先水平[3] - 公司覆盖全栈语音模型技术,在超低延时和丰富情感语音交互、丰富情感语音生成、多说话人理解等方面全面对标国内外一线语音模型厂商,如Google、ElevenLabs、OpenAI、HumeAI和Sesame等[3] - Luna-TTS-1语音合成模型延迟低至200毫秒,在自然度、可控性、稳定性方面稳居TTS行业第一梯队[4] - 公司依托自主可控的高吞吐数据管线持续生产高质量语音数据,通过深度场景化优化实现稳定可靠的输出效果,无需依赖“抽卡式”生成[4] 核心技术:同声传译模型 - 团队在同声传译模型领域提出的SimulMEGA无监督策略学习框架,将基于前缀的训练与一个混合专家精炼器结合,以隐式方式学习有效的读/写决策,且推理阶段不引入额外开销[5] - 基于该框架的Luna-Live-Translation-1是全球首个可端侧部署的同声传译模型,模型大小仅500M,延迟低至1.5秒,支持数十种语言互译[5] - 该模型已在某知名手机品牌的欧洲版本上落地商业应用[5] 产品:语音智能体SaySo - 公司于2026年1月推出首个C端语音智能体产品SaySo,定位为智能语音助手[6] - SaySo能够精准理解上下文语境,优化输出内容,消除创意构思和表达落地之间的鸿沟[6] - 公司构建了完整的语音智能体技术框架,涵盖多步规划、工具调用、长时记忆与智能体编排等核心能力,实现从语音交互到任务执行的全链路打通[6] - 与传统的语音转文字工具不同,SaySo被定位为懂思考的合作者[7] 产品表现与用户反馈 - 在早期测试阶段,SaySo展现出远超预期的用户粘性,正迅速演变为核心生产力界面[11] - 用户78%的文字产出已由其完成,横跨近50个主流应用,周处理的语音转文字生成量近千万[11] - 仅6周,中位数用户的键盘依赖度即断崖式降至20%,绝大部分数字化工作流已完全交由语音智能体接管[11] - 早期用户给予极高好评,有用户表示其体验“就像真正拥有了《钢铁侠》里的贾维斯”[7] - 有资深内容创作者分享,过去需要1小时完成的稿件,通过口述与SaySo协作不到10分钟就能搞定,且生成的文本完全不需要二次修改,可一键分发到各大社媒平台,帮助其在一周内收获了“几十万”的爆款流量[7] 战略愿景与行业观点 - 公司创始人钱彦旻教授表示,自然语言正在成为新的编程语言,但键盘逐渐成为束缚人类表达效率的枷锁,公司致力于推动语音成为下一代人机交互的核心界面[12] - 公司通过端到端情感语音交互模型、高表现力语音合成模型、低延迟同声传译模型、多人对话语音理解模型以及Skill-based Voice Agent Framework,为VUI的落地与规模化提供关键基础设施[12] - 投资方同创伟业认为,下一代人机交互界面的核心技术在于语音,语音交互的核心在于时延与情感,VUI Labs在这两方面的基础技术都非常优秀,超越Sonic 3与Elevenlabs[13] - 投资方靖亚资本指出,基于语音大模型的多模态Agent在To B和To C的应用场景中非常有价值,并举例海外市场ElevenLabs的ARR已突破3.3亿美金,估值超过110亿美金,与SaySo相似的Agent应用Wispr Flow估值超过7亿美金[13] - 投资方小苗朗程认为,语音交互作为AI时代全新的核心交互方式与重要信息入口,具备广阔的市场增量空间[14]