语音交互
搜索文档
喝点VC|a16z专访百亿美金AI语音独角兽11Labs CEO :首要之务是深入行业内部,花时间理解他们的核心诉求与激励机制
Z Potentials· 2025-12-13 19:09
公司产品与技术演进 - 公司最初从文本转语音技术起步,随后构建了语音助手编排体系,并开发出完全持牌的音乐模型,如今已拓展至AI助手平台 [6] - 研究团队创建了首个能深度理解上下文的文本转语音模型,可精准转化情感语调并捕捉声音特征,实现了声音风格、年龄、性别、方言等要素的精准融合 [8] - 公司产品划分为两大创意领域:面向媒体娱乐创作者的创意平台,提供旁白、配音及音频后期制作服务;以及致力于重塑交互体验的智能助手领域 [8] - 公司拥有约20个产品团队,每个团队规模在5到10人之间,拥有完全自主权推进产品发布,这种小团队模式带来了强烈的主人翁意识和极快的推进速度 [8] - 在转向企业级市场时,核心在于构建系统内的知识库集成,并协助客户将知识库部署到电话服务商等系统中,同时解决从演示到生产环境的部署、测试、版本控制和长期监控优化等关键环节 [23] 研发与产品平衡策略 - 公司决策原则是:若研究工作预计超过三个月,产品团队即可自由添加新模型或扩展功能 [7][9] - 内部研究团队的指导原则是明确本季度希望交付的项目与长期计划,对于长期项目,利用其他工作填补时间差并优化方案 [9] - 公司早期曾为保持产品理念(如不添加语速调节滑块)而在研究层面攻坚九个月未果,最终由产品团队以极简方案解决,赢得了用户认可 [9] - 面向企业客户时,稳定性与可靠性至关重要,公司明确划分Alpha版本与非Alpha版本的界限,合作伙伴可自主决定是否优先获取可能存在不稳定性的Alpha版本 [25] - 在公司内部,项目被划分为“产品市场匹配前”与“产品市场匹配后”的阶段,前者给予6个月验证期,若未能达标则终止该产品 [26] 组织架构与人才管理 - 公司采用扁平化组织架构,实行无头衔制度,员工角色由能力而非资历决定,小团队模式(5-10人)使新成员从加入起就能对公司产生影响 [7][14] - 新组建的团队有六个月时间证明其价值,若能证明即可留存并继续运作 [14] - 公司采用全球化与枢纽办公室混合模式,在伦敦、华沙和旧金山设立枢纽办公室,以帮助新人融入,同时允许习惯远程的员工继续远程工作 [12] - 公司探索非传统招聘路径,例如曾招募一位在呼叫中心工作但拥有顶尖开源文本转语音模型的工程师,他后来成为团队中数据处理领域最杰出的研究员之一 [11] - 公司在某些岗位持续招募非常规背景的人才,并将其与传统背景的员工融合,后者能为前者提供指导,这种组合在销售等领域效果显著 [12] 市场拓展与行业合作 - 公司最初采用产品驱动增长模式,并尝试让工程师承担销售职能,但未奏效;目前采取销售占80%、工程占20%的混合模式,关键在于深度理解客户需求并紧密协作 [21] - 公司创建了声音市场平台,用户可创作并分享声音素材,被使用时即可获得收益;平台已拥有近万种声音资源,并向社区成员返利1000万美元 [17] - 公司与Merlin、Cobalt等四大唱片公司合作,通过授权方式将其音乐资源引入音乐模型,既能生成内容又能授予商业权利,此合作协议花费18个月才敲定 [18] - 行业合作的首要之务是深入理解行业的核心诉求与激励机制,明确哪些环节适合引入AI,哪些需要保留人工操作 [16] - 对于完全陌生的领域(如法律),公司采用引入深耕该领域的全职人员与大量咨询专家相结合的模式,以确保有效沟通和风险共担 [19][20] 企业级转型与规模化挑战 - 公司从服务创作者的品牌成功转向企业级市场,在AI智能助手平台、文本转语音及文本模型领域取得进展 [21] - 企业级应用的核心价值在于基础架构的稳固性,包括安全性、合规性以及高可用性,公司目标是为客户提供99.99%甚至99.999%的可用性保障 [24] - 随着团队规模扩大至350人,市场团队的激励机制变得至关重要;公司意识到配额与佣金是战略的滞后指标,必须确保其与战略目标紧密贴合,以最小化行为偏差 [26][27] - 公司实行独家销售制度,并设置防护措施,例如当销售团队遇到可能损害长期利益的交易时(如为赚取更高佣金而压低价格),可以上报并取消交易,即使这意味着放弃佣金 [27] - 在转向企业市场初期,内部存在怀疑态度,需要让团队相信长期方案的有效性,并在12个月后证明了方案的成功 [24]
瑞声科技助力夸克AI眼镜S1 开创语音交互新范式
中国经济网· 2025-12-03 12:53
产品发布与核心功能 - 阿里巴巴旗下夸克于11月27日正式推出首款自研旗舰双显AI眼镜——夸克AI眼镜S1,主打超级AI助理体验 [2] - 产品核心创新在于与瑞声科技深度共创的5麦克风阵列+骨传导高精度拾音系统,旨在破解智能眼镜在自然、私密、可靠交互方面的行业难题 [1][2] - 该拾音系统由5颗高性能麦克风(MIC)和1颗骨传导麦克风(VPU)组成,是目前AI眼镜行业中最豪华的拾音配置 [2][4] 技术突破与性能指标 - 联合定制的拾音系统通过声学特征识别用户意图,将误唤醒率降至行业新低 [1] - 骨传导麦克风VPU的信噪比高达77dB,专门优化捕捉人声频段,从物理层面隔绝环境噪声干扰 [4] - 该拾音方案的封装尺寸较行业水平缩小25%,为眼镜轻薄化设计释放更多空间 [4] - 其功耗较常规麦克风降低约50%,显著优化整机续航,保障AI功能持续稳定运行 [4] - 实测中,用户只需用近乎耳语的音量下达指令,眼镜便能即刻响应,结合强大的语义识别能力,突破交互瓶颈 [1] 用户体验与应用场景 - 新技术带来了全天候、全场景、私密性的高品质拾音与舒适聆听体验 [2] - 在嘈杂地铁车厢里,夸克眼镜依然能准确接收指令,而传统智能眼镜的语音识别可能失灵 [4] - 在安静图书馆内,用户可以用气声与眼镜交互,不打扰周围读者 [4] - 在户外公园中,大风风噪不再影响智能眼镜通话与交互质量 [4] - 知名UP主电丸科技AK评价其语音交互体验“就像从功能机时代进入了智能机时代” [4] 行业意义与发展前景 - 此次合作精准攻克了智能眼镜在语音交互与私密沟通上的核心技术瓶颈 [5] - 语音交互摆脱了“用户迁就设备”的被动桎梏,私密沟通从“附加需求”升级为“标准配置” [5] - 智能眼镜正从极客玩具走向大众消费品,但此前面临无法在任何场景下实现自然、私密且可靠交互的难题 [1] - 该技术为整个智能穿戴行业勾勒出从“功能满足”到“体验革新”的发展蓝图,推动设备成为真正打破场景限制、契合大众日常需求的“贴身智能伙伴” [5] - 瑞声科技的创新解决方案在多人多语种实时翻译、驾车抗噪交互、运动场景对讲及健康监测等场景带来更大想象空间 [4] - 未来的智能穿戴设备将不再是冰冷的技术集合,而是能读懂需求、尊重隐私、无缝融入生活的“感知延伸”,开启从“可用”到“好用”再到“离不开”的全新体验 [5]
可识别唇语,苹果的新专利可能会解救头戴设备
36氪· 2025-12-01 10:18
苹果公司新专利技术 - 公司获批一项新专利,未来头戴式设备将支持通过视觉传感器读取唇语,实现无声语音输入 [1] - 该技术旨在解决用户在无法或不愿说话的佩戴场景下的交互问题 [3] - 该无声输入模式有望成为解决公共场合使用痛点的两全其美方案 [10] AI/XR头戴设备行业现状与挑战 - 行业正迎来热潮,小米和阿里等公司已相继进入市场 [3] - 但产品面临高退货率挑战,在抖音电商平台上AI眼镜的平均退货率达到40%-50% [3] - 产品被用户列为“吃灰神器”,主要痛点包括元器件增多导致的佩戴负担以及语音交互问题 [3] 语音交互的核心痛点 - 在公共场合使用语音交互会使用户产生“羞耻感”或社交压力 [6] - 公共场合环境音复杂,用户需提高音量以确保指令被识别,这与公序良俗相悖且暴露隐私 [6] - 语音交互的信息量大,需要用户耗费更多精力进行分析和筛选,对人脑的上下文联想不友好 [8] - 马化腾曾指出语音交互在公共场合使用显得“好傻”、不好意思且不私密 [6] 现有交互方案的局限性 - 语音交互是当前最具性价比的解决方案,但要求用户必须发出声音 [8] - 若强化语音识别、自然语义处理、远场拾音等技术以捕捉低声语音,成本将大幅提升,导致潜在受众减少 [8] - 此前主要的镜腿触控交互不符合人体工学,频繁举手操作易导致疲劳 [10] - TWS耳机的触控交互可行是因为其为低频操作场景,不适用于需要频繁交互的头戴设备 [10] 唇语识别技术的潜力与影响 - 识别唇语技术可通过向AI模型灌输不同语言用户的唇部动作数据进行预训练来实现 [12] - 该技术只需搭配成熟的AI视觉模型,并非“黑科技” [10] - 解决识别率问题后,有望搬开阻碍AI眼镜、XR头显在公共场合广泛使用的最大绊脚石 [12] - 一旦用户能毫无顾忌地使用,此类产品将有机会从小众尝鲜产品转变为大众化消费电子产品 [14]
出门问问(02438)下跌16.67%,报0.7元/股
金融界· 2025-08-22 15:26
股价表现 - 8月22日盘中股价下跌16.67%至0.7港元/股 [1] - 当日成交金额达2755.84万元人民币 [1] 财务表现 - 2025财年中报营业总收入为1.79亿元人民币 [2] - 归属股东应占溢利为-289.8万元人民币 [3] - 净利润同比大幅改善,增长幅度达99.5% [3] - 基本每股收益为0元人民币 [3] 公司概况 - 公司专注于生成式AI和语音交互技术 [1] - 业务覆盖AIGC产品、AI政企服务及AIoT智能硬件三大领域 [1] - 服务对象包括内容创作者、企业和消费者群体 [1] - 2024年4月在香港交易所完成上市(股票代码:02438.HK) [1] - 已建立大模型技术能力与产品矩阵 [1] - 战略定位为全球AICoPilot引领者 [1]
出门问问(02438)上涨6.59%,报0.97元/股
金融界· 2025-08-06 09:42
股价表现 - 8月6日盘中股价上涨6.59%至0.97港元/股 [1] - 当日成交额达100.02万港元 [1] 公司业务定位 - 公司是以生成式AI和语音交互为核心的人工智能企业 [1] - 主营业务覆盖AIGC产品、AI政企服务及AIoT智能硬件三大领域 [1] - 服务对象包括内容创作者、企业和消费者三大群体 [1] 资本市场状态 - 公司于2024年4月在香港交易所上市(股票代码:02438.HK) [1] - 已构建领先的大模型技术能力与产品矩阵 [1] - 致力于成为全球AICoPilot引领者 [1] 财务表现 - 2024年年报显示营业总收入为3.9亿元人民币 [2] - 同期净利润为亏损7.21亿元人民币 [2]
出门问问(02438)上涨10.26%,报0.86元/股
金融界· 2025-08-04 11:20
股价表现 - 8月4日盘中上涨10.26%至0.86元/股 [1] - 当日成交金额达2757.42万元 [1] 公司概况 - 以生成式AI和语音交互为核心技术的人工智能公司 [1] - 服务对象包括内容创作者、企业和消费者三大群体 [1] - 主营业务覆盖AIGC产品、AI政企服务及AIoT智能硬件 [1] - 2024年4月在香港交易所上市(股票代码02438HK) [1] 财务数据 - 2024年营业总收入3.9亿元 [2] - 2024年净利润亏损7.21亿元 [2] 技术定位 - 已构建领先的大模型技术能力与产品矩阵 [1] - 致力于成为全球AICoPilot引领者 [1]
出门问问(02438)下跌8.33%,报0.77元/股
金融界· 2025-08-01 16:12
股价表现 - 8月1日盘中股价下跌8.33%至0.77港元/股 [1] - 当日成交额达1.53亿元 [1] 公司业务定位 - 以生成式AI和语音交互为核心技术的人工智能公司 [1] - 服务内容创作者、企业和消费者三大群体 [1] - 主营业务涵盖AIGC产品、AI政企服务及AIoT智能硬件 [1] - 致力于成为全球AICoPilot引领者 [1] 财务数据 - 2024年年报显示营业总收入为3.9亿元 [2] - 2024年年报显示净亏损达7.21亿元 [2] 资本市场动态 - 2024年4月在香港交易所上市 股票代码02438.HK [1]
出门问问(02438)下跌10.39%,报0.69元/股
金融界· 2025-07-31 10:31
股价表现 - 7月31日盘中股价下跌10.39%至0.69港元/股 [1] - 当日成交额达3556.11万元人民币 [1] 公司业务概况 - 以生成式AI和语音交互为核心技术的人工智能公司 [1] - 服务内容创作者、企业和消费者三大群体 [1] - 主营业务涵盖AIGC产品、AI政企服务及AIoT智能硬件 [1] - 致力于成为全球AICoPilot引领者 [1] 财务数据 - 2024年年报显示营业总收入3.9亿元人民币 [2] - 2024年年报净利润亏损7.21亿元人民币 [2] 公司背景 - 2024年4月在港交所上市(股票代码:02438.HK) [1] - 已构建领先的大模型技术能力与产品矩阵 [1]
出门问问(02438)上涨10.64%,报0.52元/股
金融界· 2025-07-30 13:30
股价表现 - 7月30日盘中股价上涨10.64%至0.52港元/股 [1] - 当日成交额达1333.3万元人民币 [1] 公司业务定位 - 以生成式AI和语音交互为核心技术的人工智能公司 [1] - 服务内容创作者、企业和消费者三大群体 [1] - 主营业务涵盖AIGC产品、AI政企服务及AIoT智能硬件 [1] - 致力于成为全球AICoPilot引领者 [1] 财务数据 - 2024年营业总收入3.9亿元人民币 [2] - 2024年净亏损7.21亿元人民币 [2] 公司背景 - 2024年4月在香港交易所上市(股票代码:02438.HK) [1] - 已构建领先的大模型技术能力与产品矩阵 [1]
热搜第一!微信新功能来了
中国基金报· 2025-07-23 10:03
微信新功能灰度测试 - 聊天界面新增语音自动转文字并发送功能 部分用户开启灰度测试 相关话题登上微博热搜首位[1] - 点击聊天框右侧专用语音输入按钮后 按钮变为绿色 用户说话内容实时转换为文字显示在输入框中[1] - 语音识别技术支持普通话转换 准确率较高 可替代手动输入 用户说出"over over"指令后系统自动发送文字消息 无需手动操作[3] 语音交互功能创新 - 功能针对双手忙碌或不便触屏场景设计 目前仍处于测试阶段 仅向小部分用户开放[3] - 业内人士认为这是对语音交互场景的创新探索 可提升特定场景下的交流效率 但需优化识别精度与交互自然度[5] 其他功能更新 - 聊天记录备份支持外部存储设备 如U盘和移动硬盘 可创建管理多份备份文件并支持自动备份 测试范围持续扩大[6] - 视频号支持修改三个月内发布视频的封面和文案 文案最多修改20个字 封面可更换并预览效果 仅支持修改一次[7] - 微信QQ地震预警功能覆盖全国 四川以外地区也可开启 新增强预警通知功能 安卓系统支持全屏弹窗和声音播报倒计时 iOS系统暂未支持[8] - 手机端支持个人公众号一键注册和内容发布 已有公众号用户可直接通过手机撰写发布图文 回复留言 新用户可快速注册 公众号分享到朋友圈可显示来源[9] - 自动翻译功能支持18种语言 包括简体中文 英语 日语等 用户可设置自动翻译聊天消息 无需单独长按翻译[10] - "附近的工作"小程序上线 搜索关键词可匹配所在城市零工 支持按距离 薪资待遇 性别筛选 岗位信息由政府人社部门审核 覆盖超200个地市[11] - 通讯录满10000人后提示无法添加好友 跳转至"已把你删除的联系人"列表 支持每次删除5个单向好友直至全部删除[12] 用户反馈与需求 - 网友对新功能评价两极分化 部分认为"好玩""实用" 部分认为"over over"指令在公开场合使用"羞耻""中二"[3][5] - 用户呼吁推出被好友删除提示 传输文件不过期 朋友圈照片不压缩等功能 微信近期已内测朋友圈发表情包和图片等功能[5]