Speech to Text
搜索文档
速递|ElevenLabs发布独立语音检测模型,旨在精细化理解和转录语音
Z Potentials· 2025-02-27 12:09
公司融资与估值 - AI初创公司ElevenLabs完成1.8亿美元巨额融资 估值达33亿美元 [1] 核心产品与技术能力 - 公司推出首个独立语音转文本模型Scribe 支持超过99种语言 [1] - 超过25种语言达到"优秀准确度"类别 词错误率低于5% 其中英语准确率为97% [1] - 模型具备智能说话人分离功能 可识别说话人并提供单词级时间戳 [3] - 自动标记声音事件(如观众笑声) 支持视频内容转录添加字幕 [3] - 在FLEURS和Common Voice基准测试中表现优于Google Gemini 2.0 Flash和Whisper Large V3 [2] 业务布局与竞争环境 - 公司从音频生成领域进军语音检测市场 与Gladia、Speechmatics、AssemblyAI、Deepgram及OpenAI的Whisper等竞争者直接竞争 [1] - 已为AI对话代理平台开发语音转文本组件 但Scribe是首个独立发布的语音检测模型 [2] - 目前仅支持预录制音频格式 实时低延迟版本即将发布 当前不适用于会议转录或语音笔记场景 [3] 商业化策略 - Scribe定价为每小时转录音频0.40美元 公司认为该价格具有竞争力 [3] - 部分竞争对手以更低价格提供音频转录服务 但存在功能差异 [3] 技术发展理念 - 公司认为语音转文字技术尚未完全解决 尤其在多语言场景表现不佳 [3] - 通过内部数据标注团队快速反馈 致力于构建更优的语音检测模型 [3]