Speech to Text - 财报，业绩电话会，研报，新闻 - Reportify

Speech to Text

搜索文档

速递｜ElevenLabs发布独立语音检测模型，旨在精细化理解和转录语音

Z Potentials· 2025-02-27 12:09

公司融资与估值 - AI初创公司ElevenLabs完成1.8亿美元巨额融资估值达33亿美元 [1] 核心产品与技术能力 - 公司推出首个独立语音转文本模型Scribe 支持超过99种语言 [1] - 超过25种语言达到"优秀准确度"类别词错误率低于5% 其中英语准确率为97% [1] - 模型具备智能说话人分离功能可识别说话人并提供单词级时间戳 [3] - 自动标记声音事件（如观众笑声）支持视频内容转录添加字幕 [3] - 在FLEURS和Common Voice基准测试中表现优于Google Gemini 2.0 Flash和Whisper Large V3 [2] 业务布局与竞争环境 - 公司从音频生成领域进军语音检测市场与Gladia、Speechmatics、AssemblyAI、Deepgram及OpenAI的Whisper等竞争者直接竞争 [1] - 已为AI对话代理平台开发语音转文本组件但Scribe是首个独立发布的语音检测模型 [2] - 目前仅支持预录制音频格式实时低延迟版本即将发布当前不适用于会议转录或语音笔记场景 [3] 商业化策略 - Scribe定价为每小时转录音频0.40美元公司认为该价格具有竞争力 [3] - 部分竞争对手以更低价格提供音频转录服务但存在功能差异 [3] 技术发展理念 - 公司认为语音转文字技术尚未完全解决尤其在多语言场景表现不佳 [3] - 通过内部数据标注团队快速反馈致力于构建更优的语音检测模型 [3]

Artificial Intelligence

Speech Detection

Artificial Intelligence

Google Gemini 2.0 Flash

Artificial Intelligence

Speech Detection

Artificial Intelligence

Google Gemini 2.0 Flash