文本转语音模型
搜索文档
硅谷热议:最快语音转文字模型
量子位· 2025-11-12 16:01
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 最强语音转文字模型,正在硅谷被热议。 直接把"快、 准、全"三个字拉到了新高度。 来自AI语音独角兽公司ElevenLabs,刚刚发布了 Scribe v2 Realtime 实时语音转文本模型,网友表示:Next-Level。 何出此言?还得看它这组王炸数据—— 据官方数据,Scribe v2 Realtime在针对前30种常用语言的FLEURS基准测试里,准确率飙到93.5%,在一众同赛道模型中表现突出。 150毫秒的超低延迟,93.5%的高准确率,还覆盖了90多种语言 。 要知道,人类眨一次眼的平均时长在100-400毫秒……这就意味着,你说完一句话眨下眼,文字就已经同步到屏幕上了。 小测一下 不仅延迟低,准确率也破新高。 就算环境吵闹,方言讲话、或者说话内容里夹着一堆专业术语,它也能精准抓住每一个关键词,甚至能辨别你的笑声是大笑还是苦笑 (doge)。 适配能力也比较全面。在音频格式方面,像PCM(8-48kHz)、μ-law 编码等常用类型都能支持。语音活动检测功能可以精准检测语音起 止,手动提交控制能让使用者自主决定何时最终确定转录内容,便于实 ...