Workflow
Scribe v2 Realtime
icon
搜索文档
腾讯研究院AI速递 20251113
腾讯研究院· 2025-11-13 00:08
生成式AI行业动态与巨头战略 - Meta首席AI科学家LeCun因AI战略分歧将离职,其领导的FAIR实验室被边缘化,公司战略重心转向快速推出模型和AI产品 [1] - LeCun坚信大模型无法通往AGI,离职后将成立新公司专注推进“世界模型”研究,目前正在进行早期融资洽谈 [1] - Meta今年已进行超4次架构调整,由28岁的Alexandr Wang领导全新的“超级智能”团队 [1] AI模型技术突破与应用 - 谷歌AI Studio神秘模型成功识别200多年前的“天书”账本,字符错误率仅1.7%,词错误率6.5%,达到人类专家级准确度 [2] - 该模型展现出抽象推理能力,能纠正原账本书写格式错误,并在18世纪非十进制货币系统等极端场景下表现出色 [2] - AI语音公司ElevenLabs发布Scribe v2 Realtime模型,实现150毫秒超低延迟和93.5%高准确率,覆盖90多种语言 [3] - ElevenLabs成立于2022年,目前拥有7000万用户,月均生成3000万份文档,公司估值达33亿美元 [3] AI产品功能更新与市场策略 - OpenAI即将为ChatGPT网页版推出群聊功能,支持文件上传和图像生成,且群聊的自定义指令与个人设置完全独立以保护隐私 [4] - 此举被解读为OpenAI意图获取企业对话数据以改进模型,并可能推出原生AI生产力套件以取代现有工具 [4] - AI演示工具Gamma以21亿美元估值完成6800万美元B轮融资,50人团队实现年经常性收入1亿美元 [7] - Gamma全面开放API并发布提示词指南,目前已积累7000万用户,其中付费用户超60万,公司自2023年起持续盈利 [7] AI在创意与内容生成领域进展 - LiblibAI旗下Lovart推出分层图像编辑功能,可将像素位图一键拆分为多个可编辑图层,支持中英文识别 [5] - AI生成虚拟歌手“Breaking Rust”的歌曲登上Billboard乡村数字单曲销售榜冠军,月度听众达180万 [6] - 过去几个月至少有6位AI或AI辅助艺术家出现在Billboard榜单,引发关于真人创作竞争力的行业讨论 [6] 资本市场与初创公司融资 - 物理AI公司极佳视界完成亿元级A1轮融资,由华为哈勃等机构投资,这是该公司两个月内完成的第三轮融资 [7] - 极佳视界产品覆盖自动驾驶世界模型等全栈软硬件,已与多家头部主机厂签约定点合作,并发布了国内首个自动驾驶世界模型 [7] 开发者生态与编程语言趋势 - GitHub报告显示TypeScript以约4.2万名贡献者优势首次超越Python,成为使用最广泛的语言 [7] - TypeScript在2025年贡献者数量增长超100万(同比增长66%),主要驱动力来自开发框架和AI辅助开发 [7] - Python在AI和数据科学领域仍保持主导地位,拥有260万贡献者(同比增长48%) [7]
硅谷热议:最快语音转文字模型
量子位· 2025-11-12 16:01
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 最强语音转文字模型,正在硅谷被热议。 直接把"快、 准、全"三个字拉到了新高度。 来自AI语音独角兽公司ElevenLabs,刚刚发布了 Scribe v2 Realtime 实时语音转文本模型,网友表示:Next-Level。 何出此言?还得看它这组王炸数据—— 据官方数据,Scribe v2 Realtime在针对前30种常用语言的FLEURS基准测试里,准确率飙到93.5%,在一众同赛道模型中表现突出。 150毫秒的超低延迟,93.5%的高准确率,还覆盖了90多种语言 。 要知道,人类眨一次眼的平均时长在100-400毫秒……这就意味着,你说完一句话眨下眼,文字就已经同步到屏幕上了。 小测一下 不仅延迟低,准确率也破新高。 就算环境吵闹,方言讲话、或者说话内容里夹着一堆专业术语,它也能精准抓住每一个关键词,甚至能辨别你的笑声是大笑还是苦笑 (doge)。 适配能力也比较全面。在音频格式方面,像PCM(8-48kHz)、μ-law 编码等常用类型都能支持。语音活动检测功能可以精准检测语音起 止,手动提交控制能让使用者自主决定何时最终确定转录内容,便于实 ...