Mistral AI发布新开源语音生成模型 - 法国人工智能公司Mistral发布了一款名为Voxtral TTS的新开源文本转语音模型,该模型可用于语音AI助手或客户支持等企业应用场景 [2] - 该模型允许企业构建用于销售和客户互动的语音助手,使Mistral直接与ElevenLabs、Deepgram和OpenAI等公司展开竞争 [2] 模型的技术特点与性能 - Voxtral TTS模型支持九种语言,包括英语、法语、德语、西班牙语、荷兰语、葡萄牙语、意大利语、印地语和阿拉伯语 [3] - 该模型基于Ministral 3B架构构建,是一款小型语音模型,能够适配智能手表、智能手机、笔记本电脑等边缘设备 [3] - 其成本仅为市场上其他产品的零头,却能提供最先进的性能 [3] - 模型能够通过不到五秒的音频样本适配定制语音,并能捕捉细微口音、语调变化、声调起伏以及言语流中的不规则特征 [4] - 模型可轻松在不同语言间切换且不丢失语音特征,适用于配音或实时翻译等场景,公司希望模型呈现人性化音色而非机械感 [4] - 该模型专为实时性能打造,其首次音频生成时间在处理500字符的10秒样本时仅为90毫秒 [4] - 模型具备6倍实时因子,这意味着渲染10秒音频片段仅需约1.6秒 [4] 公司的产品战略与市场定位 - 今年早些时候,Mistral推出了两款转录模型,一款用于大规模批量处理,另一款适用于低延迟实时场景 [5] - 通过这款新的语音模型,公司很可能旨在为企业提供一套完整的语音产品 [5] - 公司计划打造一个端到端的平台,能够处理包括音频、文本和图像在内的多模态输入流,并同样支持多模态输出 [8] - 该平台的主要优势在于,通过支持音频作为输入或输出的端到端智能体系统,能获取更丰富的信息 [8] - Mistral的定位在于其开源和可定制特性,这将帮助企业选择其语音模型而非竞争对手,因为他们可以按照自己的需求进行调整 [9]
速递|5秒样本完成声音克隆,Mistral发布新开源语音模型,正在补齐语音全栈
Z Potentials·2026-03-27 19:12