速递｜5秒样本完成声音克隆，Mistral发布新开源语音模型，正在补齐语音全栈

Mistral AI发布新开源语音生成模型 - 法国人工智能公司Mistral发布了一款名为Voxtral TTS的新开源文本转语音模型，该模型可用于语音AI助手或客户支持等企业应用场景 [2] - 该模型允许企业构建用于销售和客户互动的语音助手，使Mistral直接与ElevenLabs、Deepgram和OpenAI等公司展开竞争 [2] 模型的技术特点与性能 - Voxtral TTS模型支持九种语言，包括英语、法语、德语、西班牙语、荷兰语、葡萄牙语、意大利语、印地语和阿拉伯语 [3] - 该模型基于Ministral 3B架构构建，是一款小型语音模型，能够适配智能手表、智能手机、笔记本电脑等边缘设备 [3] - 其成本仅为市场上其他产品的零头，却能提供最先进的性能 [3] - 模型能够通过不到五秒的音频样本适配定制语音，并能捕捉细微口音、语调变化、声调起伏以及言语流中的不规则特征 [4] - 模型可轻松在不同语言间切换且不丢失语音特征，适用于配音或实时翻译等场景，公司希望模型呈现人性化音色而非机械感 [4] - 该模型专为实时性能打造，其首次音频生成时间在处理500字符的10秒样本时仅为90毫秒 [4] - 模型具备6倍实时因子，这意味着渲染10秒音频片段仅需约1.6秒 [4] 公司的产品战略与市场定位 - 今年早些时候，Mistral推出了两款转录模型，一款用于大规模批量处理，另一款适用于低延迟实时场景 [5] - 通过这款新的语音模型，公司很可能旨在为企业提供一套完整的语音产品 [5] - 公司计划打造一个端到端的平台，能够处理包括音频、文本和图像在内的多模态输入流，并同样支持多模态输出 [8] - 该平台的主要优势在于，通过支持音频作为输入或输出的端到端智能体系统，能获取更丰富的信息 [8] - Mistral的定位在于其开源和可定制特性，这将帮助企业选择其语音模型而非竞争对手，因为他们可以按照自己的需求进行调整 [9]