Workflow
TPU AI芯片
icon
搜索文档
速递|两名本科生3个月打造的AI语音模型,挑战谷歌NotebookLM,16亿参数实现自然对话生成
Z Potentials· 2025-04-23 11:49
行业概况 - 合成语音工具市场巨大且持续增长 主要参与者包括ElevenLabs PlayAI Sesame等 [1] - 2023年语音AI技术初创公司共获得3.98亿美元风险投资 [2] 公司技术 - Nari Labs开发的Dia模型具有16亿参数 支持从脚本生成对话 可自定义说话者语气并插入非语言线索 [2] - 模型通过Google TPU Research Cloud计划训练 可在10GB VRAM以上PC运行 提供语音克隆功能 [2][3] - 技术特点包括双向聊天生成能力 语音质量与主流工具相当 克隆功能操作简便 [3] 产品应用 - 模型部署在Hugging Face和GitHub平台 生成内容需依赖样式提示 否则输出随机语音 [3] - 计划扩展多语言支持 未来将构建具有社交属性的合成语音平台 [5] 潜在问题 - 缺乏内容防护机制 存在制作虚假信息/诈骗录音的风险 [4] - 训练数据来源未披露 可能涉及版权内容 样本中检测到类似NPR播客主持人的声纹特征 [5] 商业模式 - 采用开源模式发布技术报告 暂未披露商业化路径 [5] - 团队由非专业背景本科生组成 开发周期仅三个月 [1][2]