AI播客
搜索文档
又一明星创始人入局AI播客、红杉中国押注,这次能翻出水花吗?
创业邦· 2025-10-28 12:19
以下文章来源于白鲸出海 ,作者白鲸小编 白鲸出海 . 白鲸出海,泛互联网出海服务平台,白鲸专注于具备互联网属性的行业、公司、产品和服务的出海,包 括应用、游戏、电商、区块链、智能手机及硬件、旅游、网络文学、影视、动漫、教育、体育和金融 等。 此前的选题,我们曾经多次观察过"明星创业者"入局 AI 播客的案例,包括张月光推出的 ChatPods 和焦可推出的来福。 ChatPods 和来福近 90 天的双端下载量|图片来源:点点数据 但是一段时间过去,从数据上看,两款产品都不甚理想,点点数据显示,ChatPods 9 月份全球下载 量 3.5 万,但由于体量较小,第三方数据没有捕捉到活跃用户,其月流水也仅有不到 100 美元;而 上线更晚的来福,数据更低,9 月下载量仅有 2000 左右,未能捕捉到 MAU 和收入数据。 来源丨 白鲸出海(ID:baijingapp) 作者丨 张凯然 编辑丨 殷观晓 图源丨 Aibrary官网 李可佳(Ethan KJ Li)的工作履历|图片来源:LinkedIn 即便前者遭遇挫折,也并没有影响后来者的热情。最近,曾任字节智慧教育业务线 CEO 的李可佳 (Ethan KJ L ...
又一明星创始人入局AI播客、红杉中国押注,这次能翻出水花吗?
36氪· 2025-10-24 07:59
行业背景与市场定位 - AI播客市场竞争激烈,早期产品如ChatPods和来福市场表现不佳,ChatPods在9月份全球下载量为3.5万,月流水不足100美元,而来福同期下载量仅约2000,未能捕捉到月活跃用户和收入数据[1][2] - Aibrary定位为终身学习生态系统的AI微学习代理,专注于将书籍转化为个性化播客,服务于个人学习场景,与NotebookLM等产品形成差异化竞争[4][5] - 公司创始人团队拥有深厚教育行业背景,包括字节跳动智慧教育业务前CEO李可佳、好未来前国际投资与战略发展总监吴俊东等,产品于2024年4月23日上线测试,9月23日正式推出[3][4][19] 产品功能与核心特点 - Aibrary建立了个性化推荐算法,通过6步注册流程收集用户年龄、性别、兴趣主题、崇拜名人和使用目标等信息,用于主页内容推荐[7] - 产品提供三种内容形式:符合用户需求的书单、特定书籍详情(包含文字介绍、摘要音频和播客音频)、以及针对特定议题生成的Idea Twin Podcast[11] - 书籍详情部分提供两段8-10分钟的音频,包括书籍大纲简介的"单口"Summary和解析大纲的"对口"Podcast,均由系统生成[13] - Idea Twin Podcast是核心差异化功能,需要用户选择书籍、AI主持人声音、填写个人信息并克隆自己声音,系统根据输入生成用户"分身",与AI主持人进行问答式播客,生成需消耗100个Credits[15] 技术实现与内容生成 - Aibrary采用三个ChatBot分工协作:Nova负责主要用户交互,Orion提供知识管理服务,Atlas负责目标拆解和复盘,但在实际体验中Nova承担绝大多数回复任务[7][8] - 产品通过参考书籍内容生成Summary和Podcast,未使用原书封面,律师评估认为处于法律灰色地带,版权风险较低[13] - 内容生成基于用户输入的个人信息(如教育情况、专业、职业、MBTI等),"分身"回答内容会参考这些信息,用户声音克隆旨在增强沉浸感[15][16] 商业模式与定价策略 - Aibrary采用订阅制,绝大部分书籍需要订阅才能访问,Idea Twin Podcast功能需要消耗积分生成,非订阅用户仅能生成1个播客[15][22] - 产品定价为每周6.99美元或每年89.99美元,提供7天免费试用,相较于Audible的年订阅价159.99美元具有价格优势[22] - 公司已完成多轮融资,投资者包括红杉中国、初心资本、Factorial Fund等知名风险投资机构[4] 发展阶段与未来规划 - 产品目前处于"未完工"状态,个性化推荐和个性化内容生成已实现,但定制学习流程和交互式辅导等持续监督功能尚未明显体验[18][21] - 团队下一步迭代重点为建立良好的反馈机制,并用AI丰富更多引发思考的个性化内容,形成"内容-行动-反馈-成长"的闭环学习系统[20][21] - 创始人认为AI时代教育需从"内容灌输"转向"认知重塑",强调激发用户思考和建立快速反馈机制的重要性[20]
我们想“冒充”雷军做个英文播客,测了6款AI播客产品后发现…
锦秋集· 2025-10-14 18:39
文章核心观点 - AI播客生成工具在信息整合、多语言生产和风格转译方面已具备较强能力,但在模仿特定人物声音、建立真实情感连接和处理复杂角色互动方面存在明显局限 [63][64][65][66][67][68][69][70][71][72][73][74][75][76][77][78][79][80][81][82][83][84] 测试工具概览 - 测评涵盖6款海内外AI播客生成工具:ListenHub、NotebookLM Podcast、豆包网页播客、腾讯混元AI播客、Skywork、Monica AI [9] - 工具主要支持将文本、网页、文档转化为双人对谈式音频,多数具备多语言支持功能 [9] - 价格策略多样,部分工具提供免费额度,会员起价从$9/月至$24.9/月不等 [9] 测评维度与场景设计 - 测评围绕生成效率、声音与对话自然流利程度、内容相关度与更新度、功能丰富性四大核心维度展开 [5] - 设计四个具体应用场景:模仿雷军英文演讲、生成三人圆桌播客、科普台风知识、学术报告脱口秀改编 [11][27][41][53] 场景一测评结果:人物声音模仿 - 多数产品无法模仿雷军声音,仅能生成标准播音员效果 [14][16][18] - 豆包网页播客和腾讯混元AI播客生成速度极快,几乎无需等待 [20] - ListenHub和豆包网页播客内容质量最佳,完全覆盖演讲主题且关键数据无误 [23] - 腾讯混元AI播客出现明显信息传达错误,Skywork存在凭空增量信息问题 [24][25] 场景二测评结果:多角色互动 - 无任何工具能成功模仿三位企业家的声音,多数采用双主持人模式简化处理 [32] - ListenHub在自然度、情感层次和功能完整性上表现最均衡 [33] - Skywork是唯一理解并执行"三人圆桌会议"设定的产品 [35] - 豆包网页版生成速度快但内容深度不足,腾讯混元AI错误率较高且机器感重 [34] 场景三测评结果:专业信息传达 - 除腾讯混元AI外,各产品均能完整复述台风科普核心信息 [47] - ListenHub、Skywork、NotebookLM在信息整合和脚本可视化方面表现优异,但生成时间较长 [48] - 豆包具备最快生成速度和紧张感呈现,但功能相对单一且存在轻微信息遗漏 [49] 场景四测评结果:风格化改编 - 多数产品能将专业论文压缩并解释清楚,差异主要体现在幽默感把控和生成速度 [60] - Skywork在本环节表现亮眼,加入大量幽默与通俗易懂元素 [62] - NotebookLM提供互动模式,允许用户与主持人交流以理解晦涩知识 [62] AI播客能力边界总结 - 已具备能力:快速信息整合(如2万字稿90秒生成15分钟播客)、跨语言内容生产、多风格内容转译 [66][67][68] - 核心局限:无法捕捉独特个人表达方式、难以建立真实情感连接、复杂角色扮演能力不足(除Skywork外) [70][72][73] - 当前价值主要体现在降低知识消费门槛、覆盖长尾需求、实现个性化定制和提升内容生成效率 [75][76][77] 行业应用前景 - AI播客适合长尾内容、浅层了解内容及复杂内容的"试听版"场景 [82] - 终局并非替代真人,而是重新定义内容生产和消费的效率边界 [83] - 工具适用性取决于具体场景,不存在完美解决方案 [84]
AI播客的未来是成为每个人的音频助手,事实性、完整性和活人感都很重要|对话ListenHub
量子位· 2025-09-21 16:01
核心观点 - AI播客工具ListenHub定位为“创作者的AI嘴替”,旨在成为每个人的音频助手,通过三层Agent架构将文字等内容转化为高质量播客 [6][28][100] - 公司认为AI应用的核心在于通过工程化将60分的模型能力提升至90分的产品体验,满足用户真实场景需求 [40] - 语音交互(视频接收+音频输出)被视为未来核心的人机交互方式,公司正基于此方向开发下一代Voice Agent产品 [60][61] 产品定位与功能 - ListenHub核心功能包括AI播客(支持双人或单人模式)和FlowSpeech(全球首个书面语转口语化音频的TTS功能) [9][10] - 产品通过逐字编辑、音色定制(Pro会员支持克隆个人音色)、单人播客等差异化功能满足专业创作者需求 [32] - 产品采用三层Agent架构:信息获取Agent、内容整理Agent(确保事实性和完整性)、口语转换Agent [16][25][26] 技术实现与优势 - 内容整理Agent通过吸收传统播客制作论文的know-how和用户反馈,有效减少AI“幻觉”,确保输出内容忠于原文 [18][23][24][27] - 技术优势体现在工程链路优化和上下文管理,尤其擅长处理信息密度高的领域如科技、财经内容 [26][32] - 模型选择依赖团队的“品位”,需建立标准化评估集并对齐认知,同时强调将Prompt编写与上线的距离缩短 [69][70][72] 用户画像与市场策略 - 当前付费用户主要为自媒体从业者,涵盖营养、医学、汽车、财经等领域,用于公众号内容创作和内部培训 [29][39] - 用户转化的关键指标是“Aha Moment”,即用户首次参与内容生产并听完生成音频的时刻 [44][45] - 公司采用MVP策略,通过前100个真实付费用户的需求反馈驱动产品迭代,定价为Pro版年费1000多元 [33][34][36] 商业化与运营 - 功能开发优先级以“用户付费”为核心指标,凡有助于付费的功能均优先开发 [38] - AI产品应从第一天起考虑收费,因付费用户能提供最真实反馈且留存率与活跃度更高 [93][94] - 当前增长以有机增长为主,付费转化率远高于国内行业普遍的千分之几或万分之几水平 [95][97] 行业竞争与趋势 - 面对大模型厂商能力覆盖的威胁,公司认为用户切换成本高,且大模型进步速度不足以迅速吞噬细分领域 [79][80] - AI应用公司的护城河在于用户know-how和认知积累形成的数据飞轮,而非网络效应 [54][55] - Agent被视为创作领域的最终产品形态,其范式为用户提出需求,AI自动完成并基于反馈迭代 [59] 产品开发方法论 - 公司推行“人人都是产品经理”模式,无传统产品经理岗位,利用AI工具提升团队30%-50%效率 [49][50][51] - AI产品应尽早推出,但首次亮相必须将核心链路做到极致,以形成强烈的第一品牌印象 [75][76] - 创业公司需做“别人没做过的创新”(如FlowSpeech),以从0到1的突破获得传播优势,后来者将面临更高认知成本 [83] 未来规划 - 3-5年内公司愿景是成为用户音频内容的首选,覆盖从播客到短内容、长内容乃至实时生成小说的各类需求 [100][101] - 计划通过浏览器插件、API等方式降低使用门槛,服务更广泛人群包括老人、视障人士等 [101] - 下一代产品将聚焦语音交互赛道,开发“音频陪伴”类Voice Agent,解决当前实时语音助手“智商不够”的痛点 [61][62][64]
小红书智创音频技术团队:SOTA对话生成模型FireRedTTS-2来了,轻松做出AI播客!
机器之心· 2025-09-14 11:07
模型发布与定位 - 小红书智创音频技术团队发布新一代对话合成模型FireRedTTS-2 聚焦现有方案灵活性差、发音错误多、说话人切换不稳、韵律不自然等痛点 通过升级离散语音编码器与文本语音合成模型全面优化合成效果 [2] - 在多项主客观测评中 FireRedTTS-2均达到行业领先水平 为多说话人对话合成提供了更优解决方案 [2] 技术性能与效果 - FireRedTTS-2基于数百万小时语音数据训练 对重音、情绪、停顿等细节把握到位 听感自然流畅 [5] - 相比闭源的豆包 FireRedTTS-2的播客生成自然度可与之媲美 还支持豆包不具备的音色克隆能力 只需提供每个发音人的一句语音样本即可模仿其音色与说话习惯自动生成后续整段对话 [5] - 在开源对话生成模型中(如MoonCast、ZipVoice-Dialogue、MOSS-TTSD) FireRedTTS-2在多说话人音色切换的稳定性与韵律自然度方面处于行业领先 [6] - 支持随机音色生成 开箱即用地覆盖中文、英语、日语、韩语、法语等多种语言 [7] 技术架构创新 - 离散语音编码器以12.5Hz低帧率输出 1秒仅对应12.5个标签 缩短语音序列长度提升速度 缩小与文本序列的长度差距降低大语言模型建模难度 [14] - 编码器在训练时引入预训练模型提取的语义特征 对离散标签进行语义监督 使标签携带更丰富的语义信息 帮助模型更容易学会从文本到语音的映射 支持流式解码可实时输出音频 [14][15] - 离散语音编码器先在约50万小时的多样化语音数据上训练提升泛化能力 再在其中约6万小时的高质量语音上继续训练优化重建音质 [16] - 文本语音合成模型采用文本-语音混排格式 支持逐句生成便于后续编辑与多场景适配 混排格式将对话文本与语音组织为带说话人标签的序列 [17] - 采用双Transformer设计 1.5B参数的Backbone Transformer负责建模混排序列中语音的粗粒度信息 0.2B参数的Decoder Transformer补充语音中的声学细节 充分利用对话上下文生成更自然连贯的对话语音 [18][26] - 支持低首包延迟 配合离散语音编码器的流式解码实现更快起播 [18] - 采用两阶段训练 先在110万小时单句语音上预训练夯实合成基础 再用30万小时对话语音继续训练覆盖2–4人对话场景 可稳定生成高质量对话语音准确处理说话人切换保持上下文一致与自然韵律 [18] 性能评测结果 - 在自建的中英文对话测试集上与MoonCast、ZipVoice-Dialogue、MOSS-TTSD等系统比较 FireRedTTS-2在主客观指标上均为最优 [20] - 中文对话测试结果:CER为2.08(MoonCast为3.81 ZipVoice-Dialogue为2.93 MOSS-TTSD为3.99) SIM为0.753(MoonCast为0.658 ZipVoice-Dialogue为0.736 MOSS-TTSD为0.659) MCD为7.99(MoonCast为11.37 ZipVoice-Dialogue为9.29 MOSS-TTSD为8.32) CMOST为0.0(MoonCast为-0.21 ZipVoice-Dialogue为-0.18 MOSS-TTSD为-0.16) [20] - 英文对话测试结果:WER为3.16(MoonCast为3.81 ZipVoice-Dialogue为11.71 MOSS-TTSD为5.43) SIM为0.703(MoonCast为0.620 ZipVoice-Dialogue为0.701 MOSS-TTSD为0.550) MCD为9.06(MoonCast为10.96 ZipVoice-Dialogue为9.88 MOSS-TTSD为9.25) CMOST为0.0(MoonCast为-0.21 ZipVoice-Dialogue为-0.31 MOSS-TTSD为-0.13) [20] - 显著降低发音错误 避免说话人混淆 具有更真实的韵律表现 [20] - 只需约50小时的特定播客说话人录音即可完成音色定制 使对话合成的自然度逼近真人 [22] - 微调后CER仅为1.66% 在主观听评中28%的测例被认为比真实播客录音更自然 另有28%难以区分二者 总体56%的测例表明其自然度已达到或超过真实录音 [22] 应用前景与行业意义 - 为AI播客等对话合成应用提供了工业级解决方案 [6] - 既能满足创新玩法的探索 也可作为高效的生产力工具为下游任务生成高质量的对话/非对话音频数据 [7] - 随着多模态大模型的快速发展 全行业对数据的需求与日俱增 尤其在语音识别与对话交互领域需要大规模的多音色、跨语言音频数据 FireRedTTS-2能有效满足这一需求 [7] - 未来团队将持续优化FireRedTTS-2 拓展支持的说话人人数与支持的语种 并解锁可控音效插入等更多玩法 [25]
前百川联创下场、字节腾讯入局,到底谁在看好 AI 播客?
Founder Park· 2025-08-07 21:24
AI播客行业趋势 - AI播客赛道近期吸引多位知名从业者创业,如前百川智能联创焦可推出全AI生成产品"来福",前妙鸭相机产品负责人张月光开发AI加持型产品ChatPods [4][6][8] - 行业技术路径呈现从"AI辅助人类内容"向"AI原生生成内容"的转变,来福实现用户点播主题后3-5分钟生成15分钟对话式播客 [10][12] - 2025年5-8月国内密集上线多款AI播客工具,包括LitenHub、Coze、豆包、腾讯混元等,主要支持文字/链接/文件输入生成音频 [13] 产品技术特征 - 核心工作流程为"人机共创"模式:人类把控主题与核心观点,AI负责口语化转换、资料补充及对话演绎,可节省传统播客50%以上录制剪辑时间 [17][19] - ListenHub表现最优,其深度探索模式能生成8-15分钟带增量分析的播客,并支持语音克隆功能,综合评分高于Coze(存在事实错误)和豆包(抢话问题) [15][20][23] - 当前技术局限体现在无法处理即兴访谈内容,且生成时长普遍短于主流播客(15分钟内),缺乏二次剪辑等配套工具 [25][35] 市场应用场景 - 新闻类播客是AI最适配领域,欧美市场Top250播客中新闻类占比达30%(美国)至45%(法国),AI可高效完成事实性内容生产 [37] - 娱乐/知识类播客面临替代阻力:娱乐内容依赖主播即兴发挥(占用户收听动机48%),知识类以访谈形式为主(Top11科技播客中10档为访谈) [30][32] - 行业马太效应显著,头部播客如《硅谷101》订阅量超27万,AI生成内容在权威性、趣味性方面难以竞争 [31][41] 用户行为与产品数据 - 来福早期下载量约2000次,功能测试显示其能根据用户兴趣标签推荐内容,但存在生成失败率 [10][12] - 用户可通过语音/文字与播客AI实时交互,如要求生成特定主题内容(如"背部运动")或进行提问闲聊 [10] - 中文播客创作者单期平均净工作时长12.9小时,AI工具可显著降低非专业创作者的音频制作门槛 [19]
前百川联创下场、字节腾讯入局,“AI小宇宙”正在被集体押注?
36氪· 2025-08-07 08:16
AI播客行业发展现状 - 前百川智能联合创始人焦可于2025年3月离职创业 7月推出AI生成播客产品"来福" 用户可通过语音或文字交互生成个性化播客内容[3][5] - 前妙鸭相机产品负责人张月光开发的ChatPods聚焦AI加持人类制作的播客 而来福实现从"AI加持"到"AI生成"的原生转变[1][6] - 海外NotebookLM热潮带动国内多款AI生成播客产品集中上线 包括5月20日的LitenHub 5月28日的Coze 6月17日的豆包及8月5日的腾讯混元[7] 技术实现与产品表现 - AI播客采用人机共创模式 人类负责主题与核心内容把控 AI负责口语化包装 资料补充及生成5-15分钟对话式播客[10] - 测试显示ListenHub Coze 豆包三款产品均能较好模仿播客风格 对话自然 内容覆盖完整 达到人类播客及格水平[12] - ListenHub在深度探索模式下可生成8-15分钟播客 添加增量分析与观点 Coze存在事实错误 豆包出现抢话且无增量信息[12][14][15] 市场应用场景局限性 - AI播客显著提效非访谈类节目的录制与后期环节 据JustPod数据中文播客每期净工作时长12.9小时 录制剪辑占比超50%[12] - 娱乐类播客依赖主播真实情绪与即兴发挥 知识类播客以访谈形式为主(小宇宙Top11科技播客中10档为访谈)AI难以有效加持[18][22] - 新闻类播客占整体市场7% 在法国和美国Top250中分别占比45%和30% 成为AI播客主要适用场景[26][27] 用户接受度与竞争格局 - 截至8月2日来福总下载量约2000次 早期阶段未收录活跃用户及收入数据[6] - 播客市场呈现强马太效应 头部主播需兼具知识性 趣味性 权威性及个人特点 AI生成内容难以竞争[28][30] - 用户收听播客主要目的为娱乐(48%)学习(41%)打发时间(39%)AI生成内容在非功利性场景接受度有限[21]
8.5犀牛财经晚报:期货市场有效客户规模突破260万 “吉利系”智驾团队拟进行大调整
犀牛财经· 2025-08-05 18:28
证券期货业监管动态 - 证券期货业启动标准实施情况专项调研 涉及20余项关键内容 目标为系统了解已发布标准对标达标情况 挖掘实施难点堵点 行业机构需在8月8日前反馈问卷 [1] - 期货市场有效客户规模突破260万个 创历史新高 较去年同期增长12% 2025年上半年新增客户41万个 同比增长2.5% [1] 消费科技与电子产品 - 2025年第二季度全球平板电脑出货量达3900万台 同比增长9% 环比增长5% [2] - Chromebook上半年出货量达1100万台 受益于日本GIGA学校项目推动的教育设备更新 [2] - 淘宝将上线大会员体系 打通饿了么、飞猪、盒马等阿里系资源 覆盖购物、外卖、旅行、出行权益 88VIP用户权益全面升级 [3] 企业战略与产品发布 - 贵州茅台将于8月8日发售新品"五星商标上市70周年纪念酒" 限量25568瓶 或定价7000元/瓶 [3] - 腾讯AI工作台ima上线新功能 支持上传文件生成AI播客 支持文件夹导入及Xmind文件AI解读 [4] - 吉利系智驾团队正进行调整 极氪智驾团队、吉利研究院及迈驰智行可能合并至千里智驾 涉及3000人 方案尚未确定 [4][5] 企业运营与市场回应 - 网易多款游戏出现登录异常 系机房网络故障导致 内部办公系统POPO也受影响 [5] - 海底捞客服否认将改制为半自助模式 称相关传言为不实消息 [5] - 贝因美回应奶粉涨价传闻 称所有产品均未涨价 公司坚守5%利润底线 [6] 融资与财务动态 - 强脑科技正以超13亿美元估值寻求IPO前融资 目标筹集约1亿美元 可能在香港或内地上市 [6] - 龙湖完成9.5亿元"20龙湖06"债券兑付 年内累计兑付公开债超100亿元 [6] - 上海建工成功发行15亿元中期票据 期限7年 利率2.29% 资金用于归还到期债务 [9] 投资与合作协议 - 山东海化拟投资23.2亿元取得中盐碱业29%股权 已签署合作投资框架协议 [10] 上市公司业绩表现 - 纽威股份上半年净利润6.37亿元 同比增长30.47% 营业总收入34.04亿元 同比增长19.96% [10] - 九洲药业上半年净利润5.26亿元 同比增长10.70% 营业收入28.71亿元 同比增长3.86% [11] - 中宠股份上半年净利润2.03亿元 同比增长42.56% 营业收入24.32亿元 同比增长24.32% [12] 金融市场表现 - 沪指涨0.96%再创年内收盘新高 重回3600点 深成指涨0.59% 创业板指涨0.39% [13] - 沪深两市全天成交额1.6万亿元 较上个交易日放量975亿元 全市场超3900只个股上涨 [13] - PEEK材料概念股爆发 银行股走强 算力硬件股活跃 医药股调整 [13] 监管与合规事项 - 大家财险枣庄中心支公司因给予保险合同约定外利益被罚7万元 相关责任人被罚1万元 大家财险年内被罚金额超百万 [7] - 动力新科收到上海证监局行政监管措施决定书 因2019-2023年子公司收入确认错报等问题被责令改正 相关责任人被出具警示函 [7][8] 科学研究进展 - 美国罗格斯大学研究发现全新物态"量子液晶" 有望应用于超高灵敏度量子磁传感器 研究成果发表于《科学进展》杂志 [3]
播客,“互联网鸡肋”的生与死
虎嗅APP· 2025-07-30 18:13
行业概况 - 中文播客行业处于快速发展期,但商业模式尚未成熟,头部平台小宇宙月活用户长期徘徊在百万级别,难以实现规模突破 [3] - 行业呈现高学历、高资产特征:78.7%听众年龄在18-40岁,81.3%具有本科及以上学历,超6成集中在一线及新一线城市 [7] - 用户商业价值显著:45.9%用户购买过付费内容,63.6%接受广告植入,51%年内有消费行为,35.4%产生复购 [8][9] 商业模式 - 当前主要变现方式为口播贴片(占比72.7%)、定制播客、听众打赏和付费内容,但头部播客《不合时宜》2024年仅获1单广告合作,主要依赖19万元会员收入 [21][23] - 商业转化效率低下:头部播客单期广告报价3.8-13.3万元,远低于短视频平台,且制作周期长(单期净工时12.9小时,剪辑耗时4.5小时) [22][23] - 品牌合作呈现两极分化:2024年超120个品牌自制播客,180个品牌投放广告(较2023年增50%),但主要集中在头部播客 [10][12] 竞争格局 - 平台竞争加剧:腾讯音乐收购喜马拉雅,B站推出"视频播客计划",豆瓣、小红书等平台相继布局 [4][31] - 海外市场对标明显:美国播客广告规模从2015年1.05亿美元增长至2024年42亿美元,Spotify/亚马逊等巨头通过收购布局 [13][19] - 视频化转型初见成效:B站视频播客Q1受众超4000万,观看时长从69亿分钟增至259亿分钟(涨幅270%),头部播客《菠萝油子》50%商单来自视频平台 [33][34] 技术变革 - AI工具渗透率提升:48.6%创作者使用AI辅助创作,42.9%表示愿意尝试,Google/字节跳动等推出AI播客生成功能 [28][30] - 视频播客成为新趋势:海外Top10播客中50-80%推出视频版,国内B站/喜马拉雅/抖音精选均试水视频播客 [31][32] - 转型挑战显著:视频化需重构内容逻辑,目前仅头部播客具备转型能力,中小创作者面临技术门槛 [33][34] 创作者生态 - 全职化程度低:仅20%创作者全职投入,62.9%无全职计划,84.3%保持月更,44.3%实现周更 [23] - 头部效应明显:新入局者中仅7.1%经验不足1年,现有粉丝基础的跨平台创作者更易成功 [23] - 生存压力倒逼创新:58.1%创作者接受过商单咨询,55.2%实际接单,平均第21-30期开始商业化 [27]
邱锡鹏团队开源MOSS-TTSD!百万小时音频训练,突破AI播客恐怖谷
机器之心· 2025-07-05 13:53
技术突破 - MOSS-TTSD首次基于百万小时音频训练,成功破除AI播客的「恐怖谷」魔咒,实现超高拟人度的逼真对话语音合成[3][5] - 模型采用离散化语音序列建模方法,在约100万小时单说话人语音数据和40万小时对话语音数据上进行训练,具备中英双语语音合成能力[13] - 创新性开发XY-Tokenizer语音离散化编码器,采用8层RVQ音频Codec将比特率压缩至1kbps,支持最长960秒音频生成[15][16][22] 性能表现 - 在中文播客生成测试中,MOSS-TTSD与商业产品豆包在多个维度表现相当[8] - 说话人分离模型在AISHELL-4等测试集上DER指标显著优于开源及商用版本(9.7 vs 11.1/11.7)[28][29] - 在500条中英文双人对话测试集中,音色克隆保真度和语音韵律自然度大幅领先开源模型MoonCast[31][34] 应用场景 - 特别适合播客、影视配音、长篇访谈、数字人对话带货等需要长语音生成的场景[22] - 展示案例包括邓紫棋&周杰伦、潘长江&嘎子等音色克隆,以及原神游戏讨论等长播客生成[11] - 支持电商直播、体育解说等需要多人对话语音合成的商业应用场景[1][5] 技术架构 - 基于Qwen3-1.7B-base模型进行续训练,采用自回归加Delay Pattern进行语音token生成[13][14] - 数据清洗流水线通过说话人分离模型和DNSMOS评分(≥2.8)确保语音质量[24][27] - 两阶段多任务学习:第一阶段训练ASR和重建任务,第二阶段通过GAN损失补充细粒度声学信息[17][18][19][21]