Workflow
AI播客
icon
搜索文档
AI播客的未来是成为每个人的音频助手,事实性、完整性和活人感都很重要|对话ListenHub
量子位· 2025-09-21 16:01
量子位智库 . 连接AI创新,提供产业研究 分析师 刘萌媛 刘铁鹰 量子位智库 | 公众号 AI123All 随着豆包和元宝两大头部智能助手的入场,能够在短短数分钟内将任何内容(话题、链接或文档)转为对话式播客的AI播客工具从小众走向了 大众视野。但 疑问依旧重重 —— 为了回答这些疑问,量子位智库邀请了入围2025年H1 创新AI 100 榜单的AI播客工具 ListenHub ,进行了一场深入交流。 AI播客究竟是天花板有限的 伪命题 ,还是场景仍可持续拓展的 新一代交互方式 主打功能大差不差,如何在 产品细节 上进行区分 语音交互技术 看似进展迅猛,但距离全面、满分的产品化还有多远 当大厂纷纷入局,初创产品起步虽早,该如何利用 先发窗口期 ….. 以下文章来源于量子位智库 ,作者量子位智库 在这次访谈中,创始人橘子老师将ListenHub定义为未来 每个人的音频助手 ,可以涵盖播客、文章甚至长内容等任何用户需要的音频内容形 式。结合ListenHub的实例,我们也看到AI播客产品(包括未来的Agent形态)中包含的know-how和细节设计远超想象。 此外,橘子老师也分享了自己作为多年AI产品负责人和创 ...
小红书智创音频技术团队:SOTA对话生成模型FireRedTTS-2来了,轻松做出AI播客!
机器之心· 2025-09-14 11:07
模型发布与定位 - 小红书智创音频技术团队发布新一代对话合成模型FireRedTTS-2 聚焦现有方案灵活性差、发音错误多、说话人切换不稳、韵律不自然等痛点 通过升级离散语音编码器与文本语音合成模型全面优化合成效果 [2] - 在多项主客观测评中 FireRedTTS-2均达到行业领先水平 为多说话人对话合成提供了更优解决方案 [2] 技术性能与效果 - FireRedTTS-2基于数百万小时语音数据训练 对重音、情绪、停顿等细节把握到位 听感自然流畅 [5] - 相比闭源的豆包 FireRedTTS-2的播客生成自然度可与之媲美 还支持豆包不具备的音色克隆能力 只需提供每个发音人的一句语音样本即可模仿其音色与说话习惯自动生成后续整段对话 [5] - 在开源对话生成模型中(如MoonCast、ZipVoice-Dialogue、MOSS-TTSD) FireRedTTS-2在多说话人音色切换的稳定性与韵律自然度方面处于行业领先 [6] - 支持随机音色生成 开箱即用地覆盖中文、英语、日语、韩语、法语等多种语言 [7] 技术架构创新 - 离散语音编码器以12.5Hz低帧率输出 1秒仅对应12.5个标签 缩短语音序列长度提升速度 缩小与文本序列的长度差距降低大语言模型建模难度 [14] - 编码器在训练时引入预训练模型提取的语义特征 对离散标签进行语义监督 使标签携带更丰富的语义信息 帮助模型更容易学会从文本到语音的映射 支持流式解码可实时输出音频 [14][15] - 离散语音编码器先在约50万小时的多样化语音数据上训练提升泛化能力 再在其中约6万小时的高质量语音上继续训练优化重建音质 [16] - 文本语音合成模型采用文本-语音混排格式 支持逐句生成便于后续编辑与多场景适配 混排格式将对话文本与语音组织为带说话人标签的序列 [17] - 采用双Transformer设计 1.5B参数的Backbone Transformer负责建模混排序列中语音的粗粒度信息 0.2B参数的Decoder Transformer补充语音中的声学细节 充分利用对话上下文生成更自然连贯的对话语音 [18][26] - 支持低首包延迟 配合离散语音编码器的流式解码实现更快起播 [18] - 采用两阶段训练 先在110万小时单句语音上预训练夯实合成基础 再用30万小时对话语音继续训练覆盖2–4人对话场景 可稳定生成高质量对话语音准确处理说话人切换保持上下文一致与自然韵律 [18] 性能评测结果 - 在自建的中英文对话测试集上与MoonCast、ZipVoice-Dialogue、MOSS-TTSD等系统比较 FireRedTTS-2在主客观指标上均为最优 [20] - 中文对话测试结果:CER为2.08(MoonCast为3.81 ZipVoice-Dialogue为2.93 MOSS-TTSD为3.99) SIM为0.753(MoonCast为0.658 ZipVoice-Dialogue为0.736 MOSS-TTSD为0.659) MCD为7.99(MoonCast为11.37 ZipVoice-Dialogue为9.29 MOSS-TTSD为8.32) CMOST为0.0(MoonCast为-0.21 ZipVoice-Dialogue为-0.18 MOSS-TTSD为-0.16) [20] - 英文对话测试结果:WER为3.16(MoonCast为3.81 ZipVoice-Dialogue为11.71 MOSS-TTSD为5.43) SIM为0.703(MoonCast为0.620 ZipVoice-Dialogue为0.701 MOSS-TTSD为0.550) MCD为9.06(MoonCast为10.96 ZipVoice-Dialogue为9.88 MOSS-TTSD为9.25) CMOST为0.0(MoonCast为-0.21 ZipVoice-Dialogue为-0.31 MOSS-TTSD为-0.13) [20] - 显著降低发音错误 避免说话人混淆 具有更真实的韵律表现 [20] - 只需约50小时的特定播客说话人录音即可完成音色定制 使对话合成的自然度逼近真人 [22] - 微调后CER仅为1.66% 在主观听评中28%的测例被认为比真实播客录音更自然 另有28%难以区分二者 总体56%的测例表明其自然度已达到或超过真实录音 [22] 应用前景与行业意义 - 为AI播客等对话合成应用提供了工业级解决方案 [6] - 既能满足创新玩法的探索 也可作为高效的生产力工具为下游任务生成高质量的对话/非对话音频数据 [7] - 随着多模态大模型的快速发展 全行业对数据的需求与日俱增 尤其在语音识别与对话交互领域需要大规模的多音色、跨语言音频数据 FireRedTTS-2能有效满足这一需求 [7] - 未来团队将持续优化FireRedTTS-2 拓展支持的说话人人数与支持的语种 并解锁可控音效插入等更多玩法 [25]
前百川联创下场、字节腾讯入局,到底谁在看好 AI 播客?
Founder Park· 2025-08-07 21:24
AI播客行业趋势 - AI播客赛道近期吸引多位知名从业者创业,如前百川智能联创焦可推出全AI生成产品"来福",前妙鸭相机产品负责人张月光开发AI加持型产品ChatPods [4][6][8] - 行业技术路径呈现从"AI辅助人类内容"向"AI原生生成内容"的转变,来福实现用户点播主题后3-5分钟生成15分钟对话式播客 [10][12] - 2025年5-8月国内密集上线多款AI播客工具,包括LitenHub、Coze、豆包、腾讯混元等,主要支持文字/链接/文件输入生成音频 [13] 产品技术特征 - 核心工作流程为"人机共创"模式:人类把控主题与核心观点,AI负责口语化转换、资料补充及对话演绎,可节省传统播客50%以上录制剪辑时间 [17][19] - ListenHub表现最优,其深度探索模式能生成8-15分钟带增量分析的播客,并支持语音克隆功能,综合评分高于Coze(存在事实错误)和豆包(抢话问题) [15][20][23] - 当前技术局限体现在无法处理即兴访谈内容,且生成时长普遍短于主流播客(15分钟内),缺乏二次剪辑等配套工具 [25][35] 市场应用场景 - 新闻类播客是AI最适配领域,欧美市场Top250播客中新闻类占比达30%(美国)至45%(法国),AI可高效完成事实性内容生产 [37] - 娱乐/知识类播客面临替代阻力:娱乐内容依赖主播即兴发挥(占用户收听动机48%),知识类以访谈形式为主(Top11科技播客中10档为访谈) [30][32] - 行业马太效应显著,头部播客如《硅谷101》订阅量超27万,AI生成内容在权威性、趣味性方面难以竞争 [31][41] 用户行为与产品数据 - 来福早期下载量约2000次,功能测试显示其能根据用户兴趣标签推荐内容,但存在生成失败率 [10][12] - 用户可通过语音/文字与播客AI实时交互,如要求生成特定主题内容(如"背部运动")或进行提问闲聊 [10] - 中文播客创作者单期平均净工作时长12.9小时,AI工具可显著降低非专业创作者的音频制作门槛 [19]
前百川联创下场、字节腾讯入局,“AI小宇宙”正在被集体押注?
36氪· 2025-08-07 08:16
AI播客行业发展现状 - 前百川智能联合创始人焦可于2025年3月离职创业 7月推出AI生成播客产品"来福" 用户可通过语音或文字交互生成个性化播客内容[3][5] - 前妙鸭相机产品负责人张月光开发的ChatPods聚焦AI加持人类制作的播客 而来福实现从"AI加持"到"AI生成"的原生转变[1][6] - 海外NotebookLM热潮带动国内多款AI生成播客产品集中上线 包括5月20日的LitenHub 5月28日的Coze 6月17日的豆包及8月5日的腾讯混元[7] 技术实现与产品表现 - AI播客采用人机共创模式 人类负责主题与核心内容把控 AI负责口语化包装 资料补充及生成5-15分钟对话式播客[10] - 测试显示ListenHub Coze 豆包三款产品均能较好模仿播客风格 对话自然 内容覆盖完整 达到人类播客及格水平[12] - ListenHub在深度探索模式下可生成8-15分钟播客 添加增量分析与观点 Coze存在事实错误 豆包出现抢话且无增量信息[12][14][15] 市场应用场景局限性 - AI播客显著提效非访谈类节目的录制与后期环节 据JustPod数据中文播客每期净工作时长12.9小时 录制剪辑占比超50%[12] - 娱乐类播客依赖主播真实情绪与即兴发挥 知识类播客以访谈形式为主(小宇宙Top11科技播客中10档为访谈)AI难以有效加持[18][22] - 新闻类播客占整体市场7% 在法国和美国Top250中分别占比45%和30% 成为AI播客主要适用场景[26][27] 用户接受度与竞争格局 - 截至8月2日来福总下载量约2000次 早期阶段未收录活跃用户及收入数据[6] - 播客市场呈现强马太效应 头部主播需兼具知识性 趣味性 权威性及个人特点 AI生成内容难以竞争[28][30] - 用户收听播客主要目的为娱乐(48%)学习(41%)打发时间(39%)AI生成内容在非功利性场景接受度有限[21]
8.5犀牛财经晚报:期货市场有效客户规模突破260万 “吉利系”智驾团队拟进行大调整
犀牛财经· 2025-08-05 18:28
证券期货业监管动态 - 证券期货业启动标准实施情况专项调研 涉及20余项关键内容 目标为系统了解已发布标准对标达标情况 挖掘实施难点堵点 行业机构需在8月8日前反馈问卷 [1] - 期货市场有效客户规模突破260万个 创历史新高 较去年同期增长12% 2025年上半年新增客户41万个 同比增长2.5% [1] 消费科技与电子产品 - 2025年第二季度全球平板电脑出货量达3900万台 同比增长9% 环比增长5% [2] - Chromebook上半年出货量达1100万台 受益于日本GIGA学校项目推动的教育设备更新 [2] - 淘宝将上线大会员体系 打通饿了么、飞猪、盒马等阿里系资源 覆盖购物、外卖、旅行、出行权益 88VIP用户权益全面升级 [3] 企业战略与产品发布 - 贵州茅台将于8月8日发售新品"五星商标上市70周年纪念酒" 限量25568瓶 或定价7000元/瓶 [3] - 腾讯AI工作台ima上线新功能 支持上传文件生成AI播客 支持文件夹导入及Xmind文件AI解读 [4] - 吉利系智驾团队正进行调整 极氪智驾团队、吉利研究院及迈驰智行可能合并至千里智驾 涉及3000人 方案尚未确定 [4][5] 企业运营与市场回应 - 网易多款游戏出现登录异常 系机房网络故障导致 内部办公系统POPO也受影响 [5] - 海底捞客服否认将改制为半自助模式 称相关传言为不实消息 [5] - 贝因美回应奶粉涨价传闻 称所有产品均未涨价 公司坚守5%利润底线 [6] 融资与财务动态 - 强脑科技正以超13亿美元估值寻求IPO前融资 目标筹集约1亿美元 可能在香港或内地上市 [6] - 龙湖完成9.5亿元"20龙湖06"债券兑付 年内累计兑付公开债超100亿元 [6] - 上海建工成功发行15亿元中期票据 期限7年 利率2.29% 资金用于归还到期债务 [9] 投资与合作协议 - 山东海化拟投资23.2亿元取得中盐碱业29%股权 已签署合作投资框架协议 [10] 上市公司业绩表现 - 纽威股份上半年净利润6.37亿元 同比增长30.47% 营业总收入34.04亿元 同比增长19.96% [10] - 九洲药业上半年净利润5.26亿元 同比增长10.70% 营业收入28.71亿元 同比增长3.86% [11] - 中宠股份上半年净利润2.03亿元 同比增长42.56% 营业收入24.32亿元 同比增长24.32% [12] 金融市场表现 - 沪指涨0.96%再创年内收盘新高 重回3600点 深成指涨0.59% 创业板指涨0.39% [13] - 沪深两市全天成交额1.6万亿元 较上个交易日放量975亿元 全市场超3900只个股上涨 [13] - PEEK材料概念股爆发 银行股走强 算力硬件股活跃 医药股调整 [13] 监管与合规事项 - 大家财险枣庄中心支公司因给予保险合同约定外利益被罚7万元 相关责任人被罚1万元 大家财险年内被罚金额超百万 [7] - 动力新科收到上海证监局行政监管措施决定书 因2019-2023年子公司收入确认错报等问题被责令改正 相关责任人被出具警示函 [7][8] 科学研究进展 - 美国罗格斯大学研究发现全新物态"量子液晶" 有望应用于超高灵敏度量子磁传感器 研究成果发表于《科学进展》杂志 [3]
播客,“互联网鸡肋”的生与死
虎嗅APP· 2025-07-30 18:13
行业概况 - 中文播客行业处于快速发展期,但商业模式尚未成熟,头部平台小宇宙月活用户长期徘徊在百万级别,难以实现规模突破 [3] - 行业呈现高学历、高资产特征:78.7%听众年龄在18-40岁,81.3%具有本科及以上学历,超6成集中在一线及新一线城市 [7] - 用户商业价值显著:45.9%用户购买过付费内容,63.6%接受广告植入,51%年内有消费行为,35.4%产生复购 [8][9] 商业模式 - 当前主要变现方式为口播贴片(占比72.7%)、定制播客、听众打赏和付费内容,但头部播客《不合时宜》2024年仅获1单广告合作,主要依赖19万元会员收入 [21][23] - 商业转化效率低下:头部播客单期广告报价3.8-13.3万元,远低于短视频平台,且制作周期长(单期净工时12.9小时,剪辑耗时4.5小时) [22][23] - 品牌合作呈现两极分化:2024年超120个品牌自制播客,180个品牌投放广告(较2023年增50%),但主要集中在头部播客 [10][12] 竞争格局 - 平台竞争加剧:腾讯音乐收购喜马拉雅,B站推出"视频播客计划",豆瓣、小红书等平台相继布局 [4][31] - 海外市场对标明显:美国播客广告规模从2015年1.05亿美元增长至2024年42亿美元,Spotify/亚马逊等巨头通过收购布局 [13][19] - 视频化转型初见成效:B站视频播客Q1受众超4000万,观看时长从69亿分钟增至259亿分钟(涨幅270%),头部播客《菠萝油子》50%商单来自视频平台 [33][34] 技术变革 - AI工具渗透率提升:48.6%创作者使用AI辅助创作,42.9%表示愿意尝试,Google/字节跳动等推出AI播客生成功能 [28][30] - 视频播客成为新趋势:海外Top10播客中50-80%推出视频版,国内B站/喜马拉雅/抖音精选均试水视频播客 [31][32] - 转型挑战显著:视频化需重构内容逻辑,目前仅头部播客具备转型能力,中小创作者面临技术门槛 [33][34] 创作者生态 - 全职化程度低:仅20%创作者全职投入,62.9%无全职计划,84.3%保持月更,44.3%实现周更 [23] - 头部效应明显:新入局者中仅7.1%经验不足1年,现有粉丝基础的跨平台创作者更易成功 [23] - 生存压力倒逼创新:58.1%创作者接受过商单咨询,55.2%实际接单,平均第21-30期开始商业化 [27]
邱锡鹏团队开源MOSS-TTSD!百万小时音频训练,突破AI播客恐怖谷
机器之心· 2025-07-05 13:53
技术突破 - MOSS-TTSD首次基于百万小时音频训练,成功破除AI播客的「恐怖谷」魔咒,实现超高拟人度的逼真对话语音合成[3][5] - 模型采用离散化语音序列建模方法,在约100万小时单说话人语音数据和40万小时对话语音数据上进行训练,具备中英双语语音合成能力[13] - 创新性开发XY-Tokenizer语音离散化编码器,采用8层RVQ音频Codec将比特率压缩至1kbps,支持最长960秒音频生成[15][16][22] 性能表现 - 在中文播客生成测试中,MOSS-TTSD与商业产品豆包在多个维度表现相当[8] - 说话人分离模型在AISHELL-4等测试集上DER指标显著优于开源及商用版本(9.7 vs 11.1/11.7)[28][29] - 在500条中英文双人对话测试集中,音色克隆保真度和语音韵律自然度大幅领先开源模型MoonCast[31][34] 应用场景 - 特别适合播客、影视配音、长篇访谈、数字人对话带货等需要长语音生成的场景[22] - 展示案例包括邓紫棋&周杰伦、潘长江&嘎子等音色克隆,以及原神游戏讨论等长播客生成[11] - 支持电商直播、体育解说等需要多人对话语音合成的商业应用场景[1][5] 技术架构 - 基于Qwen3-1.7B-base模型进行续训练,采用自回归加Delay Pattern进行语音token生成[13][14] - 数据清洗流水线通过说话人分离模型和DNSMOS评分(≥2.8)确保语音质量[24][27] - 两阶段多任务学习:第一阶段训练ASR和重建任务,第二阶段通过GAN损失补充细粒度声学信息[17][18][19][21]
离开百川去创业!8 个人用 2 个多月肝出一款热门 Agent 产品,创始人:Agent 技术有些玄学
AI前线· 2025-07-04 20:43
核心观点 - 徐文健从百川智能离职后创立火星电波,专注于AI音频内容生成领域,推出产品ListenHub [10][12][19] - 公司采用订阅制商业模式,重点布局海外市场,目前注册用户约1万,DAU超1000 [25][28][29] - 团队强调组织文化和价值观建设,采用扁平化管理模式,现有8名成员 [15][16][33] 创业历程 - 徐文健经历两次创业失败后加入百川智能,期间接触Agent技术并确立创业方向 [4][5][6][7][10] - 在百川期间主导开发国内第一代Agents Workflow,后因项目叫停选择离职创业 [10] - 与合伙人冯雷成立火星电波,两人在性格和专长上形成互补 [12][15] 产品技术 - ListenHub包含三个核心引擎:意图分析引擎、内容生成引擎和音频转换引擎 [19] - 产品研发周期仅2个月,性能较初期Demo提升5-6倍 [19][23] - 采用多模型组合策略,在音频生成质量上优于部分开源工具 [20][21] - 技术路线分三阶段推进:有人味→个性化→垂直领域深度定制 [14] 团队管理 - 招聘更看重成长性和自驱力而非学历背景,团队成员从大专到名校硕士均有 [15] - 采用目标导向型管理模式,强调文化价值观统一,实现高度自主运作 [16][17] - 团队规模控制在20人以内,追求"小而美"的组织形态 [33] 市场策略 - 避开与大厂直接竞争,定位为AI应用公司而非基础设施提供商 [31][32] - 初期通过AI播客场景切入,未来计划拓展完整的内容消费链路 [27][28] - 海外市场获20多位KOL自发推广,商业化重点放在付费意愿更强的国际用户 [29] 行业观察 - 认为Agent技术与大模型同等重要,将重构内容生产消费方式 [10][12] - 指出大模型公司与应用公司的本质差异在于专注领域不同 [32] - 观察到新一代AI创业者具备全球化视野,从创业初期就布局海外 [29]
字节、讯飞、MiniMax,为什么都在上新“声音复刻”?
AI研究所· 2025-07-04 17:28
声音复刻技术竞速 - 字节跳动旗下豆包AI播客功能全量上线,可将8万字英文PDF在数秒内生成男女对谈播客,语气词、停顿节奏与真人无异 [1][2] - 科大讯飞2024年4月推出声音复刻功能升级,仅需10秒音频素材即可复刻角色声音,情绪表达与原角色难分伯仲 [1] - MiniMax海螺AI在2024年底已实现30秒语音素材克隆唐国强、林黛玉等人物声音,情感还原度高 [1][7] 技术细节与优势 - 豆包AI播客能将8万词英文起诉书在1-2分钟内转化为带封面图的完整播客,自动添加语气词、附和与停顿 [4] - 科大讯飞构建"三阶段层次化语音建模框架",通过星火底座大模型精确捕捉发音规律,实现"超拟人"效果 [4] - 海螺AI对中文语音情绪与音色把控精细,如林黛玉声音克隆中精准捕捉哀怨感,相比海外产品更贴合中文语境 [8] 行业应用与场景 - 讯飞超拟人合成技术已应用于智能座舱、教育等场景,如蔚来汽车智能助手NOMI情感表达与交互自然度大幅提升 [6] - 微软AzureAISpeech推出"神经语音"技术,谷歌WaveNet以波形级生成提升语音真实感 [9] - 中文场景下形成技术梯队:字节在语义理解领先,讯飞在专业场景精度占优,MiniMax以轻量化克隆和情感表达突围 [9] AI播客市场前景 - 2024年中文播客听众将达1.34亿,76.2%用户每天收听超半小时 [11] - 播客变现模式包括广告、付费订阅与IP衍生开发,头部节目单期广告报价达2-15万元,付费节目销售额可达数百万 [12][13] - 2024年中国播客广告市场收入约33亿人民币,规模仍有限但潜力巨大 [14]
扣子空间上线极致拟人的AI播客,这次真是降维打击了。
数字生命卡兹克· 2025-05-28 01:24
技术突破 - 扣子空间AI播客生成技术实现高度拟人化效果,包括自然语气、停顿和打断功能,几乎无法与真人播客区分 [1][2] - 生成流程高度自动化,仅需上传文件素材并输入简单Prompt指令即可完成,无需额外插件或复杂操作 [2][4] - 支持多格式输入转换,包括文字、PDF、视频等,并能自动生成带字幕的可视化网页 [5][14][21] 产品特性 - 平台已从邀请制转为全面开放,用户可直接访问https://space.coze.cn/使用 [2] - 生成速度极快,从输入到输出完整播客仅需几分钟 [4][18] - 支持智能搜索功能,无需素材输入即可基于网络信息生成主题播客 [24] 行业影响 - 该技术突破传统TTS的机械感,填补人类创作者产能不足的空白 [9][10] - 推动内容形式创新,可能催生介于听觉与视觉之间的新媒介形态 [11][13] - 显著降低音频内容创作门槛,使文字创作者能快速转化为高质量音频内容 [7][14] 用户体验 - 生成效果远超同类产品如NotebookLM的中文朗读功能 [6] - 目前存在时长限制问题,10分钟请求实际输出多控制在5分钟内 [6] - 特别适合碎片化场景如通勤、家务时消费内容,解放用户视觉通道 [8][12] 市场定位 - 定位于补充而非替代真人播客,主要扩展播客市场整体规模 [26][29][30] - 满足特定场景需求如"沉浸式吃瓜"等娱乐化内容消费 [14][19] - 实现多模态内容自由转换,代表未来内容流转方向 [31][32] 应用场景 - 商业场景:可将专业文档转化为更易理解的对话形式 [14] - 娱乐场景:实现"吃瓜文档"到互动式播客的转换 [19][20] - 教育场景:帮助用户快速理解网络流行概念如"i人团队"梗 [23][24]