语音播客模型

搜索文档
豆包上线AI播客功能,入局“耳朵经济”赛道
北京日报客户端· 2025-06-19 17:35
豆包AI播客功能上线 - 豆包电脑版上线AI播客功能,用户上传PDF或网页链接后可一键生成双人对话式播客节目 [1] - AI生成的播客在音色、停顿、语气词等细节上接近真人,解决传统AI播客口语化不足、听感机械的问题 [1] - 功能基于豆包大模型团队推出的语音播客模型,实现文本到双人对话播客的"秒级"转化 [1] - 功能已在扣子空间、豆包电脑版上线,豆包APP开启小流量测试并将全量上线 [2] 中文播客行业动态 - 播客从小众内容转变为社交媒体平台竞相布局的新赛道,微信、豆瓣、微博等推出音频创作扶持计划,小红书、B站探索视频播客领域 [1] - 2024年中文播客节目数量较3年前增长6倍,听众数超过2.2亿 [2] - 腾讯音乐拟以12.6亿美元现金加股权组合全资收购头部播客平台喜马拉雅 [2] - B站积极引入播客节目,提供现金和流量激励 [2] AI技术对播客行业的影响 - AI播客生成器ListenHub、谷歌NotebookLM等推出类似功能,行业竞争加剧 [2] - 业内人士认为,缺乏个人观点和独特体验的播客主播可能被淘汰,行业将迎来新一轮洗牌 [2]
一手评测Seedance 1.0 pro,字节首次登顶视频大模型竞技场的大杀器来了。
数字生命卡兹克· 2025-06-11 11:36
火山引擎发布会核心内容 - 火山引擎发布多款AI模型产品线,包括豆包大模型1.6、豆包视频生成模型Seedance 1.0 pro、语音播客模型及端到端语音模型等[1] - Seedance 1.0 pro视频生成模型近期在行业榜单表现突出,技术实力获得市场关注[1][2] - 该模型已通过即梦AI视频3.0 pro形式进行内测,展现六边形战士式的全面能力[6][8] 视频生成技术突破 多镜头组合 - 支持通过"镜头切换"触发词实现分镜自动切换,完成复杂叙事结构[9][13] - 成功实现10秒视频中精确还原包含3次镜头切换的复杂Prompt指令[13][15] - 具备初级文字生成能力,能识别并生成路牌等场景文字元素[16][18] 运动质量 - 物理模拟能力突出,准确表现后坐力、火光反射等细节[20][22] - 复杂动作如骷髅跳踢踏舞、双人互动场景均保持稳定[22][24] - 运动场景处理优异,篮球运球投篮动作符合物理规律[26] 情绪表现 - 实现从微笑到恐惧的完整情绪谱系表现[32][36][38] - 宇航员缺氧场景提供两种差异化表演方案[44][46] - 角色微表情处理细腻,如战场新兵手足无措的状态[71] 技术参数与商业化 - 支持360度环绕、追车等专业级运镜技术[49][51][54] - 物理引擎覆盖陆地、水下及太空场景,保持规律一致性[55][57][59][61] - 风格化处理能力突出,保持像素风、动漫等特定风格一致性[71][73][75] - 商业化定价为每5秒1080P视频3.67元,已开放企业端接入[79] - 消费者端通过豆包App"照片动起来"功能全量上线[80] 行业影响 - 代表国产视频生成模型达到国际第一梯队水平[77] - 技术突破集中在语义理解、物理规律和风格一致性领域[77] - 行业竞争加剧推动技术快速迭代,最终利好终端用户[78][80] - 标志AI视频生成进入多维度能力比拼的新阶段[81][82]