百度集团(09888)
搜索文档
研判2025!中国文本转语音技术行业发展历程、产业链、发展现状、竞争格局及趋势分析:作为人机交互的重要组成部分,行业应用需求不断扩大[图]
产业信息网· 2025-11-10 08:59
文章核心观点 - 文本转语音技术作为人机交互的关键基础设施,正随着人工智能和深度学习技术的发展而快速演进,其应用从传统领域扩展至虚拟主播、个性化语音定制等新兴场景,行业市场规模在2024年达到187.6亿元人民币,同比增长22.77% [1][4][11] - 行业呈现“国际技术引领,国内场景深耕”的竞争格局,未来发展趋势将聚焦于拟人化与长场景适配、多模态融合以及行业规范化发展 [11][14][15][16] 文本转语音技术行业相关概述 - 文本转语音技术是一种将文字内容转换为语音输出的技术,其核心价值在于打破信息传递的媒介限制,已成为人机交互领域的基础设施,广泛应用于智能客服、有声读物、车载导航及无障碍设备等场景 [4] - 技术工作原理主要包括文本预处理、语音合成和语音输出三个部分,通过算法和大量语音数据训练生成自然流畅的语音信号 [5] - 技术发展经历了从18世纪机械式合成到20世纪80年代后的拼接合成,再到2016年至今深度学习驱动的端到端系统的革命性演进 [6][7] 文本转语音技术行业产业链 - 产业链上游为核心硬件、算法框架与基础设施支持,中游是技术核心环节,下游应用领域涵盖教育、金融、医疗、媒体等 [8] - 在教育领域,技术应用于在线课程语音播报、辅助阅读工具等,属于智慧教育范畴,其市场规模从2015年的1864亿元增长至2024年的4176亿元 [8] - 在网络视听领域,技术用于内容制作的语音解说生成,2024年中国网络视听用户规模达10.91亿人,同比增长1.58% [9] 文本转语音技术行业发展现状 - 2024年中国文本转语音技术行业市场规模为187.6亿元人民币,同比增长22.77% [1][11] - 现代技术已从机械模拟演进为能生成接近人类水平自然度的智能系统,在传统及新兴应用场景中展现出巨大潜力 [1][11] 文本转语音技术行业竞争格局 - 行业格局为“国际技术引领,国内场景深耕”,国际企业如Google、微软占据高端市场,国内企业如科大讯飞、百度、云知声等在中文及垂直应用场景具备优势 [11] - 未来竞争将围绕边缘计算部署、多模态交互及伦理安全技术展开 [11] 重点企业分析 - 科大讯飞股份有限公司是智能语音和人工智能上市企业,以语音合成技术为起点,2025年1-9月营业收入为169.89亿元,同比增长14.41%,归母净利润亏损0.67亿元,亏损幅度同比收窄80.60% [12] - 云知声智能科技股份有限公司是专注于物联网人工智能服务的企业,2025年上半年营业收入为4.05亿元,同比增长20.2%,归母净利润亏损2.97亿元 [12] 文本转语音技术行业发展趋势 - 技术将向拟人化与长场景适配发展,聚焦情感化表达和长时音频合成能力,例如实现90分钟连续音频生成与多角色自然对话 [14] - 多模态融合成为核心发展路径,与文本、图像、视频生成等技术协同,构建全链路内容生产生态 [15] - 行业将向规范化发展,政策监管加强,核心关注数据隐私与声音版权保护,通过区块链等技术实现声音资产确权与追溯 [16]
高拟真数字人直播带货有多强
科技日报· 2025-11-10 07:41
核心技术优势 - 百度自主研发的剧本驱动多模协同高拟真数字人技术获得世界互联网大会领先科技奖 [1] - 该技术通过剧本驱动实现多模态协同 解决传统数字人语音、语言、视觉多模态割裂的问题 如台词生硬、情感匹配不佳、表情手势单一等 [1] - 基于大模型生成直播剧本 剧本自带视觉标签和语音标签 指导系统生成相应动作 [2] - 采用文本自控的语音合成方案 使数字人语音能精准传递调侃、得意、强调等细微情绪 提升自然度和感染力 [2] - 高一致性超拟真数字人长视频生成技术能对多模态信号进行分析 生成高表现力片段、复杂人—物—场交互片段及大动作大表情片段 并实现长时间跨度的统一调度 确保语音、口型、表情与动作高度一致同步 [3] 行业应用与经济效益 - 数字人是融合大语言模型与多模态技术的创新应用 电商直播是其落地的极佳场景 [1] - 数字人技术使商家无需投入大量人力物力进行现场直播 显著降低场地租赁、设备采购、人员培训等费用 [1] - 数字人可以24小时不间断直播 增加商品曝光时间和销售机会 提升经济效益 [1] - 数字人正逐渐从实验室走向各类应用场景 商业化进程显著加快 [3] 技术实现细节 - 台词生成需贴合主播人设与语言风格 确保个性化与一致性 在多主播场景中实现语义逻辑、语调节奏和情感风格的整体协调 [2] - 为提升台词内容深度 引入内容规划、知识增强与事实校验机制 以降低人工智能幻觉风险 [2] - 系统能对输入的历史视频数据、剧本脚本、语音信息以及骨骼驱动等多模态信号进行分析与理解 [3]
传媒互联网产业行业周报:路径不清晰,等待机会 1 / 16-20251109
国金证券· 2025-11-09 22:37
报告行业投资评级 - 报告未明确给出统一的行业投资评级,但建议重点关注云厂商和超预期标的 [3] 报告核心观点 - 市场对AI科技类公司存在分歧,一方面相信科技迭代能力,另一方面担心估值泡沫,但报告认为科技龙头估值尚未出现明显溢价,产业投入尚处于中期阶段,AI基建依然不足且下游应用正在开启 [3] - 微软、Google、Meta等资本开支大厂的自由现金流依旧强劲,静态估值和现金流没有压力,建议重点关注云厂商作为基建和应用的前景表现 [3] - 建议关注腾讯、京东、百度、阿里等中概龙头陆续的三季报 [3] - 对PDD、博彩行业持续配置价值看高,二梯队互联网垂直赛道注重成长性和良好市场格局,建议关注互联网医疗平台 [3] - 对耀才等交易平台资产持续看多,关注Coinbase的超级应用逻辑,对瑞幸咖啡的看多逻辑不变 [3] - 加密货币和虚拟资产在全球流动性压力和四年周期尾声冲击下短期难涨,但注意回调后的抄底机会,其稀缺逻辑和传统金融配置逻辑中长期是重大支持 [3] 行业情况跟踪总结 教育 - 行业景气略有承压,中国教育指数在2025年11月3日-11月7日期间下跌3.59% [11] - 维持行业供需关系重新平衡,中小机构供给增加,龙头阿尔法能力趋稳的判断,但机构表现存在分化,好未来成长性凸显 [5] - 粉笔股价上涨8.57%,新东方股价下跌10.36% [11] 奢侈品与博彩 - 景气度与宏观经济高度挂钩,澳门业务好于预期,银河娱乐、新濠、永利披露的Q3业绩均超预期 [5] - 国务院公布2026年放假安排,春节放假调休共9天,为史上最长春节连休,澳门旅游或将受益 [5] - 标普全球高端消费品指数跌0.63%,MSCI欧洲奢侈品和服装纺织指数跌2.27%,中华博彩指数涨1.40% [19] - 金沙中国美高梅中国股价上涨6.18% [19] 咖啡茶饮 - 咖啡行业高景气维持,具备β性红利,人均咖啡消费量仍有提升潜力 [5] - 茶饮行业略有承压,短期外卖平台活动补贴力度下滑,行业迎来淡季,供给呈净增加状态,行业竞争激烈 [5] - 对于星巴克中国新增战略伙伴,报告认为并未改变产品/门店成本/运营模式等本质 [5] - 瑞幸咖啡周度新开门店257家,其中一二线城市开店占83%,三线及以下城市开店占17% [40] 电商与互联网 - 行业略有承压,双十一大促周期表现平淡,头部平台加码近场电商即时零售 [5] - 10月以来,平台外卖补贴大幅收缩,外卖订单量已有所下滑 [5] - 恒生互联网科技业指数累计涨跌幅-1.90% [35] - 唯品会股价上涨6.69%,腾讯控股上涨0.79%,拼多多上涨0.67% [35] 流媒体平台 - 音乐流媒体平台为内需驱动的优质互联网资产,高性价比悦己消费,规模效应驱动盈利杠杆释放,建议持续关注音乐订阅平台 [5] - Spotify发布Q3财报,业绩超预期,总营收42.7亿欧元,同比增长7%,归母净利润近9亿欧元,同比增长200% [42] - 月活跃用户MAU达7.13亿,同比增长11%,其中高级订阅者2.81亿,同比增长12% [42] 虚拟资产与互联网券商 - 无增量叙事,叠加Balancer被盗,币价波动 [5] - 截至11月7日,全球加密货币市值为34615亿美元,较上期下跌6.95% [43] - 比特币和以太币价格分别达到103396美元和3434.35美元,分别较上期末下跌5.6%和10.7% [43] - Robinhood发布Q3财报,业绩超预期,总营收12.7亿美元,同比增长100%,净利润5.6亿美元,同比增长271% [60] 汽车服务 - 2025年10月汽车后市场产值同比下滑4%,环比下滑3%,进厂台次同比下滑2%,环比增长3% [61] - 传统燃油车进厂台次同比下滑4%,环比增长3%,新能源车进厂台次同比增长24%,环比增长4% [61] O2O与互联网医疗 - 蚂蚁集团原"数字医疗健康事业部"正式升级为"健康事业群",加速推动医疗健康业务成为战略支柱板块,建议关注互联网医疗 [5] - 京东健康与西北纪念医院、南加州大学凯克医学达成合作,深化"直联直送"一站式服务模式 [68] AI与云 - 海外AI概念股过去一年累计涨幅巨大,市场担忧AI估值泡沫及投入回报,海外头部AI云厂商表现出现分化,关注国内云厂商三季报表现 [5] - 阿里巴巴CEO吴泳铭表示正在建设超大规模AI基础设施,加大投入打造超级AI云 [72] - 月之暗面发布并开源Kimi k2 thinking模型,具备通用Agentic能力和推理能力 [72] - 谷歌宣布将在未来几周全面上市其最强AI芯片Ironwood,与TPU v5p相比峰值性能提升至10倍 [72] 传媒与游戏 - 游戏需求依然旺盛,短期缺乏新游释放,关注重点游戏测试及上线进展及因此带动的相关公司流水增长 [3] - 申万一级传媒指数微涨0.1570%,影视院线板块涨幅最大,数字媒体板块跌幅最大 [73] - 巨人网络股价上涨2.85%,心动公司上涨2.82%,网易-S上涨0.92% [73] - 《逆水寒手游》国际服在海外正式上线,在日本、泰国、马来西亚等国问鼎免费榜首 [78] - 《我的世界》全球销量达到3.5亿份,在一年半的时间里卖出5000万份 [81]
全球第二、国内第一!最强文本的文心5.0 Preview一手实测来了
机器之心· 2025-11-09 19:48
文心5.0 Preview模型性能表现 - 百度文心最新模型ERNIE-5.0-Preview-1022在LMArena文本竞技场排名中取得1432分,位列全球并列第二、国内第一[2] - 该模型得分与OpenAI的gpt-4.5-preview-2025-02-27及Anthropic的claude-opus-4-1-0805、claude-sonnet-4-5-20250929三大国外顶级模型持平[2] - 在创意写作任务中排名第一,在复杂长问题理解任务中排名第二,在指令遵循任务中排名第三[5] 模型核心能力实测分析 - 在创意写作测试中,模型以“情绪价值”和“灵感合伙人”为切入点,其营销方案立意和措辞优于对比模型[13][14] - 在复杂长问题理解测试中,模型在客服场景下能提供准确信息并补充直观感受细节,展现超越简单检索的服务意识[23] - 在指令遵循测试中,模型能准确理解并执行多层、反直觉的复杂约束指令,包括回避特定词汇和使用自我审计元指令[33][34][37][39] 百度AI全栈技术布局 - 公司构建了“芯片-框架-模型-应用”四层全栈AI技术布局,形成从算力到算法的技术闭环[41] - 框架层飞桨深度学习平台已更新至v3.2版本,截至2025年9月生态开发者达2333万,服务企业76万家[41] - 芯片层自研昆仑芯三代万卡集群已于今年年初点亮,旨在为大模型训练与推理提供算力支持[42] - 应用层通过文心大模型构建产品矩阵,覆盖内容、搜索、办公、开发等多元场景[42] 行业竞争格局与影响 - LMArena平台通过真实用户对模型输出的偏好投票形成动态排名,其榜单结果更贴近实际使用场景[4][5] - 百度文心系列模型此次排名结果强化了其在全球通用智能模型竞争格局中第一梯队的地位[4] - 行业内观点认为这可能反映出中国AI技术体系正从“技术追赶”向“能力引领”阶段过渡[43]
十大典型案例——百度:数字人提升商家效益
经济日报· 2025-11-09 13:49
公司产品定位 - 慧播星是百度旗下业内首个AI全栈式数字人解决方案 [1] 核心技术能力 - 解决方案依托多项生成式AI技术 [1] - 在AI视频领域推出端到端一站式AI视频生成平台 [1] - 用户可快速捕捉实时热点自动生成视频脚本 [1] 应用场景 - 赋能直播带货、线索搜集、内容直播等多种场景 [1] - 帮助各行业商家实现低门槛、全天候直播带货 [1] 核心价值 - 帮助商家完成高效的数字人视频创作 [1] - 推动商家效益增长 [1]
会写剧本、能凹人设,还顺带站上领奖台,这数字人包“会”的
猿大侠· 2025-11-09 12:11
文章核心观点 - 百度“剧本驱动多模协同”高拟真数字人技术实现了重大突破,能够生成具备“人味”的数字人,其不仅能说会演,还能有效进行商业转化 [2][4][7] - 该技术已从演示阶段进入大规模实际应用,在电商直播等领域显著降低了成本并提升了转化效率 [29][31][37] - 数字人正成为内容产业的新型基础设施,提供了一种更稳定、可控的内容生产路径 [39][40] 技术原理与创新 - 技术核心是“剧本驱动多模协同”,包含五项创新技术,旨在解决数字人语言、动作、表情协同问题,使其能像真人一样“说、演、动、听、想” [5][7] - 基于文心大模型,技术可扮演资深编剧角色,自动生成包含说话内容、方式、时机及动作表情配合的全流程直播剧本 [9][11] - 在罗永浩直播案例中,系统调用知识库超过1.3万次,生成了9.7万字的讲解内容 [13] - 采用自研文本自控语音合成大模型和上下文编码器,使数字人语音合成具备语气、节奏和情绪,并能实现自然的双人对话接梗 [23] 应用效果与数据 - 罗永浩数字人直播持续6小时,吸引观众超1300万,实现GMV超5500万元 [1][32] - 该技术已孵化超过10万个数字人,活跃于电商、教育、法律、政务等数十个行业 [29][30] - 应用该技术可使商家开播成本降低80%,转化率提升31% [31] - 具体案例显示,知识博主艾弥儿数字人将用户停留时长提升101%,蒙牛悠瑞数字人使转化率提高33%,山东夏津县助农直播1个月卖出3.3万斤农产品 [32] 行业影响与趋势 - 数字人解决了真人主播的疲劳问题,能保持长时间直播的状态、语气和人设一致性,成为品牌塑造IP和流程可控的新解法 [24][27][28] - 技术带来了“绿色降本逻辑”,通过算法驱动减少碳排放,并促进产业链协同创新 [33] - 该技术已成为百度电商生态的“默认选项”,支持24小时不间断直播,显著增加商品曝光和用户触达机会 [34][35] - 数字人不再仅是演示,而是在真实场景中拉动业绩、带动节奏、撬动增长的新型生产力 [37][38]
未经授权生成宫崎骏等风格AI内容,Sora 2遭抵制;文心大模型5.0-Preview登榜LMArena丨AIGC日报
创业邦· 2025-11-09 09:07
AI发展理念与治理 - 腾讯提出AI应定位为人类智能副驾而非取代者 强调AI向善及人机和谐共生关系以解放和激发人类创造力 [1] - OpenAI的Sora 2因未经授权生成与宫崎骏画风高度相似的动画内容 遭日本吉卜力工作室等多家IP公司通过CODA机构抗议 被指涉嫌著作权侵害 [2] 大模型技术进展与成本效益 - 月之暗面Kimi K2 Thinking模型以460万美元训练成本在人类终极考试中取得44.9%成绩 超越GPT-5等投入数十亿美元的模型 [3] - 百度文心大模型5.0-Preview在LMArena榜单位列中国第一全球第二 核心指标超越GPT-5-High 其创意写作单项得分全球第一 并具备复杂长问题理解和精准指令遵循能力 [4][3] - 百度宣布文心大模型最新基座模型将于2025年11月13日百度世界大会正式发布 [4]
2025年度中国互联网企业创新发展十大典型案例
经济日报· 2025-11-09 06:10
腾讯与南航合作:飞行模拟技术 - 公司自研游戏引擎技术与航空公司自研虚像显示技术共同打造全动飞行模拟机视景系统,实现民航关键技术突破并完成代际升级 [1] - 系统已完成全球200余座机场的高精度三维重建,覆盖国际主要航空枢纽 [1] - 该系统为我国近9万民航飞行员提供高效、安全的训练支持 [1] 人工智能安全与治理 - 公司基于“以模制模”理念打造大模型安全卫士,聚焦解决AI的可靠、可信、可控、向善问题 [2] - 解决方案提供事前标准化自动化评测、事中双重防护、事后灵活配置防护引擎的全流程安全增强 [2] - 公司发布具备文本生成、语言理解、逻辑推理、多模态能力的认知大模型,从海量数据中持续进化 [3] - 公司在垂直领域应用的行业大模型和智能体取得进步,有效解决复杂场景关键难题 [3] - 公司将内部大模型团队升级为人文智能实验室,邀请人文研究者加入,旨在为AI注入人类智慧与价值感 [11] - 通过结合人文学科思维与自然语言处理技术,增强AI在复杂情境下的共情与价值判断能力 [11] 数字人与AI内容生成 - 公司推出业内首个AI全栈式数字人解决方案,赋能直播带货、线索搜集等多种场景,帮助商家实现低门槛全天候直播 [4] - 该数字人解决方案推出端到端一站式AI视频生成平台,可快速捕捉实时热点自动生成视频脚本 [4] - 公司围绕大模型技术与创意生产力平台拓宽应用场景,赋能影视制作、广告创意、游戏及媒体行业 [6] - 公司搭建了以语言大模型、推荐大模型、视觉生成大模型为核心的大模型矩阵,形成完整人工智能生态布局 [6] 工业与供应链数字化 - 公司推动汽车制造行业供应链数智化转型,构建安全韧性的汽车数智供应链体系 [5] - 解决方案在供给端聚合海量供应商实现高效协同,在需求端推动企业内部管理数字化智能化 [5] - 应用该方案预计供应商管理成本降低超50%,供应链响应速度提升30% [5] 文化传播数字化 - 公司启动中国传统文化数字传播工程,通过数字技术将传统纹样转化为创意素材 [8] - 项目累计传播超过20亿次,打造了100多套国潮纹样素材,增强年轻人对传统文化的认同感 [8] 医疗健康数字化 - 公司数字医疗健康业务服务超8亿用户,与3600多家医疗机构建立合作 [9] - 业务推动医疗支付和健康服务全流程数字化升级,以技术加生态双轮驱动医疗资源普惠化与服务智能化 [9] 无人配送与自动驾驶 - 公司聚焦无人配送技术突破与商业化落地,推动国产芯片上车并主导L4级物流自动驾驶标准制定 [10] - 技术旨在破解末端配送人力成本占比高痛点,实现技术商业双向闭环,提升配送效率和用户体验 [10]
百度获得世界互联网大会领先科技奖
北京商报· 2025-11-08 18:37
公司技术成就 - 百度“剧本驱动多模协同的高拟真数字人技术”获得2025世界互联网大会领先科技奖 [1] - 公司连续三年获得该奖项,是唯一连续三年获奖的人工智能公司 [1] - 此前获奖技术包括2023年“知识增强大语言模型关键技术”和2024年“文心智能体技术” [1] 技术核心特点 - 技术包含融合多模规划与深度思考的剧本生成、动态决策的实时交互、文本自控的语音合成、高一致性超拟真数字人长视频生成等创新 [1] - 突破了多模态实时协同、复杂动态交互等技术难题,实现数字人语言、声音和形象的协调一致 [1] - 技术特色为“高情商、强互动、长续航、更专业”,效果超过真人 [1] - 提升了数字人直播内容的质量和交互能力 [1]
百度旗下基金等入股是石科技

证券日报网· 2025-11-08 11:45
公司股权变动 - 是石科技(平湖)有限公司新增百度旗下三亚百川致新私募股权投资基金合伙企业(有限合伙)和嘉兴御道数科股权投资合伙企业(有限合伙)为股东 [1] - 公司注册资本由1000万元人民币增加至约1065.6万元人民币 [1]