高拟真数字人直播带货有多强
科技日报·2025-11-10 07:41

核心技术优势 - 百度自主研发的剧本驱动多模协同高拟真数字人技术获得世界互联网大会领先科技奖 [1] - 该技术通过剧本驱动实现多模态协同 解决传统数字人语音、语言、视觉多模态割裂的问题 如台词生硬、情感匹配不佳、表情手势单一等 [1] - 基于大模型生成直播剧本 剧本自带视觉标签和语音标签 指导系统生成相应动作 [2] - 采用文本自控的语音合成方案 使数字人语音能精准传递调侃、得意、强调等细微情绪 提升自然度和感染力 [2] - 高一致性超拟真数字人长视频生成技术能对多模态信号进行分析 生成高表现力片段、复杂人—物—场交互片段及大动作大表情片段 并实现长时间跨度的统一调度 确保语音、口型、表情与动作高度一致同步 [3] 行业应用与经济效益 - 数字人是融合大语言模型与多模态技术的创新应用 电商直播是其落地的极佳场景 [1] - 数字人技术使商家无需投入大量人力物力进行现场直播 显著降低场地租赁、设备采购、人员培训等费用 [1] - 数字人可以24小时不间断直播 增加商品曝光时间和销售机会 提升经济效益 [1] - 数字人正逐渐从实验室走向各类应用场景 商业化进程显著加快 [3] 技术实现细节 - 台词生成需贴合主播人设与语言风格 确保个性化与一致性 在多主播场景中实现语义逻辑、语调节奏和情感风格的整体协调 [2] - 为提升台词内容深度 引入内容规划、知识增强与事实校验机制 以降低人工智能幻觉风险 [2] - 系统能对输入的历史视频数据、剧本脚本、语音信息以及骨骼驱动等多模态信号进行分析与理解 [3]