数字人生成范式 - 财报，业绩电话会，研报，新闻 - Reportify

数字人生成范式

搜索文档

从「对口型」到「会表演」，刚进化的可灵AI数字人，技术公开了

机器之心· 2025-09-15 20:19

技术框架 - 采用多模态大语言模型赋能的两阶段生成框架通过多模态导演模块将音频图像和文字提示组织成结构化故事线 [6][7][8] - 首先生成蓝图视频明确整体节奏和风格然后基于首尾帧条件并行生成子段落视频最后拼接完整视频 [10][11][12] - 引入音频对齐插帧策略保证口型与声学节奏的帧级同步并通过负向CFG抑制身份漂移模式 [12][17] 数据与训练 - 从演讲对话歌唱等语料库收集数千小时视频通过专家模型筛选嘴部清晰度音画同步等维度再经人工复核得到数百小时高质量训练数据 [14] - 构建包含375个"参考图-音频-文本提示"的测评基准涵盖多语言多情感多动作场景未来将开源 [14] 性能表现 - 在GSB测评体系中总体效果对比OmniHuman-1达2.39 对比HeyGen达1.37 在口型同步维度对比HeyGen达2.35 [16][24] - 在英语演讲场景对比OmniHuman-1的口型同步指标为1.00 中文演讲场景对比OmniHuman-1达3.90 [24] - 支持分钟级长视频生成总生成时间理论上与单段生成相当在1分钟视频中保持身份一致性和动态性 [28] 应用功能 - 能够准确还原高难度音节口型（如"truth"的[u:]发音）和高频语音中的静音段落口型状态 [25] - 精准响应情绪动作镜头三类文本控制包括"兴奋"情绪和"镜头缓慢上移"等指令 [26] - 已集成至可灵平台开启公测支持用户通过图像音频和文本生成数字人视频 [2][31]

快手(HK:01024)

多模态大语言模型

数字人生成范式

可灵数字人

多模态大语言模型

数字人生成范式

可灵数字人