AI虚拟人技术演进 - AI虚拟人技术从CNN、GANs演进至Transformer+扩散模型 实现从单一面部驱动到半身/全身动态生成的跨越 口型同步与多模态协同表现显著提升 [4][5] - 模型架构发展脉络:2017年起从CNNs/GANs→3D NeRFs→Transformers→扩散模型→基于Transformer的扩散模型(DiT) 引用量最高的论文逐年迭代 [4] - 字节跳动OmniHuman-1模型和Hedra Character-3模型展现前沿技术 支持半身/全身动作生成 情感状态与动作表现可文本设定 [8][9] 核心技术挑战 - 面部需解决帧间连贯性+情境化表情同步难题 如说"我累了"需同步打哈欠动作 [24] - 口型同步依赖音素-视位映射 需协调脸部多部位运动 每人说话风格差异增加建模难度 [4][24] - 实时交互需整合智能大脑(记忆/个性)+低延迟流传输 LiveKit等产品已实现初步突破 [26] 应用场景落地 个人消费者 - 单张图片即可生成动画角色 推动虚拟主播/AI播客/音乐视频创作 Hedra平台支持音频驱动角色生成 [15] - 实时直播技术催生虚拟网红 Praktika已实现外语学习场景的AI教练实时互动 [16] 中小企业 - AI虚拟广告制作成本降低90%+ Creatify等平台实现脚本生成-虚拟演员匹配-素材整合全流程自动化 [17] - B2B企业采用Yuzu Labs工具开展个性化营销 支持原创角色与真人复刻双模式 [18] 大型企业 - Synthesia革新员工培训 自动化生成多语言培训视频 销售谈判模拟系统提升实战能力 [19] - 高管数字分身应用广泛 支持跨国企业内容本地化 Delphi平台实现领袖形象跨时空互动 [19][20] 未来突破方向 - 角色可塑性需支持20+形象切换 HeyGen已实现但需更灵活编辑功能 [27] - 身体动作自然化是下一焦点 当前手势控制依赖预设选项 缺乏情境适应性 [28] - 环境交互能力亟待突破 Topview正研发虚拟人拿取展示产品的广告场景 [29] - 实时应用将覆盖医疗问诊/零售导购等场景 延迟需从当前500ms降至200ms内 [29][30] 市场发展预测 - 底层模型质量提升推动应用层爆发 将诞生多个十亿美元级企业 企业级市场溢价能力显著 [30] - 工作流程工具分化 营销类需整合广告效果分析 内容创作类需场景复用功能 [30]
喝点VC|a16z重磅预测:AI虚拟人将孕育众多市值达数十亿美元的行业巨头
Z Potentials·2025-04-23 11:49