技术突破与核心观点 - 字节跳动数字人团队推出OmniHuman-1.5,提出全新虚拟人生成框架,使虚拟人具备“思考”和“表达”能力 [2] - 相比1.0版本,1.5版本实现多项突破,支持根据文字指令生成指定动作和表情,并能在多人场景中控制非发言角色的具体动作 [2] - 该技术首次将诺贝尔奖得主丹尼尔·卡尼曼的“双系统理论”引入AI,通过多模态大语言模型驱动的“思考大脑”,让虚拟人实现深思熟虑 [4] 技术框架与工作原理 - 框架核心为“双系统模拟框架”,包含负责规划的“系统2”大脑和负责渲染的“系统1”身体 [13] - “系统2”大脑由两个MLLM智能体构成,分别担任分析器和规划器,进行情景分析并制定详细的“行动计划” [17][20] - “系统1”身体由一个特殊设计的多模态扩散模型承担,负责将高层文本规划与底层音频信号融合生成最终视频 [18] 关键技术创新 - 提出“伪最终帧”解决方案,巧妙平衡“身份一致性”和“动作多样性”,解决传统参考图方法导致动作僵硬的问题 [24][25] - 采用“对称融合”与“两阶段预热”训练策略,有效解决文本、音频、视频多模态信息融合时的“模态冲突”问题 [27][28][34] 性能表现与效果 - 模型展现出逻辑推理能力,能准确理解指令并按顺序执行复杂动作意图,例如“先画眼线,再介绍眼影盘” [6][7] - 能够稳定生成长时间双人对唱视频,驾驭丰富运镜效果,角色动作、表情和互动极为多样,告别单调重复 [8] - 虚拟人学会“倾听”,可在对话和倾听状态间自如切换,说话时的情绪与内容高度匹配 [9] 量化数据与行业对比 - 在消融实验中,完整模型的IQA得分为4.790,ASE为3.901,Sync-C为4.087,HKC为0.571,HKV为168.912,证明其核心设计的有效性 [31][35] - 与当前最先进的多个公开模型对比中,该方法在所有关键指标上均取得显著优势或极具竞争力的表现 [36] - 相比只会做简单说话和重复性动作的模型,OmniHuman-1.5显示出更高的动态范围和更有逻辑性的动作效果 [37] 应用前景与行业影响 - 该技术为虚拟人领域提供全新视角,实现虚拟人行为从“反应式”到“思考式”的飞跃 [39] - 相比1.0版本,OmniHuman-1.5可生成更真实、灵动的虚拟人,为人机交互、影视制作、虚拟社交等领域带来新可能 [39] - 新版本很快将上线即梦AI平台,标志着技术从研究到实际应用的快速转化 [2][39]
不止会动嘴,还会「思考」!字节跳动发布OmniHuman-1.5,让虚拟人拥有逻辑灵魂
机器之心·2025-09-05 15:12