不止会动嘴，还会「思考」！字节跳动发布OmniHuman-1.5，让虚拟人拥有逻辑灵魂

技术突破与核心观点 - 字节跳动数字人团队推出OmniHuman-1.5，提出全新虚拟人生成框架，使虚拟人具备“思考”和“表达”能力 [2] - 相比1.0版本，1.5版本实现多项突破，支持根据文字指令生成指定动作和表情，并能在多人场景中控制非发言角色的具体动作 [2] - 该技术首次将诺贝尔奖得主丹尼尔·卡尼曼的“双系统理论”引入AI，通过多模态大语言模型驱动的“思考大脑”，让虚拟人实现深思熟虑 [4] 技术框架与工作原理 - 框架核心为“双系统模拟框架”，包含负责规划的“系统2”大脑和负责渲染的“系统1”身体 [13] - “系统2”大脑由两个MLLM智能体构成，分别担任分析器和规划器，进行情景分析并制定详细的“行动计划” [17][20] - “系统1”身体由一个特殊设计的多模态扩散模型承担，负责将高层文本规划与底层音频信号融合生成最终视频 [18] 关键技术创新 - 提出“伪最终帧”解决方案，巧妙平衡“身份一致性”和“动作多样性”，解决传统参考图方法导致动作僵硬的问题 [24][25] - 采用“对称融合”与“两阶段预热”训练策略，有效解决文本、音频、视频多模态信息融合时的“模态冲突”问题 [27][28][34] 性能表现与效果 - 模型展现出逻辑推理能力，能准确理解指令并按顺序执行复杂动作意图，例如“先画眼线，再介绍眼影盘” [6][7] - 能够稳定生成长时间双人对唱视频，驾驭丰富运镜效果，角色动作、表情和互动极为多样，告别单调重复 [8] - 虚拟人学会“倾听”，可在对话和倾听状态间自如切换，说话时的情绪与内容高度匹配 [9] 量化数据与行业对比 - 在消融实验中，完整模型的IQA得分为4.790，ASE为3.901，Sync-C为4.087，HKC为0.571，HKV为168.912，证明其核心设计的有效性 [31][35] - 与当前最先进的多个公开模型对比中，该方法在所有关键指标上均取得显著优势或极具竞争力的表现 [36] - 相比只会做简单说话和重复性动作的模型，OmniHuman-1.5显示出更高的动态范围和更有逻辑性的动作效果 [37] 应用前景与行业影响 - 该技术为虚拟人领域提供全新视角，实现虚拟人行为从“反应式”到“思考式”的飞跃 [39] - 相比1.0版本，OmniHuman-1.5可生成更真实、灵动的虚拟人，为人机交互、影视制作、虚拟社交等领域带来新可能 [39] - 新版本很快将上线即梦AI平台，标志着技术从研究到实际应用的快速转化 [2][39]