CVPR 2026 | 告别倾听「扑克脸」，UniLS框架来了，刷新数字人对话SOTA

文章核心观点 - 盛大AI研究院（东京）与东京大学联合提出UniLS框架，是首个仅凭双轨音频即可端到端同时驱动数字人说话和倾听面部动作的统一解决方案，有效解决了行业长期存在的倾听时“扑克脸”问题，提升了对话的自然感和沉浸感[2] - 该方法在说话精度上达到SOTA水平，倾听自然度分布指标提升高达44.1%，同时支持超过500 FPS的实时生成，已被CVPR 2026录用[2] 行业痛点与现有技术局限 - 在游戏NPC、虚拟主播等数字人对话场景中，倾听时的“扑克脸”问题（表情僵硬、毫无反应）是行业长期痛点[2] - 现有方法大多只关注单向生成：speak-only方法仅生成说话动作，listen-only方法仅生成倾听反应，二者无法在统一框架内协同工作[5] - 唯一尝试联合建模的DualTalk依赖对方说话者的预计算面部序列作为额外输入，导致系统非端到端、无法实时部署[5] 技术原理与核心创新 - 核心发现：研究发现，说话时音频与面部动作高度关联，而倾听时面部动作与对方音频的关联非常微弱，这种不平衡导致联合训练时倾听分支退化为静态表情[7] - 核心设计：基于上述发现，UniLS将倾听行为分解为“内在运动先验”与“外部音频调制”两个独立组成部分，通过两阶段训练范式分别学习[5][7] - 两阶段训练框架： - 第一阶段：在大规模非配对多场景视频数据（共计546.5小时）上训练一个无音频的自回归生成器，学习眨眼频率、头部微动等内在运动先验[10] - 第二阶段：使用Seamless Interaction配对对话数据（251.5小时说话 + 406.0小时倾听）进行微调，通过新增的交叉注意力层引入双轨音频信号进行调制[11] 性能表现与实验结果 - 定量指标：在Seamless Interaction测试集上，UniLS在全部指标上取得最优。倾听方面，FDD指标从DualTalk的43.58大幅降至17.12，F-FID从13.143降至4.304，P-FID从0.079降至0.038，分布指标提升高达44.1%[17][18] - 用户研究：与DualTalk相比，超过91%的用户偏好UniLS的倾听反应自然度，90%偏好其表情自然度，86%偏好其口型同步质量[19][20] - 实时性能：UniLS在单张RTX 5090 GPU上以560.6 FPS运行（参数量421.3M），显著优于ARTalk*的357.7 FPS（489.5M）[21]