Real-time Digital Human - 财报，业绩电话会，研报，新闻

Real-time Digital Human

搜索文档

Soul App 开源实时数字人生成模型 SoulX-FlashHead，轻量化模型支持“消费级”实时高保真直播

金融界· 2026-02-24 15:21

文章核心观点 - Soul App AI团队推出轻量化实时数字人生成模型SoulX-FlashHead 该模型以1.3B参数在消费级显卡上实现了工业级速度与高质量画质解决了行业长期面临的高画质与高成本不可兼得的痛点为实时数字人技术提供了新的“算力自由”方案 [1][4] 模型性能与技术创新 - **模型效率与成本**：SoulX-FlashHead Lite版本在单张RTX 4090上推理帧率可达96 FPS 仅需6.4G显存最高支持3路并发使高保真实时数字人模型得以在消费级终端部署 [1][5] - **画质表现**：Pro版本在单卡RTX 5090上帧率为16.8 FPS 双卡可达到实时（25 FPS+）其FID和Lip-sync指标在基准测试中达到SOTA水平甚至超过更大参数量的模型 [5][10] - **核心技术：双向蒸馏**：模型引入“上帝视角”教师模型利用Ground Truth作为先知锚点进行强约束有效解决了长视频生成中的身份漂移问题确保人物特征稳定 [4] - **核心技术：时序音频上下文缓存**：模型强制缓存8秒历史音频特征以补偿上下文缺失解决了流式生成中因音频切片过短导致的口型抖动和唇形对不上的问题 [7] - **数据底座**：模型训练基于自研的VividHead数据集该数据集从超过10,000小时素材中精炼出782小时高质量音画数据经过多道严苛筛选步骤 [8] 基准测试结果 - **画质指标**：在HDTF高清视频评测中 SoulX-FlashHead Pro版本取得了8.31的FID分数和103.14的FVD分数刷新了纪录 [10][12] - **唇形同步指标**：在VFHQ复杂场景评测中凭借时序音频上下文缓存技术其Sync-C得分高达5.60（表格中Pro-版本为6.04）大幅领先此前相关工作 [11][12] - **速度对比**：Lite版本96 FPS的速度是实时基准（25 FPS）的近4倍其推理效率据称是行业同类主流模型的100倍以上 [11] - **综合对比**：根据提供的对比表格 SoulX-FlashHead Pro版本在FID、FVD和Sync-C等关键指标上均优于SadTalker、EchoMimic、Ditto等主流模型 [12] 行业影响与应用场景 - **技术普惠**：该模型将高保真数字人技术从需要昂贵H800集群的“算力机房”解放到仅需消费级显卡的“个人工作站” 降低了技术使用门槛 [1][13] - **直播电商**：个人主播可使用一台游戏PC搭建高保真电商直播间实现7x24小时矩阵直播 [13] - **游戏与教育**：1.3B的轻量级体量易于集成到游戏NPC引擎中实现毫秒级响应且不占用核心渲染资源同时模型支持15种语言可用于AI一对一外教将音频实时转化为生动教学画面 [13] - **技术迭代**：此次推出的SoulX-FlashHead是对此前开源的SoulX-FlashTalk模型的进一步升级后者已能实现0.87秒亚秒级延迟和32 FPS高帧率新模型则在高保真画质的消费级部署上取得突破 [13]

数字人(BJ:835670)

Real-time Digital Human

Artificial Intelligence

SoulX-FlashHead

SoulX-FlashTalk

Real-time Digital Human

Artificial Intelligence

SoulX-FlashHead

SoulX-FlashTalk