Workflow
京东JoyStreamer系列数字人模型
icon
搜索文档
京东卷出新高度!硬刚「复杂指令」长时长、自由态数字人直播终于丝滑了
机器之心· 2026-03-31 17:00
文章核心观点 AI智能体时代已至,但缺乏高表现力的“数字躯壳”,京东推出的JoyStreamer系列数字人大模型通过三大技术创新解决了行业长期存在的文本控制力弱、多模态信号冲突、长时长生成能力不足等痛点,实现了长时长、自由态、实时互动的数字人生成,其技术已率先在数字人直播场景中实现规模化商业应用,服务超7万家商家,正从尝鲜工具转变为拉动GMV的核心增长引擎[1][3][20][25] 行业背景与痛点 - AI行业正进入智能体时代,但智能体缺乏“灵动”的“躯壳”,交互技术面临挑战[1] - 为AI打造高表现力“躯壳”涉及多模态转换,技术难度高[2] - 行业长期存在文本指令控制力弱、多模态控制信号冲突、长时长生成能力不足等痛点[3] 京东数字人技术突破与性能 - 推出JoyStreamer和JoyStreamer-Flash两个数字人大模型,相关成果发表于arXiv[3] - 实现分钟级时长的数字人合成,告别“站桩式播报”,能精准理解复杂指令,丝滑做出全身复杂动作,完美配合动态镜头轨迹及背景无缝变化,并在剧烈运动中保持唇形与输入音频完美同步[5] - 具备超强文本控制能力,能根据文本提示词(如“拿起巧克力吃掉”)流畅完成整套抓取和咀嚼动作[6][7] - 在主观GSB评分对比中,JoyStreamer在文本遵从、唇形准确度、ID保持、视频画质等核心维度均表现显著优势,整体GSB评分分别达到1.36(超越Omnihuman-1.5)与1.73(超越KlingAvatar2.0)[16] 核心技术:三大技术创新 1. **双教师DMD后训练**:为解决高质量视频数据成本高昂和静态播报数据偏见,采用双教师分布匹配蒸馏后训练。引入“音频教师”(数字人基础模型)和“文本教师”(视频基础大模型),通过分离式监督、融合式学习的蒸馏机制,在不增加新训练数据的前提下,让数字人模型直接继承视频模型的文本可控性[10][14] 2. **错峰控制机制**:基于扩散模型生成原理,在生成早期高噪声阶段优先听从文本指令确定动作框架,在生成中后期低噪声阶段将控制权优先交给音频以保证唇形同步,解决了文本与音频信号在潜在空间冲突的问题[15][16] 3. **长时长生成与身份保持**:采用历史帧编码模块与伪最后一帧策略,在推理过程中不断将用户参考图像作为“伪最后一帧”注入模型,作为身份锚点,支持30秒以上的长视频生成,全程保持身份稳定、动作流畅[16] 4. **实时流式生成优化**:通过JoyStreamer-Flash版本,利用CausVid、Self Forcing等技术将双向模型蒸馏成自回归单向模型,并通过4步采样、kv-cache和多GPU并行推理实现30FPS的生成速度。结合渐进步数引导、运动条件注入、基于cache重置的无限RoPE等创新点,实现实时流式生成无限时长的高保真数字人视频[18] 应用场景与商业化进展 - **核心场景**:数字人直播,包括电商直播带货和电商短视频,带来内容形态与交互体验的质变[20] - **内部验证**:技术已在京东自身直播场景中完成多轮实战验证,包括“采销东哥”数字人、海尔格力等总裁数字人、Vivi明星数字人等,并推出“JoyAI零帧起手”小程序降低使用门槛[21] - **产品形态**:推出“自由态数字人”,针对家电家居、时尚服饰等五大行业,支持自然走动、灵活摆姿、镜头跟随、出画入画,脸部遮挡也能保持高保真质感[21] - **平台策略**:数字人直播能力目前免费开放,商家可在后台一键配置,自定义模型或一比一还原真人主播声音[22] - **核心功能**:推出“数字人直播间复刻”能力,商家仅需上传一段真人直播视频,即可快速生成形象、声线、神态、布景高度一致的“数字分身”,将单次成功直播转化为可长期复用的数字资产[22] - **商业效果**:新秀丽通过“直播间复刻”实现长期稳定开播,带来公域流量提升超60%,直播间人均停留时长近2分钟[23] - **规模化应用**:已服务超7万家商家,规模行业领先,几乎覆盖京东全品类,数字人直播正从“尝鲜工具”转变为拉动GMV的核心增长引擎[25] 公司技术战略与优势 - **技术哲学**:大模型发展从参数至上转向效率、成本与性能平衡的新范式[27] - **效率案例**:以开源的通用基础大模型JoyAI-LLM Flash为例,总参数量480亿,通过动态稀疏路由技术只激活3B参数,智能体任务token消耗量为竞品模型的1/5[27] - **场景与数据优势**:作为新型实体企业,拥有零售、物流、健康、工业等丰富真实业务场景,AI技术已深度融入超级供应链,在超过2000个具体业务场景中落地。每天有数以万计商家在直播间提需求、做反馈,形成基于真实商业场景的数据飞轮,是技术快速迭代的关键[28][29] - **未来方向**:致力于让数字人主播学会换装、实现更丰富的跨主播互动,并最终实现零幻觉[29]