3D数字人技术演进 - 3D数字人技术已从表情僵硬、预设脚本运行的阶段,演进至能够根据指令实时生成语音、表情和协调肢体动作,且成本变得可被接受 [1] - 该技术最初源于机器人领域,计算机图形学与机器人学之间存在一道打通虚拟与现实的“旋转门”,学者们几十年来在此领域寻求突破 [1] - 进化后的数字人不仅活跃于直播间和客服中心,未来还将在3A级游戏和影视工业领域大展拳脚 [1] 与2D文生视频技术的对比 - Sora2作为文生2D视频技术,生成长度受10秒限制,且在物理一致性和精细控制人物动作、表情方面存在瑕疵 [2][3] - 3D数字人技术是文生3D,可在VR/AR环境中360度展示,实现精准控制动作和表情,核心区别在于结构化信息与像素层面的差异 [5][7] - 3D数字人描述动作表情仅需几百个参数,而文生视频缺乏结构化信息导致推理和生产成本非常高,3D技术的成本可能仅为2D语音合成的几十分之一 [7] 魔珐科技的技术方案与产品 - 公司构建了“文生3D多模态大模型”,包含从文本生成语音、表情、动作、手势参数的端模型,以及利用AI进行渲染和解算以降低成本的流程 [8][11] - 该技术方案支持端到端实时互动,端到端延时要求小于2秒或1.5秒,并可在低成本终端芯片(如瑞芯微RK3566,约几百人民币)上运行 [5][8] - 公司已推出“星云平台”产品,并于10月发布文生3D多模态模型,目前有几百个B端企业客户在测试,部分已付费,公司从3D数字人公司转变为平台公司 [12][13] 成本突破与行业影响 - 通过AI技术完成渲染和解算,不再依赖传统渲染引擎和昂贵显卡,单路数字人服务成本从半年前需要一张显卡(约两三万人民币)大幅降低 [34][36][37] - 在特定应用场景下,AI渲染质量与Unreal等传统游戏引擎渲染效果基本无差异,通过并列对比无人能看出区别 [39] - 该技术若普及,可能降低3A级游戏对云端显卡或终端高算力的依赖,使游戏无处不在,并大幅降低元宇宙的参与成本 [38] 3D数据积累与行业应用路径 - 公司积累了1000多个小时的高质量3D动画数据,一秒钟成本至少1000人民币左右,高质量数据是训练模型的核心要素 [24][25] - 行业应用路径规划为先运用于日常生活交互、服务、陪伴场景,再到游戏,最后是好莱坞,因好莱坞级高质量数据制作难度极高 [33] - 影视动画和游戏公司拥有高质量3D数据但缺乏AI能力,而AI公司算法强但缺乏数据,两个行业目前缺乏交叉 [20][21][22] 与机器人领域的协同与挑战 - 3D数字人技术可驱动机器人,实现实时语音、动作和手势,公司生成的动作数据包含脸部、手部和腿部的完整动作 [42][44] - 机器人领域面临运动学(动作规划)和动力学(力的控制)的双重挑战,泛化能力(如适应不同楼梯参数)是当前主要难题 [45][48] - 行业研究方式正从白盒模型(显式计算受力点)转向黑盒模型(端到端数据驱动),长期有希望但短期挑战很多,完全解决或需10年 [62][63][64][57] 技术落地的关键挑战 - 数字人规模化落地需翻越质量、延迟、成本“三座大山”,并支持多终端、多操作系统、不同芯片算力的并发需求 [41] - 质量提升依赖于大模型能力,包括从文本生成带情绪的语音、匹配的唇形和动作,以及高质量训练数据 [41] - 在机器人领域,即使动作数据可用,现实世界的动力学控制(如抓取物体的力反馈)和复杂环境的泛化仍是巨大挑战 [53][54]
站在内容创作者与机器人的交界处:聊聊3D数字人的进化