3D数字人
搜索文档
SIGGRAPH Asia 2025 | 只用一部手机创建和渲染高质量3D数字人
机器之心· 2025-12-18 18:15
行业技术地位与团队里程碑 - 公司团队的研究成果首次登录国际顶级计算机图形学会议SIGGRAPH Asia,这代表了学术与工业界的最高研究水平与最前沿技术趋势 [2][5] - 团队在3D、XR、3D真人数字人和三维重建等方向拥有深厚技术积累,此前已在CVPR 2025会议上作为Highlight Paper发表了TaoAvatar,并在淘宝未来旗舰店实现了业内首个3D真人导购体验 [4] 核心技术方案:HRM²Avatar - 系统目标是通过手机单目视频生成高保真且可实时驱动的3D数字人,旨在解决普通人使用门槛高的问题 [6][10] - 核心采用两阶段采集方式、显式衣物网格表示与基于高斯的动态细节建模,并结合面向移动端的高效渲染优化策略 [12] - 系统采用显式服装网格与高斯表示相结合的建模方式:网格提供稳定结构与可控性,高斯用于呈现褶皱、材质和光照变化等细节 [6] - 基于轻量化推理设计与移动端渲染优化策略,生成的数字人可在手机、头显等移动设备上流畅运行 [6] 系统流程与关键技术模块 - **采集与预处理**:采用双序列拍摄方式,包括静态扫描(用于获取全身结构和局部纹理)和动态扫描(用于捕捉衣物褶皱和光照响应),无需额外硬件 [18] - **服饰网格提取**:流程包括几何重建、服装区域提取、重拓扑与蒙皮绑定、绑定对齐,最终生成可绑定动画的穿衣人体网格作为几何基底 [31][32][33][34][35] - **实时可驱动的数字人重建**:着重从混合表示、几何生成、动态光照建模、训练流程、轻量网络蒸馏五个方面进行设计 [37] - **混合表示**:在穿衣人体网格的每个三角形上附着高斯点,构建混合数字人表征,为姿态相关的形变与光照建模提供可控参数空间 [40][43] - **几何生成**:最终几何基于带服饰的模板网格,并通过静态偏移、姿态相关偏移和逐帧残差三类偏移量组合得到 [46][47][51] - **动态光照建模**:引入轻量化的单通道姿态相关光照项,对高斯的外观属性进行调制,使数字人在不同姿态下保持自然的光照一致性 [53][54] - **训练流程**:同时使用近景与全身图像监督,优化策略包括颜色一致性监督、语义掩码约束、身体与服饰碰撞约束等 [57][67] - **轻量网络蒸馏**:训练一个轻量级预测网络,学习从姿态到几何形变与光照变化的映射,以支持移动端实时驱动,无需逐帧重建数据 [60] 移动端高性能实时渲染优化 - 对渲染阶段进行了系统性优化,包括层级裁剪、高效投影、量化排序和基于显卡硬件的加速渲染 [62] - **层级裁剪**:采用网格级视锥裁剪、三角片级背面裁剪、高斯级视锥裁剪三级策略,显著减少需渲染的高斯数量 [64][68] - **投影**:采用按需解码存储块的精简投影流程,有效降低解码带宽开销 [65][69] - **排序**:采用量化排序,将连续深度映射至紧凑区间,使用16Bit或12Bit深度存储,结合GPU并行Radix Sort加速,大幅减少排序负担和显存带宽使用 [70][73] - **渲染**:使用GPU硬件栅格化,并采用自适应面元缩放、基于透明度修剪、反向透明度估计等策略提升性能与视觉质量 [70][73] - 优化使系统采用紧凑、高度可并行、缓存友好的绘制方式,达成移动端实时表现 [71] 实验结果与性能表现 - **与现有方法对比**:在自构数据集上,HRM²Avatar在PSNR(26.70)、SSIM(0.963)、LPIPS(0.040)所有指标上均优于对比方法GaussianAvatar和ExAvatar [77] - 在Neuman数据集上评估泛化表现,模型在快速动作或大姿态变化下能保持稳定的外观呈现和服饰细节 [80][81] - **消融实验**:验证了显式服装网格、姿态相关的外表建模、两阶段扫描协议均为系统的必要设计模块,移除后会导致质量下降 [82][84] - **移动端性能**:在iPhone 15 Pro Max上,单个数字人(约53万高斯点)能以2K分辨率、120 FPS稳定运行;同时渲染三个数字人时可达到2K @30 FPS;在Apple Vision Pro上可实现2K@90 FPS实时渲染 [87] - 各渲染优化策略带来显著性能提升:分级裁剪提速1.83倍,按需解压缩提速1.93倍,深度量化排序提速1.99倍(基于iPhone 15 Pro Max测试数据) [88] 总结与展望 - HRM²Avatar是一项让普通人也能通过手机创建高质量数字人的前沿探索,为移动端数字人应用提供了可行技术路径 [91] - 当前技术对结构复杂或非固定拓扑的服饰重建精度,以及在极端光照或动态遮挡场景下的效果,仍有进一步优化空间 [91] - 该成果被视为推动数字人从专业设备走向普通用户、从实验室走向真实应用场景的一个重要里程碑 [91]
站在内容创作者与机器人的交界处:聊聊3D数字人的进化
36氪· 2025-10-29 19:24
3D数字人技术演进 - 3D数字人技术已从表情僵硬、预设脚本运行的阶段,演进至能够根据指令实时生成语音、表情和协调肢体动作,且成本变得可被接受 [1] - 该技术最初源于机器人领域,计算机图形学与机器人学之间存在一道打通虚拟与现实的“旋转门”,学者们几十年来在此领域寻求突破 [1] - 进化后的数字人不仅活跃于直播间和客服中心,未来还将在3A级游戏和影视工业领域大展拳脚 [1] 与2D文生视频技术的对比 - Sora2作为文生2D视频技术,生成长度受10秒限制,且在物理一致性和精细控制人物动作、表情方面存在瑕疵 [2][3] - 3D数字人技术是文生3D,可在VR/AR环境中360度展示,实现精准控制动作和表情,核心区别在于结构化信息与像素层面的差异 [5][7] - 3D数字人描述动作表情仅需几百个参数,而文生视频缺乏结构化信息导致推理和生产成本非常高,3D技术的成本可能仅为2D语音合成的几十分之一 [7] 魔珐科技的技术方案与产品 - 公司构建了“文生3D多模态大模型”,包含从文本生成语音、表情、动作、手势参数的端模型,以及利用AI进行渲染和解算以降低成本的流程 [8][11] - 该技术方案支持端到端实时互动,端到端延时要求小于2秒或1.5秒,并可在低成本终端芯片(如瑞芯微RK3566,约几百人民币)上运行 [5][8] - 公司已推出“星云平台”产品,并于10月发布文生3D多模态模型,目前有几百个B端企业客户在测试,部分已付费,公司从3D数字人公司转变为平台公司 [12][13] 成本突破与行业影响 - 通过AI技术完成渲染和解算,不再依赖传统渲染引擎和昂贵显卡,单路数字人服务成本从半年前需要一张显卡(约两三万人民币)大幅降低 [34][36][37] - 在特定应用场景下,AI渲染质量与Unreal等传统游戏引擎渲染效果基本无差异,通过并列对比无人能看出区别 [39] - 该技术若普及,可能降低3A级游戏对云端显卡或终端高算力的依赖,使游戏无处不在,并大幅降低元宇宙的参与成本 [38] 3D数据积累与行业应用路径 - 公司积累了1000多个小时的高质量3D动画数据,一秒钟成本至少1000人民币左右,高质量数据是训练模型的核心要素 [24][25] - 行业应用路径规划为先运用于日常生活交互、服务、陪伴场景,再到游戏,最后是好莱坞,因好莱坞级高质量数据制作难度极高 [33] - 影视动画和游戏公司拥有高质量3D数据但缺乏AI能力,而AI公司算法强但缺乏数据,两个行业目前缺乏交叉 [20][21][22] 与机器人领域的协同与挑战 - 3D数字人技术可驱动机器人,实现实时语音、动作和手势,公司生成的动作数据包含脸部、手部和腿部的完整动作 [42][44] - 机器人领域面临运动学(动作规划)和动力学(力的控制)的双重挑战,泛化能力(如适应不同楼梯参数)是当前主要难题 [45][48] - 行业研究方式正从白盒模型(显式计算受力点)转向黑盒模型(端到端数据驱动),长期有希望但短期挑战很多,完全解决或需10年 [62][63][64][57] 技术落地的关键挑战 - 数字人规模化落地需翻越质量、延迟、成本“三座大山”,并支持多终端、多操作系统、不同芯片算力的并发需求 [41] - 质量提升依赖于大模型能力,包括从文本生成带情绪的语音、匹配的唇形和动作,以及高质量训练数据 [41] - 在机器人领域,即使动作数据可用,现实世界的动力学控制(如抓取物体的力反馈)和复杂环境的泛化仍是巨大挑战 [53][54]