计算机图形学
搜索文档
SIGGRAPH Asia 2025 | 只用一部手机创建和渲染高质量3D数字人
机器之心· 2025-12-18 18:15
行业技术地位与团队里程碑 - 公司团队的研究成果首次登录国际顶级计算机图形学会议SIGGRAPH Asia,这代表了学术与工业界的最高研究水平与最前沿技术趋势 [2][5] - 团队在3D、XR、3D真人数字人和三维重建等方向拥有深厚技术积累,此前已在CVPR 2025会议上作为Highlight Paper发表了TaoAvatar,并在淘宝未来旗舰店实现了业内首个3D真人导购体验 [4] 核心技术方案:HRM²Avatar - 系统目标是通过手机单目视频生成高保真且可实时驱动的3D数字人,旨在解决普通人使用门槛高的问题 [6][10] - 核心采用两阶段采集方式、显式衣物网格表示与基于高斯的动态细节建模,并结合面向移动端的高效渲染优化策略 [12] - 系统采用显式服装网格与高斯表示相结合的建模方式:网格提供稳定结构与可控性,高斯用于呈现褶皱、材质和光照变化等细节 [6] - 基于轻量化推理设计与移动端渲染优化策略,生成的数字人可在手机、头显等移动设备上流畅运行 [6] 系统流程与关键技术模块 - **采集与预处理**:采用双序列拍摄方式,包括静态扫描(用于获取全身结构和局部纹理)和动态扫描(用于捕捉衣物褶皱和光照响应),无需额外硬件 [18] - **服饰网格提取**:流程包括几何重建、服装区域提取、重拓扑与蒙皮绑定、绑定对齐,最终生成可绑定动画的穿衣人体网格作为几何基底 [31][32][33][34][35] - **实时可驱动的数字人重建**:着重从混合表示、几何生成、动态光照建模、训练流程、轻量网络蒸馏五个方面进行设计 [37] - **混合表示**:在穿衣人体网格的每个三角形上附着高斯点,构建混合数字人表征,为姿态相关的形变与光照建模提供可控参数空间 [40][43] - **几何生成**:最终几何基于带服饰的模板网格,并通过静态偏移、姿态相关偏移和逐帧残差三类偏移量组合得到 [46][47][51] - **动态光照建模**:引入轻量化的单通道姿态相关光照项,对高斯的外观属性进行调制,使数字人在不同姿态下保持自然的光照一致性 [53][54] - **训练流程**:同时使用近景与全身图像监督,优化策略包括颜色一致性监督、语义掩码约束、身体与服饰碰撞约束等 [57][67] - **轻量网络蒸馏**:训练一个轻量级预测网络,学习从姿态到几何形变与光照变化的映射,以支持移动端实时驱动,无需逐帧重建数据 [60] 移动端高性能实时渲染优化 - 对渲染阶段进行了系统性优化,包括层级裁剪、高效投影、量化排序和基于显卡硬件的加速渲染 [62] - **层级裁剪**:采用网格级视锥裁剪、三角片级背面裁剪、高斯级视锥裁剪三级策略,显著减少需渲染的高斯数量 [64][68] - **投影**:采用按需解码存储块的精简投影流程,有效降低解码带宽开销 [65][69] - **排序**:采用量化排序,将连续深度映射至紧凑区间,使用16Bit或12Bit深度存储,结合GPU并行Radix Sort加速,大幅减少排序负担和显存带宽使用 [70][73] - **渲染**:使用GPU硬件栅格化,并采用自适应面元缩放、基于透明度修剪、反向透明度估计等策略提升性能与视觉质量 [70][73] - 优化使系统采用紧凑、高度可并行、缓存友好的绘制方式,达成移动端实时表现 [71] 实验结果与性能表现 - **与现有方法对比**:在自构数据集上,HRM²Avatar在PSNR(26.70)、SSIM(0.963)、LPIPS(0.040)所有指标上均优于对比方法GaussianAvatar和ExAvatar [77] - 在Neuman数据集上评估泛化表现,模型在快速动作或大姿态变化下能保持稳定的外观呈现和服饰细节 [80][81] - **消融实验**:验证了显式服装网格、姿态相关的外表建模、两阶段扫描协议均为系统的必要设计模块,移除后会导致质量下降 [82][84] - **移动端性能**:在iPhone 15 Pro Max上,单个数字人(约53万高斯点)能以2K分辨率、120 FPS稳定运行;同时渲染三个数字人时可达到2K @30 FPS;在Apple Vision Pro上可实现2K@90 FPS实时渲染 [87] - 各渲染优化策略带来显著性能提升:分级裁剪提速1.83倍,按需解压缩提速1.93倍,深度量化排序提速1.99倍(基于iPhone 15 Pro Max测试数据) [88] 总结与展望 - HRM²Avatar是一项让普通人也能通过手机创建高质量数字人的前沿探索,为移动端数字人应用提供了可行技术路径 [91] - 当前技术对结构复杂或非固定拓扑的服饰重建精度,以及在极端光照或动态遮挡场景下的效果,仍有进一步优化空间 [91] - 该成果被视为推动数字人从专业设备走向普通用户、从实验室走向真实应用场景的一个重要里程碑 [91]
SIGGRAPH 2025:摩尔线程赢3DGS挑战赛大奖,LiteGS全面开源
具身智能之心· 2025-12-18 08:07
文章核心观点 - 摩尔线程在SIGGRAPH Asia 2025的3DGS重建挑战赛中凭借自研的LiteGS技术获得银奖,证明了其在下一代图形渲染技术3D Gaussian Splatting领域的算法实力和软硬件协同优化能力 [1] - 3DGS是一项革命性的3D场景表示与渲染技术,相比传统NeRF,能在保持画质的同时将渲染效率提升数百至上千倍,并成为具身智能等前沿领域的关键基础技术 [4][7] - 摩尔线程通过开源其3DGS基础库LiteGS,展示了从底层GPU系统到高层算法的全栈优化能力,在训练效率和重建质量上树立了新的性能标杆,并计划在开发者大会上进一步探讨该技术如何赋能未来 [20][24][28] 3DGS技术概述与行业意义 - 3D Gaussian Splatting是2023年提出的革命性3D场景表示与渲染技术,以可参数化的3D高斯分布为核心,实现了画质、效率与资源占用的卓越平衡 [4] - 与传统NeRF相比,3DGS在保持逼真渲染质量的前提下,将渲染效率提升数百至上千倍 [4] - 该技术在光线追踪、VR/AR实时渲染、多模态融合等方向展现出极强的适应性与扩展性 [4] - 3DGS以其高保真、快速优化和轻量级结构,为具身智能构建准确的世界模型提供了可靠支撑,正逐渐成为该领域的关键基础技术之一 [7] - 3DGS已成为全球学术界与产业界竞相投入的研究方向,受到SIGGRAPH Asia等权威机构的高度关注 [8] SIGGRAPH Asia 2025 3DGS挑战赛详情 - 挑战赛要求参赛团队在60秒内,基于提供的真实终端视频序列、存在误差的相机轨迹及终端SLAM点云,完成高质量的3DGS重建 [10] - 比赛以PSNR(重建质量)与重建速度为综合评价指标 [12] - 比赛结果及数据集已向全球公开 [14] 摩尔线程参赛表现与技术成果 - 摩尔线程AI团队以“MT-AI”参赛,在重建精度与效率上取得均衡表现,最终获得二等奖(银牌) [17] - 根据成绩表,摩尔线程(MT-Al)的平均PSNR为27.58,重建耗时为34秒 [18] - 公司自主研发了3DGS基础库LiteGS,首次实现了从底层GPU系统、中层数据管理到高层算法设计的全链路协同优化 [21] - 在GPU系统层面,创新提出基于“One Warp Per Tile”原则的“Warp-Based Raster”新范式,大幅降低梯度计算开销 [22] - 在数据管理层,引入“聚类-剔除-压缩”流水线,显著提升数据局部性 [22] - 在算法设计层,采用像素不透明度梯度方差作为致密化核心判据,精准识别欠拟合区域 [22] - 通过协同优化,LiteGS在达到与当前质量最优方案同等水平时,可获得高达10.8倍的训练加速,且参数量减少一半以上 [25] - 在相同参数量下,LiteGS在PSNR指标上超出主流方案0.2–0.4 dB,训练时间缩短3.8至7倍 [31] - 针对轻量化模型,LiteGS仅需原版3DGS约10%的训练时间与20%的参数量,即可实现同等质量 [31] 开源与未来展望 - 摩尔线程已将LiteGS在GitHub平台全面开源,以推动三维重建与渲染技术的开放协作与持续演进 [27] - 公司此次获奖被视作准确把握全球技术发展趋势并引领未来图形计算技术方向的战略体现 [28] - 摩尔线程计划于2025年12月20日-21日在首届MUSA开发者大会上设立技术专题,深入探讨3DGS等图形智能技术如何塑造未来,赋能具身智能等前沿领域 [28]
SIGGRAPH 2025 | CLR-Wire:曲线框可生成?可交互?深大VCC带你见证魔法
机器之心· 2025-05-28 16:09
文章核心观点 - 深圳大学黄惠团队提出的CLR-Wire技术,首次将复杂三维曲线框的几何与拓扑信息统一编码到连续潜空间中,解决了传统方法难以同时有效捕捉这两类信息的难题 [1] - 该技术能够实现复杂三维结构的高效生成、平滑插值以及基于点云、图像的条件生成,在工业设计、三维重建和内容创作等领域具有广泛的应用前景 [1][8] 技术原理与架构 - **核心创新**:通过多层交叉注意力将神经参数化曲线及其离散拓扑关系联合编码为定长潜向量,并借助变分自编码器构建连续的潜空间分布 [8] - **生成方法**:采用流匹配方法实现从高斯噪声到完整线框的生成,支持无条件生成以及基于点云、图像的条件生成 [8] - **模块构成**: - **CurveVAE**:将各类三维几何曲线映射为紧凑的潜向量表示,通过标准化、交叉注意力机制和一维卷积进行编码与解码,实现曲线的连续化重建 [13] - **WireframeVAE**:融合曲线潜向量、顶点坐标及邻接关系,通过Perceiver聚合模块生成统一的全局潜向量,并解码完整重建线框结构 [15] - **Flow Matching**:训练速度场网络描述潜向量随时间的演化,将初始噪声分布演变为目标潜在分布,以生成新的潜空间样本 [17] 性能评估与实验结果 - **评估指标**:采用倒角距离、推土机距离度量几何相似性,并采用覆盖率、最大均值差异和1-最近邻评分衡量样本的多样性与分布一致性 [19] - **无条件生成对比**:在ABC数据集上,CLR-Wire在多项指标上显著优于3DWire、DeepCAD和BrepGen等先进方法 [19][21] - **覆盖率**:CLR-Wire的CD覆盖率为48.30%,EMD覆盖率为50.34%,均高于对比方法 [22] - **分布差异**:CLR-Wire的CD最大均值差异为3.07,EMD最大均值差异为8.36,均低于对比方法 [22] - **分布契合度**:CLR-Wire的CD 1-最近邻评分为54.10%,EMD 1-最近邻评分为54.98%,证明其潜空间分布与测试集高度契合 [22] - **条件生成能力**: - **点云条件生成**:在稀疏和局部缺失点云条件下,CLR-Wire在倒角距离、推土机距离和F1分数上均优于RFEPS和NerVE等方法 [22] - **具体数据**:CLR-Wire的倒角距离为8.26,推土机距离为2.58,F1分数为0.910 [22] - **图像与草图条件生成**:能够基于单视图图像或草图生成完整且具新颖性的三维曲线框,展现出良好的跨模态生成能力 [24] 应用展示与潜力 - **平滑插值**:通过球面线性插值在潜空间中实现不同三维曲线框之间的平滑过渡,成功捕捉了起始与目标线框之间的几何细节与拓扑变化 [26][27] - **实际应用**:该技术为计算机辅助设计设计与三维内容创作提供了高效可靠的全新解决方案,在直观编辑与交互式操作等场景中具有潜在价值 [9][27] 项目信息 - **研究团队**:第一作者为深圳大学可视计算研究中心博士研究生马雪奇,合作者包括刘奕林、高天龙、黄期瑞 [1] - **开源情况**:CLR-Wire相关代码已全面开源 [1] - **资源链接**: - 项目主页:https://vcc.tech/research/2025/CLRWire [8] - 项目代码:https://github.com/qixuema/CLR-Wire [8] - 论文链接:https://arxiv.org/abs/2504.19174 [8]