Wan2.1
搜索文档
Yann LeCun离开Meta后首篇论文?使用了宇树机器人做研究
机器之心· 2025-12-06 12:08
研究核心观点 - 伯克利、纽约大学和约翰・开普勒林茨大学的研究人员提出名为GenMimic的新方法,使人形机器人能够零样本模仿AI生成视频中的人类动作,即使视频存在噪声或变形,机器人也能提取核心动作逻辑并在物理世界中复现 [1] - 该研究是首个使人形机器人能够执行由视频生成模型生成动作的通用框架,并在仿真和真实世界实验中验证了其可行性 [4] 研究方法与框架 - 研究提出一个基于4D重建的两阶段流程:第一阶段从生成视频中提取并重定向SMPL参数到机器人关节空间,第二阶段通过新的GenMimic跟踪策略输出物理上可执行的关节角度 [15][17][18] - 方法采用加权关键点跟踪奖励和对称损失增强策略鲁棒性,使策略能选择性关注任务关键点(如末端执行器)并利用人体对称性应对生成视频中的噪声 [22][23][25][26] - 训练使用对称正则化和选择性加权的3D关键点奖励,尽管仅在现有动作捕捉数据上训练,却能泛化到充满噪声的合成视频 [4] 数据集构建 - 研究团队创建了名为GenMimicBench的合成人类动作数据集,包含428个由Wan2.1和Cosmos-Predict2视频生成模型创建的视频,涵盖广泛的主体、环境和动作类型 [8][9][11] - 数据集包含217个使用Wan2.1生成的多视角室内结构化视频,以及211个使用Cosmos-Predict2生成的模拟YouTube风格的自然场景视频,旨在评估策略在视觉和动作分布偏移下的零样本泛化能力 [11][12][13] 实验表现与结果 - 在仿真实验中,GenMimic方法在GenMimicBench数据集上显著优于基线模型,其教师模型获得了86.77%的成功率,远高于BeyondMimic的23.81%和TWIST的2.69% [30][31] - 在真实世界实验中,研究团队将策略部署在23自由度的宇树G1人形机器人上,推演了43个动作,对于原地动作(如挥手、伸展)视觉成功率高达1.0,但涉及下半身运动(如步进、转身组合)的动作成功率较低,在0.20至0.60之间 [29][32][33][34] - 仿真训练在IsaacGym中进行,样本量超过15亿,使用了四个NVIDIA RTX 4090 GPU,部署使用单个NVIDIA 4060移动版GPU [29]
一张照片,一个3D「你」:计算所等提出HumanLift,实现高保真数字人重建
机器之心· 2025-10-22 07:20
行业技术背景与挑战 - 创建高真实感三维数字人在影视、游戏、VR/AR等领域有广泛应用,但从单张图片重建仍面临技术复杂、资源消耗大的挑战[2] - 核心难题在于如何兼顾三维一致性、参考图像一致性,并生成高真实度且细节一致的服饰、人脸[2] - 早期方法分为显式和隐式两类:显式方法依赖参数化模型,难以处理复杂衣着;隐式方法计算成本高,生成纹理真实感不足[8] - 尽管生成模型(如Stable Diffusion)和神经隐式渲染方法(如NeRF、3D-GS)快速发展,但将其拓展至高真实感三维人体建模仍面临数据稀缺、人物姿势与服饰复杂等困难[8] - 现有方法或受文本条件模糊性限制难以还原精细服装细节,或缺乏三维先验导致视角不一致,或存在面部细节缺失问题[8][9] HumanLift技术方案概述 - 该技术由中国科学院计算技术研究所、香港科技大学和英国卡迪夫大学的研究人员合作提出,论文已被SIGGRAPH ASIA 2025接收[2] - 技术目标:输入单张人物图像,重建出高质量、高逼真度的三维数字人,能在不可见视角下准确估计人物外观和服饰几何细节,保持多视角一致性[4] - 方法框架分为两个阶段:第一阶段是多视角图像生成,第二阶段是3D-GS模型重建[11] 第一阶段:多视角图像生成 - 旨在从单张日常照片生成逼真的多视角图像,设计了一种具备3D感知能力的多视角人体生成方法[13] - 生成器骨干网络基于视频生成模型Wan2.1构建,该模型在大量2D通用视频上训练,具备强大的高保真视频推断能力[13] - 引入了额外的三维人体先验(SMPL-X的多视角语义图像)作为3D引导条件,并将其嵌入到Wan2.1中[14] - 设计了两种专门针对人体优化的模型:HumanWan-DiT(RGB)和HumanWan-DiT(Normal),以增强视角一致性和几何细节[14] - 采用低秩适应(LoRA)技术进行内存高效的参数微调,以减少训练内存开销[14] - 通过一个由堆叠3D卷积层组成的轻量条件编码器,对人体的三维先验信息进行编码[14] 第二阶段:3D-GS模型重建 - 利用第一阶段生成的多视角Normal图片和RGB图片,重建人体的3D-GS表示[15] - 借助现有生成模型对超分辨率的面部图像进行多视角图片生成,生成具有标准空间下相机姿态的高质量多视角面部图像[16] - 以生成的多视角人脸图像和第一阶段生成的多视角人体图像作为监督信号,基于高斯网表示对三维高斯球的参数进行优化[17] - 为确保面部渲染准确性,将面部图像的相机姿态从标准空间转换到SMPL-X头部(世界空间),以监督面部部分的高斯球属性[17] - 根据每次迭代优化后的SMPL-X姿态参数,动态调整面部相机姿态,确保其与头部的3D高斯球始终保持一致[17] 技术效果与验证 - 在真实拍摄人物图片中,该方法预测的多视角RGB图像具有照片级真实感,多视角法向图能精准反映人物及服饰的几何细节,且整体保持良好空间一致性[19][20] - 方法对不同服饰风格、不同拍摄场景下的人物案例均能稳定生成高质量、高一致性的三维数字人,展示了良好的泛化能力[20] - 消融实验验证了各模块作用:禁用面部增强导致面部细节明显缺失,真实感大幅下降[22];禁用SMPL-X姿态优化导致人体姿态与头部相机位姿匹配度降低,头部渲染效果偏离真实场景[22];禁用人体多视角法线图监督导致服饰细节丢失严重,几何结构呈现不准确[23] - 实验证明,面部增强模块显著提升面部细节质量;SMPL-X优化模块能有效调整人体姿态参数并同步更新头部相机位姿;基于微调HumanWan-DiT(Normal)模型提供的法线监督能更好地保留衣物细节[23] 技术意义与结论 - 随着大模型和生成式AI发展,HumanLift为单图全身数字人重建问题提供了新的解决范式[25] - 该方法通过微调基于三维扩散先验的视频生成模型和专门设计的人脸增强模块,有效解决了传统方法真实感不足、生成式方法难以在姿势、服饰细节和人脸真实感与一致性之间平衡的问题[25] - 用户无需繁琐数据处理,仅需输入单张参考图片,就能重建出高质量、高逼真度的三维数字人[25]
EasyCache:无需训练的视频扩散模型推理加速——极简高效的视频生成提速方案
机器之心· 2025-07-12 12:50
研究背景与动机 - 扩散模型和扩散Transformer在视频生成领域广泛应用,显著提升了AI合成视频的质量和连贯性,如OpenAI Sora、HunyuanVideo、Wan2.1等模型已能生成结构清晰、细节丰富且高度连贯的长视频内容 [3] - 当前扩散模型存在推理慢、算力消耗高的问题,例如HunyuanVideo生成5秒720P视频在单张H20上需2小时,限制了实时互动和移动端应用 [4] - 核心瓶颈在于扩散模型需多次迭代去噪,每一步都需完整神经网络前向推理,导致大量冗余计算 [5] 方法创新:EasyCache设计与原理 - EasyCache是一种无需训练、无需模型结构改动的推理加速框架,通过动态检测模型输出的「稳定期」复用历史计算结果以减少冗余推理步骤 [7] - 研究发现扩散模型在去噪初期输出变化剧烈需完整推理,中后期「变换速率」趋于稳定,行为近似线性,可通过复用历史结果跳过冗余计算 [12][13] - 采用自适应缓存机制,通过变换速率度量(Kt)和累计误差阈值(Et)动态判断是否复用缓存,前R步为warm-up确保初期结构信息不丢失 [15][19] 实验结果与性能 - 在HunyuanVideo上实现2.2倍加速,PSNR提升36%至32.66,SSIM提升14%至0.9313,LPIPS大幅下降至0.0533,视频质量几乎无损 [17][20] - 在Wan2.1上取得2.54倍加速,PSNR达25.24,SSIM 0.8337,LPIPS 0.0952,优于Static cache和TeaCache等方法 [20] - 在图像生成任务(FLUX.1-dev)实现4.64倍加速,FID降至23.2,CLIP Score保持26.1 [21][22] - 与SVG等稀疏注意力技术叠加后平均加速达3.3倍,总体推理时长从2小时缩短至33分钟 [23][26] 技术优势与行业影响 - 可视化对比显示EasyCache生成的视频在细节、结构和清晰度上与原模型几乎一致,显著优于静态缓存和TeaCache等方法 [24][25] - 该技术为视频扩散模型提供了极简、高效、训练无关的推理加速新范式,为实际应用落地奠定基础 [27] - 未来有望通过持续优化进一步逼近「实时视频生成」目标,推动数字内容创作和多媒体娱乐行业变革 [27]
无需训练,即插即用,2倍GPU端到端推理加速——视频扩散模型加速方法DraftAttention
机器之心· 2025-06-28 12:35
视频生成模型效率瓶颈 - 扩散模型在高质量视频生成任务中已成为主流,但DiT模型中的注意力机制计算量随视频长度和分辨率提升急剧增加,成为推理效率最大瓶颈 [1] - 视频生成中DiT通常使用3D全局注意力建模时空一致性,计算量随token数量呈平方增长,生成8秒720p视频需要接近一小时 [1] - 在HunyuanVideo等模型中,注意力模块计算时间占比超过80% [1] 现有加速方法局限性 - 现有稀疏注意力方法如Sparse VideoGen和AdaSpa在GPU上实现了一定加速,但受限于稀疏度不足和稀疏模式设计刚性,效果不理想 [2] - 这些方法依赖固定稀疏算子,缺乏对输入内容的动态适应能力,难以实现细粒度、内容感知的稀疏模式调控 [2] DraftAttention创新方案 - 研究团队提出无需训练、即插即用的动态稀疏注意力方法DraftAttention,实现高达2倍的GPU端到端推理加速 [3] - 核心思想是通过低分辨率"草图注意力图"估计token重要性,指导高分辨率注意力计算中的稀疏模式选择 [11] - 具体流程包括草图构建、草图注意力计算、稀疏模式引导、Token重排以适配硬件等步骤 [12][13] - 该方法可直接插入现有视频扩散模型如HunyuanVideo和Wan2.1中,无需额外训练或微调 [13] 理论验证 - 使用平均池化构建的Draft Attention Map与原始高分辨率Attention Map之间的差异在Frobenius范数意义下有界 [15] - 从Draft Attention Map提取的稀疏注意力模式影响可被严格界定在可控范围内 [15] 实验结果 - 在HunyuanVideo和Wan2.1模型上测试,DraftAttention在高稀疏率(75%~90%)下能更好保留视频时空一致性和关键结构 [20] - 在H100和A100 GPU上实现最高1.75倍端到端推理加速,加速效果随视频长度、分辨率和稀疏率提升 [22] - PSNR在高分辨率下提升约+2~+3分,SSIM一致性更强,LPIPS感知相似度提升 [21] 未来方向 - 计划结合量化与蒸馏等技术,继续优化长视频生成效率瓶颈,推动高质量视频生成模型走向移动端、边缘端等资源受限场景 [47]