Workflow
ViMoGen
icon
搜索文档
从过拟合到通用!ViMoGen开启3D人体动作生成新纪元
机器之心· 2026-01-07 17:30
行业背景与问题 - 3D人体动作生成领域相较于AIGC视频生成发展滞后,现有模型在标准数据集上表现良好,但泛化能力存在明显瓶颈,面对训练集未见的复杂交互或罕见动作时,生成结果往往缺乏自然性、崩坏或退化为简单平均姿态,严重限制了其现实应用[2] 核心解决方案:ViGen-to-MoGen - 研究提出将视频生成模型已习得的通用物理规律和人类行为知识“蒸馏”给3D人体动作生成模型的新思路[3] - 来自南洋理工大学、商汤科技、清华大学、香港中文大学和英伟达的研究团队,从数据、模型、评估三个维度重新定义了通向通用动作生成的路径[7][8] 数据支柱:ViMoGen-228K数据集 - 引入ViMoGen-228K数据集,包含约22.8万条高质量动作样本,实现了规模与多样性的双重飞跃[9][10] - 数据集包含文本-动作、文本-视频-动作多模态三元组[11] - 数据来源多样:结合了从30个动作捕捉数据集中筛选的高精度数据、从海量互联网视频提取的动作序列,以及利用视频生成模型合成的、在真实动作捕捉中极难获取的长尾动作数据,突破了传统数据采集的物理限制[15][16] 模型支柱:ViMoGen架构 - 采用Text-to-Motion与Motion-to-Motion双分支架构[15] - 通过门控机制,将视频生成模型的广泛语义先验与动作捕捉数据的精准物理先验相统一[15][18] - 该模型在传统测评和提出的新测评基准上均表现出色[18] 评估支柱:MBench基准 - 提出首个面向“泛化性”的评测基准MBench,从动作质量、文本忠实度、泛化能力三大维度细分为9项指标,是目前最全面的动作生成评测方式[15] - 传统指标如FID只能衡量与特定数据集的相似度,无法评估处理复杂罕见指令时的真实泛化能力[20] - 动作质量层面关注物理可实现性,如地面接触、穿模、脚步抖动和平滑度[21] - 指令忠实度层面利用多模态大模型评估生成动作与复杂文本描述的一致性[21] - 开放世界泛化力层面设计了一系列分布外测试案例,涵盖极端动作、长尾语义及复合指令,专门考验模型在未见过场景下的稳定性[21] 性能表现 - 在基于HumanML3D数据集的测评中,ViMoGen-light模型在R Precision (Top 1, Top 2, Top 3)、FID等多项指标上优于或媲美TM2T、T2M、MDM、MotionDiffuse、T2M-GPT、MoMask、Motion-LCM、MLD等现有模型[13] - 在MBench测评中,ViMoGen模型在动作一致性、泛化性、动态程度、脚步滑动、身体穿透、姿态质量等多个指标上表现领先或具有竞争力[14] 应用前景:赋能具身智能 - 可为具身智能与人形机器人控制研究提供海量高质量动作数据,传统机器人训练数据局限于几套标准动作,而ViMoGen-228K能提供大量长尾、边缘场景的高质量动作[23] - ViMoGen凭借强大泛化能力,能够批量产出特殊需求的动作数据,让智能体在虚拟训练阶段预演复杂动态,从而在现实部署中具备更强抗干扰能力[23] - MBench对动作质量的评估能为下游的从真实到模拟过程进行初步筛选,排除可能导致机器人频繁跌倒或关节自锁的无效动作[24] 生成效果展示 - 模型能够根据复杂文本指令生成多种高质量、复杂的3D人体动作,例如:空翻、多球杂耍、引体向上、空手道组合动作、推箱子等[26][28][30][32][34]