行业背景与痛点 - 3D角色动画创作领域长期面临高质量动作资产匮乏的制约,游戏、动漫、影视与数字人等产业面临高昂的成本困局,专业动捕采集起步价为数万元,动画师手工精修骨骼动画以“天”为单位 [1] - 生成式AI领域的文生动作(Text-to-Motion)因高质量数据稀缺与计算范式局限,长期处于“小模型”阶段,难以根据复杂的自然语言指令生成正确动作 [1] - 部分研究尝试通过大语言模型扩展词表进行动作生成,模型规模得以扩大,但由于采用离散的动作Tokenizer,生成的动作质量往往不理想 [1] 核心解决方案与发布 - 腾讯混元团队借鉴其在视频生成大模型上的成功经验,提出了一套全新的文生动作解决方案,旨在突破当前瓶颈 [2] - 该方案通过构建严格的数据处理与标注管线,覆盖大规模预训练、高质量精调、强化学习对齐的全阶段训练流程,并将Diffusion Transformer模型扩展至10亿级别参数量 [2] - 成功研发了混元Motion 1.0这一业界领先的动作生成基础模型,并于2025年12月30日对外开源 [2] - 核心思路是将动作生成任务从“手工作坊”式训练升级为“现代化工业”级别的大模型构建范式,在规模上实现里程碑式突破,并通过全链路算法创新确立新的技术范式 [2] 核心技术:数据引擎 - 构建了标准化的数据处理管线,沉淀出总计超过3000小时的动作数据,以支持10亿参数模型的性能 [4] - 整合了单目视频动捕、光学动捕及艺术家手K动画资产等多源数据,以平衡模型的泛化能力与生成质量 [6] - 通过自动化工具进行数据清洗与标准化,将所有异构数据统一重定向至一套标准骨骼,剔除异常片段,最终统一为30fps对齐的切片数据 [6] - 采用“渲染→VLM初标→人工校验→LLM结构化扩写”的标注闭环流程,利用视频多模态模型捕获语义,结合人工修正,最后通过LLM进行描述多样性扩充 [6] - 数据覆盖基础移动、日常生活、社交休闲、健身户外、体育竞技、游戏角色动作6大领域,超过200个细分动作类别 [6] 核心技术:生成管线 - 设计专门的LLM Prompt Engineering模块,用于用户Prompt改写及动作时长估计,充当“动作导演”角色 [7] - 构建了包含{用户指令,优化指令,动作时长}的三元组数据集,利用Gemini-2.5-Pro模拟海量真实、模糊的用户Prompt,并与高质量描述及真实时长进行精准对齐 [7] - 采用两阶段微调:SFT阶段基于Qwen3-30B-A3B进行微调,使模型具备将多语言模糊指令转化为“结构化英文描述+精确时长”的能力;GRPO强化学习阶段引入Qwen3-235B作为奖励模型,从“语义一致性”与“时序合理性”维度进行打分优化 [7] - Prompt Engineering模块最终将用户的中文或模糊指令转化为“英文动作描述+精确时长”,显著提升生成的可控性 [8] 核心技术:模型设计 - 核心生成架构采用Diffusion Transformer结合Flow Matching [10] - 模型结构采用“双流→单流”的混合架构,在双流阶段动作Latent和文本Token独立处理并通过self-attention交互,在单流阶段两者拼接为统一序列进行深度多模态融合 [12] - 针对长序列生成中的逻辑崩坏与动力学断裂,通过“语义防污染”与“局部约束”双管齐下,确保动作演进既符合指令逻辑又满足物理连续性 [12] 核心技术:全流程训练 - 将LLM领域的RLHF范式完整迁移到动作生成中,完整跑通“Pre-train->SFT->RLHF”三阶段训练 [13] - 大规模预训练阶段:在3000小时全量数据上进行,让模型学会各种动作的基本范式 [15] - 精细化微调阶段:筛选400小时的精标高质量数据进行微调,显著减少动作抖动和滑步,提升画质 [15] - 强化学习阶段:采用“DPO + Flow-GRPO”策略,并引入非对称掩码机制与窗口注意力机制 [15] - DPO阶段基于超过9千对偏好数据,通过最大化优胜样本似然差,解决“动作像不像”的审美对齐问题,大幅提升生成Pass Rate [16] - GRPO阶段引入包含语义一致性与物理约束的奖励函数,强化动作的物理真实感 [16] 模型性能表现 - 得益于参数规模及数据质量提升,HY-Motion 1.0在SSAE(语义结构自动评测)指标上达到78.6%,指令遵循能力远超SOTA模型 [17] - 在人工5档打分中,HY-Motion 1.0在多个类别及平均分上均领先于MoMask、GoToZero、DART、LoM等对比模型,平均分达到3.43 [18] - 模型在复杂时序逻辑(如“行走中突然停下惊恐环顾”、“跑酷跳跃后翻滚”)、动作覆盖度(如“跳舞扭胯”、“张弓搭箭”)及细粒度控制(如“顺时针绕圈行走”、“举右手挥手同时左手插口袋”)等维度上均有实测表现展示 [19][21][22][23][24][25] 社区反响与应用 - 自开源发布以来,HY-Motion 1.0在各平台热度持续上升 [26] - 游戏开发者、AI设计师、动画师、影视/广告创意导演等相关从业者纷纷投入使用并分享实测效果 [27] - 游戏开发者将其集成至ComfyUI等主流AI工作流中,实现3D动作资产的“即插即用”;社区涌现一系列自动化重定向脚本与工具,支持将生成动作一键映射至用户自定义角色 [27][29][31] - 有开发者尝试将模型输出作为视频生成模型的控制信号,使生成的动作更可控和可编辑 [31][33] 行业影响与展望 - HY-Motion 1.0的研发模式依托腾讯在游戏、数字内容等领域深厚的业务场景,真实且高标准的落地需求驱动模型在视觉美感与工业精度上不断对齐 [33] - 对社区及个人创作者而言,该模型使其在缺乏高昂动捕设备的情况下,依然能产出高质量动作资产,为产业上下游提供了更具性价比的AI解决方案 [33] - 当前的3D动作生成模型仍面临滑步处理、极端物理交互等行业性难题 [34] - 腾讯选择将核心能力开源,旨在通过技术普惠激发社区共建力量,在真实产业应用中迭代,共同推动3D角色动画制作从“手工精修”向“智能生成”的范式转型 [34]
让AI当「动作导演」:腾讯混元动作大模型开源,听懂模糊指令,生成高质量3D角色动画