低层细节重建和控制 - 财报，业绩电话会，研报，新闻

低层细节重建和控制

搜索文档

可控性与自然度不再「二选一」！token砍到1/6，NTU+港中文实现动作越控制越自然

量子位· 2026-03-31 14:43

MoTok技术提出的背景与核心矛盾 - 现有条件动作生成方法存在核心矛盾：增强控制（可控性）会导致动作僵硬，而追求动作流畅自然（自然度）又易偏离控制指令，两者难以兼得[1] - 研究团队认为，根本原因在于将“高层语义规划”（决定动作要做什么）和“低层细节重建与控制”（决定动作如何精确做到）这两个不同性质的任务，混合在同一个生成阶段处理，导致目标相互拉扯[2] MoTok提出的创新范式与架构 - 首创基于扩散模型的离散运动分词器，为条件动作生成提出“感知-规划-控制”三阶段通用新范式，有效结合了离散分词与连续扩散模型的优势[2][4] - 感知阶段灵活适配不同的全局或局部条件输入；规划阶段在离散分词空间进行高层语义规划；控制阶段利用扩散解码器进行细节重建与细粒度控制，从而将两类任务解耦[4] MoTok的技术性能与优势 - 在显著压缩分词数量的情况下实现性能提升：仅需当前最优方法1/6的分词量，即将轨迹误差降低89%（从0.72厘米降至0.08厘米），并将FID指标降低65%（从0.083降至0.029）[2] - 在增强关节轨迹控制的条件下，进一步将FID降低58%（从0.033降至0.014），实现了“越控制越自然”的效果，化解了传统方法中控制与自然的冲突[2][8][10] - 在文本生成动作任务中，使用离散扩散模型的分词器仅用六分之一的分词量，将FID从0.045降至0.039；使用自回归模型的分词器则将FID从0.141大幅降至0.053[7] 分词与解码器的改进效果 - 通过让离散分词专注于保留有利于规划的语义信息，并利用扩散解码器强大的细节重建能力，使得分词更精简，规划阶段更容易生成，整体质量提升[5][6] - 对比实验表明：仅将原有解码器替换为MoTok的扩散解码器，动作重建效果即得到显著改善；而使用MoTok分词后，无论后续接何种解码器，文本生成动作和动作生成文本的任务效果均获得大幅提升[6] 分层控制注入机制 - 提出从粗到细的控制注入机制：在规划阶段，关节轨迹以粗粒度约束形式参与动作规划；在控制阶段，再以细粒度约束形式通过扩散迭代进行优化[9] - 消融实验证明该双流注入的有效性：仅保留规划阶段的粗约束会导致轨迹控制误差大幅上升；仅保留控制阶段的细约束则会导致动作分布质量明显受损，必须两者结合才能实现控制精度与动作自然度的平衡[12][13]

conditional motion generation

高层语义规划

低层细节重建和控制

Artificial Intelligence

MoTok

conditional motion generation

高层语义规划

低层细节重建和控制

Artificial Intelligence

MoTok