Workflow
低层细节重建和控制
icon
搜索文档
可控性与自然度不再「二选一」!token砍到1/6,NTU+港中文实现动作越控制越自然
量子位· 2026-03-31 14:43
MoTok技术提出的背景与核心矛盾 - 现有条件动作生成方法存在核心矛盾:增强控制(可控性)会导致动作僵硬,而追求动作流畅自然(自然度)又易偏离控制指令,两者难以兼得[1] - 研究团队认为,根本原因在于将“高层语义规划”(决定动作要做什么)和“低层细节重建与控制”(决定动作如何精确做到)这两个不同性质的任务,混合在同一个生成阶段处理,导致目标相互拉扯[2] MoTok提出的创新范式与架构 - 首创基于扩散模型的离散运动分词器,为条件动作生成提出“感知-规划-控制”三阶段通用新范式,有效结合了离散分词与连续扩散模型的优势[2][4] - 感知阶段灵活适配不同的全局或局部条件输入;规划阶段在离散分词空间进行高层语义规划;控制阶段利用扩散解码器进行细节重建与细粒度控制,从而将两类任务解耦[4] MoTok的技术性能与优势 - 在显著压缩分词数量的情况下实现性能提升:仅需当前最优方法1/6的分词量,即将轨迹误差降低89%(从0.72厘米降至0.08厘米),并将FID指标降低65%(从0.083降至0.029)[2] - 在增强关节轨迹控制的条件下,进一步将FID降低58%(从0.033降至0.014),实现了“越控制越自然”的效果,化解了传统方法中控制与自然的冲突[2][8][10] - 在文本生成动作任务中,使用离散扩散模型的分词器仅用六分之一的分词量,将FID从0.045降至0.039;使用自回归模型的分词器则将FID从0.141大幅降至0.053[7] 分词与解码器的改进效果 - 通过让离散分词专注于保留有利于规划的语义信息,并利用扩散解码器强大的细节重建能力,使得分词更精简,规划阶段更容易生成,整体质量提升[5][6] - 对比实验表明:仅将原有解码器替换为MoTok的扩散解码器,动作重建效果即得到显著改善;而使用MoTok分词后,无论后续接何种解码器,文本生成动作和动作生成文本的任务效果均获得大幅提升[6] 分层控制注入机制 - 提出从粗到细的控制注入机制:在规划阶段,关节轨迹以粗粒度约束形式参与动作规划;在控制阶段,再以细粒度约束形式通过扩散迭代进行优化[9] - 消融实验证明该双流注入的有效性:仅保留规划阶段的粗约束会导致轨迹控制误差大幅上升;仅保留控制阶段的细约束则会导致动作分布质量明显受损,必须两者结合才能实现控制精度与动作自然度的平衡[12][13]