生成式编舞 - 财报，业绩电话会，研报，新闻

生成式编舞

搜索文档

具身智能之心· 2026-01-06 08:32

文章核心观点 - 现有四足机器人（机器狗）普遍缺乏“灵性”和“生命力”，其核心问题在于传统控制范式采用“一个动作一个策略”的模式，导致动作切换生硬，难以适应真实、连续的人机交互场景 [4][6][9] - 为解决此问题，公司提出了一套全新的“四足行为基础模型”范式，旨在通过构建统一动作隐空间、利用海量非结构化数据以及引入残差动力学适配技术，赋予四足机器人连续、流畅、富有表现力且能零样本泛化的通用运动能力，使其真正融入生活 [10][11][34] 现有四足机器人的局限性 - **动作模式单一且割裂**：传统四足控制擅长单一任务的稳健执行，主流做法是“一个动作一个策略”（如后空翻、跳高、作揖各自单独训练），导致动作之间的自然衔接被忽视 [6][7] - **缺乏连续性与灵性**：单一动作模式使机器人动作转换生硬，难以展现连续、流畅且富有情感表达力的复杂行为，失去了生物体应有的灵性 [9] - **与真实场景需求脱节**：在真实环境与人一起活动的场景中，用户更在意一起活动的连续性和稳定性，而非某个单项动作的极限指标 [8] 四足行为基础模型解决方案 - **核心范式**：提出一套全新的四足行为基础模型范式，将最前沿的全身运动追踪技术系统化迁移到四足平台，打通从高维数字资产到实体物理环境的高保真落地路径 [11] - **三大核心要点**： 1. **海量非结构化数据注入**：构建高效的动作重定向管线，深度集成3A游戏与影视动画中的大规模、非结构化动作资产，并引入动作设计师编排的原创素材，协同艺术表现力与工程可落地性 [11] 2. **统一动作隐空间**：依托条件变分自编码器等生成式架构，将成千上万种动作模态压缩至连续隐空间，实现运动原语的解耦与融合，为单一通用策略提供统一表达 [11] 3. **残差动力学适配**：引入残差动力学适配技术，弥补虚拟艺术动作与真实物理环境之间的动力学鸿沟，确保单一通用策略的鲁棒性 [11] 技术实现路径 - **第一步：构建跨域动作数据集** - **突破**：构建了行业首个跨域四足动作数据集，解决了四足领域长期缺乏高质量动作数据集的瓶颈 [13][14] - **方法**：以数字动作资产为规模化底座，融合动作设计师创作编排的素材，形成覆盖广、风格丰富的动作谱系，并建立面向运动学与动力学一致性的重定向框架，解决异构映射难题 [16] - **第二步：算法迁移与通用策略学习** - **技术迁移**：将人形机器人最前沿的全身运动追踪技术栈适配并优化至四足构型，摒弃“一个任务一个策略”的传统强化学习范式 [22] - **通用策略训练**：分为两个阶段： 1. **通用策略**：通过运动学解析提取参考轨迹，并引入动力学可行性过滤机制，确保生成轨迹具备可执行的物理基础 [23] 2. **基于残差学习的仿真到现实适配**：采用“基础策略网络+残差策略网络”的双层控制架构。基础网络负责生成富有生命力的姿态语义；残差网络作为适配器，在真实数据回放驱动下训练，专注于处理高频非线性扰动，消除仿真与现实间的差距 [25][27] - **第三步：跨模态动作合成** - **目标**：在通用策略与统一隐空间基础上，探索多模态输入对机器人行为的驱动能力，实现“闻歌起舞” [29] - **音频驱动编舞框架**：提出音频-动作映射框架，利用预训练潜空间的流形连续性，将音频信号实时转化为机器人运动轨迹 [29] - **具体实现**： 1. **风格映射**：实时提取输入音频的梅尔频谱与能量特征，通过轻量级网络将其投影为潜空间中的轨迹序列，实现从“音乐情绪”到“动作语义”的自动映射 [32] 2. **时序对齐**：引入动态时间缩放系数，通过节拍追踪算法提取音频相位信息，实时调制策略网络输入相位，使运动节律与音频信号保持稳定对齐，实现真正的生成式编舞 [33] 方案成果与意义 - **打通技术链路**：该行为基础模型方案成功打通了从“数字艺术”到“实体物理”的具身智能链路 [34] - **赋予新能力**：机器人不再仅被动执行避障或行走，而是获得了零样本的即兴表现能力，在保持高动态运动天赋的同时，赋予了机器狗如生物般灵动、多变的通用行为能力 [34]