TextOp通用小脑 - 财报，业绩电话会，研报，新闻

TextOp通用小脑

搜索文档

让机器人「秒懂人话」！中国电信TeleAI发布首个实时文本驱动人形机器人控制框架TextOp

机器之心· 2026-02-12 11:00

行业痛点与现有技术局限 - 当前人形机器人表演多依赖预录的人类动作跟踪，采用“一个动作一个策略”的僵硬模式，无法实现自然交互，需要手动切换模型或使用遥控器，本质是“表面智能，本质播放”[2] - 现有的机器人通用控制器系统面临两难困境：依赖预设轨迹导致动作死板僵硬，或依赖人类远程操控而失去自主性，无法满足“听得懂、动得快、变得强”的期待[9] 公司技术解决方案与核心创新 - 中国电信人工智能研究院（TeleAI）推出人形机器人TextOp通用小脑，首创流式文本驱动的实时小脑控制范式，用户可像对话一样随时发出文本指令，机器人即可在运动中实时理解并无缝切换动作[2] - 核心创新在于提出“流式文本驱动的人形机器人实时控制范式”，支持流式文本指令，允许用户在机器人执行任务过程中随时修改意图，机器人能实时“听懂”并立即调整动作[10] - 采用类人的双层架构设计，上层“大脑”（生成器）基于自回归文本条件运动扩散模型构想未来短时运动轨迹，下层“小脑”（跟踪策略）采用通用全身运动跟踪策略将轨迹转化为高频关节指令，实现“高层意图随时更新，低层控制始终稳定”[15][16][17] - 创新性地采用基于自由度（DoF）的增量表示法作为运动表示，每一帧特征包含根姿态的旋转与增量、局部平移增量、关节角度及其增量、足部接触状态，天然强制执行机器人运动学约束[19][21][23] - 采用巧妙的数据增强策略解决仿真到现实的鸿沟，直接使用生成器的输出作为训练数据来训练底层跟踪策略，显著缩小训练与推理的分布差异，提升真实环境中的鲁棒性[22][24] 产品功能与性能表现 - 实现无缝衔接与一镜到底，所有动作一气呵成，并能从律动的街舞到优雅的民族舞行云流水地切换风格[4] - 机器人能根据实时文本指令无缝切换各种动作，并始终保持流畅的全身运动，例如从街舞瞬间切换至跳跃，再切换至挥手打招呼[5] - 在Unitree G1人形机器人上的真实世界测试表明，TextOp能够实现连续技能无缝切换，包括从优雅芭蕾平滑过渡到动感街舞、连贯执行复杂功夫套路、模拟弹吉他拉小提琴以及配合丰富的表达性手势[23][25] - 系统展现出强抗干扰能力，即使在受到外部推搡和拉扯的干扰下，机器人依然能快速调整重心，保持任务连续性[27] - 定量评估显示，在30秒长序列测试中，对于“play the violin”指令，成功率为10/10，Eg-mpjpe为107.584，Empjpe为33.941，Eacc为0.518，Evel为0.750[31] - 系统实时性能优异，用户交互延迟仅0.73±0.10秒，其中文本编码延迟7.64±2.56毫秒，运动生成延迟29.63±3.56毫秒，跟踪策略延迟2.15±0.11毫秒[32] - 在运动生成质量对比中，TextOp在多个关键指标上领先，例如Segment FID T为3.072±0.199（优于对比方法），Diversity为9.220±0.151，Transition FID T为3.238+0.430[33] - 在运动跟踪器评估中，TextOp-M+G方案的成功率为0.814，Eg-mpjpe为394.705，Empjpe为79.057，均优于TWIST2、GMT、Any2Track等对比方法[34] 应用前景与行业意义 - TextOp将人形机器人的运动控制从“预编程”升级为“对话式调用”，在多个场景展现明确潜力[36] - 在内容创作与表演编排领域，导演可通过文本实时调整机器人动作，实现可即兴编排的“数字演员”，无需等待动捕录制[37] - 在标准化动作示范领域，如体育教学或技能培训，教练只需发送文本指令即可调取标准动作演示，机器人能即时呈现并在受干扰后快速恢复[37] - 可作为遥操作的智能中间层，在危险环境巡查等场景，操作员只需发出高层指令（如“蹲下检查”），机器人即可自动规划平衡动作执行，降低操控门槛[37] - 该技术成功解决了“从自然语言到物理动作”的映射难题，即AI领域的“符号接地”问题，是将大语言模型高层推理与即时动作执行能力相结合、迈向通用具身智能的重要一步[37]