Workflow
TextOp通用小脑
icon
搜索文档
让机器人「秒懂人话」!中国电信TeleAI发布首个实时文本驱动人形机器人控制框架TextOp
机器之心· 2026-02-12 11:00
行业痛点与现有技术局限 - 当前人形机器人表演多依赖预录的人类动作跟踪,采用“一个动作一个策略”的僵硬模式,无法实现自然交互,需要手动切换模型或使用遥控器,本质是“表面智能,本质播放”[2] - 现有的机器人通用控制器系统面临两难困境:依赖预设轨迹导致动作死板僵硬,或依赖人类远程操控而失去自主性,无法满足“听得懂、动得快、变得强”的期待[9] 公司技术解决方案与核心创新 - 中国电信人工智能研究院(TeleAI)推出人形机器人TextOp通用小脑,首创流式文本驱动的实时小脑控制范式,用户可像对话一样随时发出文本指令,机器人即可在运动中实时理解并无缝切换动作[2] - 核心创新在于提出“流式文本驱动的人形机器人实时控制范式”,支持流式文本指令,允许用户在机器人执行任务过程中随时修改意图,机器人能实时“听懂”并立即调整动作[10] - 采用类人的双层架构设计,上层“大脑”(生成器)基于自回归文本条件运动扩散模型构想未来短时运动轨迹,下层“小脑”(跟踪策略)采用通用全身运动跟踪策略将轨迹转化为高频关节指令,实现“高层意图随时更新,低层控制始终稳定”[15][16][17] - 创新性地采用基于自由度(DoF)的增量表示法作为运动表示,每一帧特征包含根姿态的旋转与增量、局部平移增量、关节角度及其增量、足部接触状态,天然强制执行机器人运动学约束[19][21][23] - 采用巧妙的数据增强策略解决仿真到现实的鸿沟,直接使用生成器的输出作为训练数据来训练底层跟踪策略,显著缩小训练与推理的分布差异,提升真实环境中的鲁棒性[22][24] 产品功能与性能表现 - 实现无缝衔接与一镜到底,所有动作一气呵成,并能从律动的街舞到优雅的民族舞行云流水地切换风格[4] - 机器人能根据实时文本指令无缝切换各种动作,并始终保持流畅的全身运动,例如从街舞瞬间切换至跳跃,再切换至挥手打招呼[5] - 在Unitree G1人形机器人上的真实世界测试表明,TextOp能够实现连续技能无缝切换,包括从优雅芭蕾平滑过渡到动感街舞、连贯执行复杂功夫套路、模拟弹吉他拉小提琴以及配合丰富的表达性手势[23][25] - 系统展现出强抗干扰能力,即使在受到外部推搡和拉扯的干扰下,机器人依然能快速调整重心,保持任务连续性[27] - 定量评估显示,在30秒长序列测试中,对于“play the violin”指令,成功率为10/10,Eg-mpjpe为107.584,Empjpe为33.941,Eacc为0.518,Evel为0.750[31] - 系统实时性能优异,用户交互延迟仅0.73±0.10秒,其中文本编码延迟7.64±2.56毫秒,运动生成延迟29.63±3.56毫秒,跟踪策略延迟2.15±0.11毫秒[32] - 在运动生成质量对比中,TextOp在多个关键指标上领先,例如Segment FID T为3.072±0.199(优于对比方法),Diversity为9.220±0.151,Transition FID T为3.238+0.430[33] - 在运动跟踪器评估中,TextOp-M+G方案的成功率为0.814,Eg-mpjpe为394.705,Empjpe为79.057,均优于TWIST2、GMT、Any2Track等对比方法[34] 应用前景与行业意义 - TextOp将人形机器人的运动控制从“预编程”升级为“对话式调用”,在多个场景展现明确潜力[36] - 在内容创作与表演编排领域,导演可通过文本实时调整机器人动作,实现可即兴编排的“数字演员”,无需等待动捕录制[37] - 在标准化动作示范领域,如体育教学或技能培训,教练只需发送文本指令即可调取标准动作演示,机器人能即时呈现并在受干扰后快速恢复[37] - 可作为遥操作的智能中间层,在危险环境巡查等场景,操作员只需发出高层指令(如“蹲下检查”),机器人即可自动规划平衡动作执行,降低操控门槛[37] - 该技术成功解决了“从自然语言到物理动作”的映射难题,即AI领域的“符号接地”问题,是将大语言模型高层推理与即时动作执行能力相结合、迈向通用具身智能的重要一步[37]