ControlVLA - 财报，业绩电话会，研报，新闻

ControlVLA

搜索文档

具身智能之心· 2025-09-25 17:54

文章核心观点 - 北京通用人工智能研究院联合星尘智能提出物体中心表征微调框架ControlVLA，使机器人通过极少量（10-20次）人类示范即可掌握复杂任务，成功率超过75%，相较传统方法提升近4倍 [1] - ControlVLA框架结合预训练VLA模型与物体中心表示，通过ControlNet风格架构实现高效少样本微调，大幅缩短机器人训练时间和成本 [1][5][9] - 该技术在星尘智能AI机器人Astribot S1上验证，在8项现实世界任务中总体成功率达76.7%，长时序任务平均成功率达60%，展现出色泛化与执行能力 [1][15][19] 技术原理与方法 - ControlVLA工作流程分为三步：大规模VLA模型预训练、物体中心表示提取、ControlNet式微调适配 [12] - 通过零初始化投影层将预训练VLA模型与以对象为中心表示连接，在不覆盖先验知识情况下引入物体中心条件 [5][10] - 物体中心表示通过GroundingDINO和SAM2对任务相关物体进行分割与跟踪，提取几何特征与位置特征 [12] 实验成果与性能 - 在8个现实世界任务实验中，每个任务仅使用10-20条演示数据训练，ControlVLA总体成功率达到76.7%，远超传统方法20.8%的水平 [14][15] - 长时序任务（如多物体分类整理、抽屉物体替换）平均成功率达60%，约为现有最佳方法的3倍 [17][19] - 在OrganizeToy任务中，ControlVLA使用20条演示数据即可达到80%成功率，而其他方法即使使用100条演示也未能达到同等表现 [21] 泛化能力与鲁棒性 - 在未见过物体（面包、香蕉、橙子）与新背景下测试，ControlVLA仍保持60%-70%的任务成功率 [24][25] - 该方法提升了对复杂场景、长时序任务以及未见过物体与环境的鲁棒性与扩展性 [10][24] 硬件平台支持 - 研究成果基于星尘智能AI机器人Astribot S1完成，该产品采用绳驱传动技术，传动效率>90%，回驱性>80% [2] - 绳驱模仿人类肌腱运动方式，让机器人具备高表现力与高安全性，适合需要精细触觉反馈的AI任务 [2]