Workflow
共享自主框架
icon
搜索文档
效率提升25%,灵巧操作数采困境被「臂-手共享自主框架」解决
具身智能之心· 2025-12-13 09:02
编辑丨机器之心 点击下方 卡片 ,关注" 具身智能之心 "公众号 更多干货,欢迎加入国内首个具身智能全栈学习社区: 具身智能之心知识星球(戳我) ,这里包含所有你想要的! 实现通用机器人的类人灵巧操作能力,是机器人学领域长期以来的核心挑战之一。近年来,视觉 - 语言 - 动作 (Vision-Language-Action,VLA) 模型在机器人技能学 习方面展现出显著潜力,但其发展受制于一个根本性瓶颈: 高质量操作数据的获取。 ByteDance Seed 团队最新的研究论文《End-to-End Dexterous Arm-Hand VLA Policies via Shared Autonomy》[1],针对这一关键问题提出了解决方案。 该研究的核心贡献在于提出了共享自主 (Shared Autonomy) 框架,通过合理划分人类操作员与自主 AI 系统的控制职责——人通过 VR 遥操作控制机械臂 (负责高层 定位和避障),DexGrasp-VLA 自主控制灵巧手 (负责精细抓握),消除了同时遥操作臂和灵巧手的需求,大幅降低操作员认知负荷,有效解决了机器人部署中最关 键的数据采集成本问题。通过将数据采集 ...
效率提升25%,灵巧操作数采困境被「臂-手共享自主框架」解决
机器之心· 2025-12-11 18:00
文章核心观点 - 字节跳动Seed团队的研究通过提出“共享自主”框架,将人类操作员与AI系统的控制职责合理划分,显著降低了高质量机器人操作数据的采集难度和成本,为解决视觉-语言-动作模型训练的数据瓶颈提供了关键方案,并推动了灵巧操作技术向工业应用的迈进 [2] 技术体系与核心模块 - 研究构建了一个由四大核心模块组成的完整技术闭环,旨在高效采集高质量演示数据以训练通用的臂手协同VLA策略 [5][8] - **核心策略 DexGrasp-VLA**:这是一个专为灵巧手设计的多模态VLA模型,集成了语言指令、视觉、本体感知和关键的触觉反馈,能够实现根据物体形态动态调整握力的力适应性抓取 [9] - **共享自主框架**:该框架将控制任务按运动域拆分,人类通过VR遥操作控制机械臂(负责高层定位和避障),而DexGrasp-VLA自主控制灵巧手(负责精细抓握),从而大幅减轻操作员负担,高效采集高质量臂手协同数据 [12][14][15] - **臂手特征增强模块**:该模块采用三流架构(共享任务表示、手臂专用编码器、手部专用编码器),通过建模和融合臂与手在运动学上的差异特征,实现了更自然、更鲁棒的宏观-微观动作协调 [16][19] - **纠正性人机闭环机制**:当机器人操作失败时,人类操作员可立即接管并演示正确方法,系统将失败与纠正后的成功数据作为“难题案例”加入训练集,使策略能持续迭代优化,学会应对各种边缘案例 [20][21] 硬件配置与实验效果 - **硬件平台**:主要集成星动纪元星动XHAND1灵巧手(全直驱12自由度,指尖集成高分辨率触觉传感器)和UR3e机械臂,并使用3台RGB-D相机提供多视角视觉输入 [23][25] - **触觉感知的有效性**:星动XHAND1提供的触觉反馈是鲁棒抓取的关键,实验数据显示,在抓取超过50种日常物品的测试中:无触觉时成功率仅为21%;仅有触觉合力反馈时成功率提升至70%;结合合力反馈与空间触觉分布(120点阵列)时,成功率高达90% [25][27][29] - **臂手特征增强模块的有效性**:实验表明,使用该模块后,策略在星动XHAND1上的性能从88提升至95,在RY-H2灵巧手上从71提升至81,在相机被遮挡时从19大幅提升至58,证明了其对策略协调性和鲁棒性的显著提升 [30][31] - **算法与硬件的协同**:相比欠驱动的RY-H2手,算法能更充分地利用星动XHAND1全直驱设计的关节灵活性,实现更自然的协调动作 [30] 数据采集效率与应用前景 - **数据采集效率提升**:共享自主框架将灵巧操作高质量数据采集效率提升了25%,使单人每小时可采集更多数据,并将完整开发-部署周期压缩至一天以内,从根本上解决了VLA模型训练的数据瓶颈问题 [32][33] - **接近工业标准的性能**:研究在超过50种物体上实现了约90%的抓取成功率,这一性能水平推动了灵巧操作技术从概念验证向实际部署的关键跨越 [33] - **未来研究方向**:包括将框架拓展至物体重定向、精密插放等更复杂场景;探索更智能的多模态感知融合机制;以及借助强化学习实现更自主的错误识别与恢复,减少人工介入,向完全自主过渡 [36]