GR-3核心能力与定位 - GR-3是字节跳动研发的大型视觉-语言-动作(VLA)模型,旨在推动通用机器人策略发展,能根据自然语言指令、环境观察和机器人状态生成动作序列控制双臂移动机器人 [2] - 模型解决传统机器人"认不全、学不快、做不好"三大痛点,采用"数据驱动+架构优化"双路径设计,既能理解抽象指令又能完成精细操作 [7] - 结合ByteMini双臂移动机器人可完成多样化任务,在各类挑战性任务上超越当前最先进基线方法π0 [2] 技术架构 - 采用端到端VLA架构,分为"感知理解"和"动作生成"两大模块,总参数达40亿,通过KV缓存复用感知结果提升推理速度 [10] - 感知层基于Qwen2.5-VL-3B-Instruct模型处理图像和文本,动作层通过动作扩散Transformer(DiT)控制机器人19个自由度 [13] - 关键创新包括流匹配动作预测、RMSNorm稳定性优化(指令遵循准确率提升30%)和任务状态感知设计 [14] 训练方案 - 采用"三位一体"训练策略:机器人轨迹模仿学习(通过智能调度系统保证数据质量)、视觉语言数据联合训练(新物体识别成功率提升40%)、人类轨迹少样本微调(10条演示数据使新物体操作成功率从57.8%升至86.7%) [15][18][19][23] - 人类VR演示数据采集效率达450条/小时,是传统机器人采集的1.8倍 [23] 硬件载体 - ByteMini机器人具备7自由度机械臂(球形腕关节设计)、全向移动底座+升降机构、RGBD相机系统,续航达10小时以上 [25] - 系统控制优化包括全身柔顺控制和轨迹优化算法,确保动作流畅精准 [26][28] 实验验证 - 通用拾取放置任务:新环境成功率仅比熟悉环境下降5%(基线下降20%),抽象指令理解成功率77.1%(基线40%) [35][38] - 长周期餐桌清理任务:整体进度达89%(基线62%),无效指令识别率97.5%(基线53.8%) [42] - 灵巧衣物操作任务:基础成功率86.7%(基线61%),新衣物适应成功率75.8%(基线42%),主要失败点为衣架滑落(占60%) [43]
各类任务上超越π0!字节跳动推出大型VLA模型GR-3,推动通用机器人策略发展
具身智能之心·2025-07-22 12:10