各类任务上超越π0！字节跳动推出大型VLA模型GR-3，推动通用机器人策略发展

GR-3核心能力与定位 - GR-3是字节跳动研发的大型视觉-语言-动作（VLA）模型，旨在推动通用机器人策略发展，能根据自然语言指令、环境观察和机器人状态生成动作序列控制双臂移动机器人 [2] - 模型解决传统机器人"认不全、学不快、做不好"三大痛点，采用"数据驱动+架构优化"双路径设计，既能理解抽象指令又能完成精细操作 [7] - 结合ByteMini双臂移动机器人可完成多样化任务，在各类挑战性任务上超越当前最先进基线方法π0 [2] 技术架构 - 采用端到端VLA架构，分为"感知理解"和"动作生成"两大模块，总参数达40亿，通过KV缓存复用感知结果提升推理速度 [10] - 感知层基于Qwen2.5-VL-3B-Instruct模型处理图像和文本，动作层通过动作扩散Transformer（DiT）控制机器人19个自由度 [13] - 关键创新包括流匹配动作预测、RMSNorm稳定性优化（指令遵循准确率提升30%）和任务状态感知设计 [14] 训练方案 - 采用"三位一体"训练策略：机器人轨迹模仿学习（通过智能调度系统保证数据质量）、视觉语言数据联合训练（新物体识别成功率提升40%）、人类轨迹少样本微调（10条演示数据使新物体操作成功率从57.8%升至86.7%） [15][18][19][23] - 人类VR演示数据采集效率达450条/小时，是传统机器人采集的1.8倍 [23] 硬件载体 - ByteMini机器人具备7自由度机械臂（球形腕关节设计）、全向移动底座+升降机构、RGBD相机系统，续航达10小时以上 [25] - 系统控制优化包括全身柔顺控制和轨迹优化算法，确保动作流畅精准 [26][28] 实验验证 - 通用拾取放置任务：新环境成功率仅比熟悉环境下降5%（基线下降20%），抽象指令理解成功率77.1%（基线40%） [35][38] - 长周期餐桌清理任务：整体进度达89%（基线62%），无效指令识别率97.5%（基线53.8%） [42] - 灵巧衣物操作任务：基础成功率86.7%（基线61%），新衣物适应成功率75.8%（基线42%），主要失败点为衣架滑落（占60%） [43]