字节提出Robix大模型!三阶训练+统一架构,打破机器人认知瓶颈,真实场景任务完成率领先
机器人大讲堂·2025-09-20 17:44
机器人行业技术瓶颈 - 当前机器人系统在开放多变环境中表现笨拙和迟疑 主要由于分层架构的局限性 [1][3] - 高层思考模块如大语言模型擅长任务拆解 但缺乏物理世界空间关系和实时交互能力 [3] - 现有系统无法在动态环境中同时实现理解、推理、回应和行动的一体化智能 [3] Robix架构创新 - 采用统一视觉-语言模型架构 将机器人推理、任务规划和自然语言交互整合于单一模型 [6] - 作为高层认知中枢 直接读取摄像头画面和语音指令 实现多模态推理和自主响应 [6][8] - 支持生成底层控制指令和语言回应 实现"边想边做"和实时打断的多轮对话 [8] 三阶段训练路径 - 第一阶段持续预训练强化物理世界理解 数据涵盖3D空间理解和视觉定位等关键领域 [9] - 第二阶段有监督微调通过合成人机交互数据 训练多阶段指令和模糊指令处理能力 [12] - 第三阶段强化学习采用GRPO方法 解决推理不合理和决策动作脱节问题 [14] - 总训练数据量超过2000亿token 确保通用多模态能力与机器人特殊需求的适配 [9][15] 性能表现优势 - 在3D空间理解任务中 Robix-32B基础模型全面领先竞品 [16] - 离线规划任务中Robix-32B-RL在分布外任务比Gemini-2.5-Pro高出3.0–11.8% [16] - 真实场景测试实现高完成率和低延迟响应 包括餐桌清理和购物助手等应用 [16] 未来发展方向 - 需提升高频切换场景中的推理准确性和常识判断能力 [19] - 重点攻关动态场景鲁棒性以应对人员流动和物品摆放变化 [19] - 开发长时记忆架构支持数小时交互任务如超市货架整理 [19]