Google最新!Gemini Robotics 1.5:通用机器人领域的突破进展
具身智能之心·2025-10-16 08:03

技术架构 - 采用“协调器+动作模型”的双模型协同智能体架构,协调器由Gemini Robotics-ER 1.5实现,负责高层任务规划与拆解,动作模型由Gemini Robotics 1.5实现,负责将自然语言指令转化为机器人底层动作轨迹 [2] - 架构支持ALOHA、Bi-arm Franka、Apollo三种形态机器人的直接控制,无需额外适配,并通过环境反馈形成“感知-思考-行动”的闭环执行链路 [2][4] 核心创新:运动迁移机制 - Motion Transfer机制通过多形态机器人混合数据训练,学习通用运动规律,解决了传统机器人模型的“数据孤岛”问题 [5][7] - 该机制在Apollo人形机器人上实现“零样本技能迁移”,任务泛化得分从单形态数据训练的0.49提升至0.62,提升约26.5% [13] - 对于数据量中等的Bi-arm Franka机器人,引入多形态数据和MT机制后,任务泛化得分从0.30提升至0.50,解决了新机器人数据少、训练难的行业痛点 [13] 核心创新:思考-动作融合 - 在VLA模型中引入“思考-动作交织”机制,将复杂指令的转化拆分为“指令→自然语言思考轨迹→动作”两步,提升任务执行的可解释性和鲁棒性 [8] - 在ALOHA机器人“按颜色分类衣物”任务中,开启思考模式后进度得分从0.55升至0.67,提升约21.8% [11] - 思考VLA展现出隐式成功检测、自主错误恢复和场景几何理解三大关键能力,例如能在0.5秒内完成物体滑落后的纠错指令更新 [16] 嵌入式推理能力 - Gemini Robotics-ER 1.5在嵌入式推理得分(59)和通用性得分(75)上取得平衡,是唯一处于“高推理+高通用”象限的模型,既能处理专用机器人任务,也保留通用多模态能力 [17][19][20] - 在复杂指向任务中表现优异,其精准指向能力能为VLA提供结合物理约束和语义理解的动作目标定位,是机器人精准动作的核心支撑 [20][24] 性能评估:多形态泛化 - 在视觉、指令、动作、任务四个泛化维度上,1.5版本相比前代模型均有显著提升,例如在Apollo人形机器人上的任务泛化得分从0.07提升至0.63 [25][27][28] - 在ALOHA机器人上,指令泛化得分从0.53提升至0.76,能理解不同表述的同一指令 [28] - 在Bi-arm Franka机器人上,动作泛化得分从0.24提升至0.66,能根据物体重量调整握力以避免滑落 [28][29] 性能评估:长周期任务 - “ER 1.5+VLA”组合在长周期多步骤任务中表现优异,在“Blocks in Drawer”任务中得分0.83,是“Gemini 2.5 Flash+VLA”方案的2.4倍,凸显ER模型精准任务拆解的价值 [33] - ER模型具备工具调用能力,如在“Nut Allergy”任务中能通过网页搜索正确判断食物成分,而对比模型则出现误判 [33] - ER方案在需要场景记忆的“Desk Organization”任务中得分0.88,远高于仅使用VLA的0.32,证明其场景记忆优势 [33] 安全机制 - 通过ASIMOV-2.0基准测试,覆盖文本风险识别、多模态约束适配、视频风险干预三大维度,例如在文本风险识别中能准确判断儿童误食药片的风险类型为“中毒”及严重程度为“重度” [34][36] - 在多模态约束适配测试中,对于承重限制规则,ER 1.5指向8kg和15kg物体的准确率达到90.9% [36] - 在视频风险干预测试中,能预测“儿童接近热水壶”视频中的最后可干预帧,展示出关键的时间推理能力 [36]