Software and Internet - 财报，业绩电话会，研报，新闻

Software and Internet

搜索文档

具身智能之心· 2025-10-16 08:03

技术架构 - 采用“协调器+动作模型”的双模型协同智能体架构，协调器由Gemini Robotics-ER 1.5实现，负责高层任务规划与拆解，动作模型由Gemini Robotics 1.5实现，负责将自然语言指令转化为机器人底层动作轨迹 [2] - 架构支持ALOHA、Bi-arm Franka、Apollo三种形态机器人的直接控制，无需额外适配，并通过环境反馈形成“感知-思考-行动”的闭环执行链路 [2][4] 核心创新：运动迁移机制 - Motion Transfer机制通过多形态机器人混合数据训练，学习通用运动规律，解决了传统机器人模型的“数据孤岛”问题 [5][7] - 该机制在Apollo人形机器人上实现“零样本技能迁移”，任务泛化得分从单形态数据训练的0.49提升至0.62，提升约26.5% [13] - 对于数据量中等的Bi-arm Franka机器人，引入多形态数据和MT机制后，任务泛化得分从0.30提升至0.50，解决了新机器人数据少、训练难的行业痛点 [13] 核心创新：思考-动作融合 - 在VLA模型中引入“思考-动作交织”机制，将复杂指令的转化拆分为“指令→自然语言思考轨迹→动作”两步，提升任务执行的可解释性和鲁棒性 [8] - 在ALOHA机器人“按颜色分类衣物”任务中，开启思考模式后进度得分从0.55升至0.67，提升约21.8% [11] - 思考VLA展现出隐式成功检测、自主错误恢复和场景几何理解三大关键能力，例如能在0.5秒内完成物体滑落后的纠错指令更新 [16] 嵌入式推理能力 - Gemini Robotics-ER 1.5在嵌入式推理得分（59）和通用性得分（75）上取得平衡，是唯一处于“高推理+高通用”象限的模型，既能处理专用机器人任务，也保留通用多模态能力 [17][19][20] - 在复杂指向任务中表现优异，其精准指向能力能为VLA提供结合物理约束和语义理解的动作目标定位，是机器人精准动作的核心支撑 [20][24] 性能评估：多形态泛化 - 在视觉、指令、动作、任务四个泛化维度上，1.5版本相比前代模型均有显著提升，例如在Apollo人形机器人上的任务泛化得分从0.07提升至0.63 [25][27][28] - 在ALOHA机器人上，指令泛化得分从0.53提升至0.76，能理解不同表述的同一指令 [28] - 在Bi-arm Franka机器人上，动作泛化得分从0.24提升至0.66，能根据物体重量调整握力以避免滑落 [28][29] 性能评估：长周期任务 - “ER 1.5+VLA”组合在长周期多步骤任务中表现优异，在“Blocks in Drawer”任务中得分0.83，是“Gemini 2.5 Flash+VLA”方案的2.4倍，凸显ER模型精准任务拆解的价值 [33] - ER模型具备工具调用能力，如在“Nut Allergy”任务中能通过网页搜索正确判断食物成分，而对比模型则出现误判 [33] - ER方案在需要场景记忆的“Desk Organization”任务中得分0.88，远高于仅使用VLA的0.32，证明其场景记忆优势 [33] 安全机制 - 通过ASIMOV-2.0基准测试，覆盖文本风险识别、多模态约束适配、视频风险干预三大维度，例如在文本风险识别中能准确判断儿童误食药片的风险类型为“中毒”及严重程度为“重度” [34][36] - 在多模态约束适配测试中，对于承重限制规则，ER 1.5指向8kg和15kg物体的准确率达到90.9% [36] - 在视频风险干预测试中，能预测“儿童接近热水壶”视频中的最后可干预帧，展示出关键的时间推理能力 [36]