Google推出Gemini Robotics 1.5，如何让机器人更聪明、更安全、更通用？

核心技术架构 - Google DeepMind推出Gemini Robotics 1.5与Gemini Robotics-ER 1.5两款模型，形成"推理大脑+执行中枢"的黄金组合[1] - ER 1.5作为性能最优的VLM模型，在15项实体推理学术基准测试中斩获综合第一，能通过自然语言理解复杂需求并制定多步骤计划[1] - Robotics 1.5作为顶尖VLA模型，具备"行动前思考"能力，可实现技能在不同机型间的无缝迁移，大幅降低适配成本[1] 核心能力突破 - 模型构建"感知-推理-规划-执行"全闭环，使机器人能完成家庭叠衣、仓储拣选（准确率提升至92%）、医疗创口缝合（成功率89%）等多元任务[2] - ER 1.5具备原生调用谷歌搜索获取外部信息的能力，支持"思考预算"自定义以平衡延迟与精度[1] - Robotics 1.5的跨实体学习特性实现技能在ALOHA 2、Apptronik机器人等不同机型间的无缝迁移[1] 技术性能表现 - Gemini Robotics-ER 1.5在15项学术基准测试中评估，包括实体推理问答和Point-Bench等，测试内容涵盖指向能力、图像问答及视频问答[9] - 模型展现出在高危环境检修、太空作业等延伸场景的潜力[2] - 在ASIMOV基准测试的安全评估中，Gemini Robotics-ER 1.5表现出最先进的性能[16] 开发者生态与应用 - ER 1.5已通过Gemini API开放给全球开发者，Robotics 1.5向选定合作伙伴赋能，加速技术规模化应用[2] - 模型支持灵活的思考预算，开发者可直接控制"延迟与准确性"的权衡[23] - 增强的安全过滤功能让开发更具信心，模型能更好地识别并拒绝生成违反物理约束的计划[23] 行业影响与定位 - 这两款模型是理解下一代Physical Agents发展路径的关键技术，披露了"双模型协同"的架构创新与核心能力参数[2] - 技术覆盖技术底层、场景适配、生态构建核心维度，推动实体智能体时代的发展[3] - 模型帮助开发者打造功能更强大、用途更广泛的机器人，能够主动理解周围环境，以通用方式完成复杂的多步骤任务[3]