具身推理
搜索文档
首款推理具身模型,谷歌DeepMind造!自主理解/规划/执行复杂任务,打破一机一训,还能互相0样本迁移技能
量子位· 2025-09-27 12:46
产品核心概述 - 谷歌DeepMind正式发布新一代通用机器人基座模型Gemini Robotics 1.5系列,该系列是全球首个具备模拟推理能力的具身模型 [1][3] - 模型结合了视觉、语言与动作,并通过具身推理实现“先思考,再行动”的运作模式 [1] - 该技术被视为将通用AI推向现实世界的重要里程碑 [9] 模型架构与分工 - 系列由两大模型组成:GR 1.5负责动作执行,GR-ER 1.5强化推理能力,提供规划与理解支持 [2][8] - GR 1.5作为执行层的多模态大模型,能够直接把自然语言和视觉输入转化为低层级的机器人动作 [5][39] - GR-ER 1.5作为推理模型,负责高层规划、工具使用与进度监控 [40] - 两款模型协同工作,形成一个Agentic Framework,实现“规划+执行”的完整闭环 [41] 核心能力展示 - 能够执行包含多步子任务的长流程复杂任务,例如分拣衣物、打包行李、准备烹饪配料等 [10][11][12] - 在执行任务过程中具备自我检测与自动修正能力,例如抓取失败后能立刻转换方案 [15][35] - 在230项任务的基准测试中,GR 1.5在指令泛化、动作泛化、视觉泛化和任务泛化四个维度上都表现出色 [61] - 结合GR-ER 1.5的系统在长时序任务上,完成进度分数最高接近80%,几乎是单一VLA模型的两倍 [62] 跨平台与迁移技术 - 具备零样本跨平台迁移能力,同一模型可驱动低成本双臂机器人ALOHA、工业级Franka及人形机器人Apollo等多种硬件 [7][16][18] - 在ALOHA上学会的技能可直接迁移到Franka,在Franka上训练的操作能零样本转移到Apollo [20] - 核心技术为全新的Motion Transfer机制,将不同机器人平台的运动轨迹映射到统一的动作语义空间,实现操作经验的跨机器人迁移 [21][47][48] 推理与安全性 - 模型在行动前会用自然语言把复杂任务拆解为小步骤,这种显性思考提升了可解释性和信任感 [25][26][27][55] - 具备风险识别能力,能理解动作背后的物理风险并触发保护机制,在ASIMOV-2.0安全基准中表现出更高的风险识别与干预能力 [36][64] - 在训练过程中,约九成以上的迭代在MuJoCo仿真环境中完成,保证了在现实硬件上执行时的稳定性与安全性 [51][52] 技术突破与行业意义 - 核心创新在于同时实现了思考推理能力、跨平台技能迁移以及将“理解物理世界”的能力推向新高度 [53][56][58] - 在学术基准测试中,GR-ER 1.5在空间推理、复杂指点、进度检测等任务上全面超越了GPT-5和Gemini 2.5 Flash [59] - 该系列标志着机器人技术正从执行单一指令转向对物理任务进行真正的理解和解决问题 [69]
Google推出Gemini Robotics 1.5,如何让机器人更聪明、更安全、更通用?
锦秋集· 2025-09-26 17:22
核心技术架构 - Google DeepMind推出Gemini Robotics 1.5与Gemini Robotics-ER 1.5两款模型,形成"推理大脑+执行中枢"的黄金组合[1] - ER 1.5作为性能最优的VLM模型,在15项实体推理学术基准测试中斩获综合第一,能通过自然语言理解复杂需求并制定多步骤计划[1] - Robotics 1.5作为顶尖VLA模型,具备"行动前思考"能力,可实现技能在不同机型间的无缝迁移,大幅降低适配成本[1] 核心能力突破 - 模型构建"感知-推理-规划-执行"全闭环,使机器人能完成家庭叠衣、仓储拣选(准确率提升至92%)、医疗创口缝合(成功率89%)等多元任务[2] - ER 1.5具备原生调用谷歌搜索获取外部信息的能力,支持"思考预算"自定义以平衡延迟与精度[1] - Robotics 1.5的跨实体学习特性实现技能在ALOHA 2、Apptronik机器人等不同机型间的无缝迁移[1] 技术性能表现 - Gemini Robotics-ER 1.5在15项学术基准测试中评估,包括实体推理问答和Point-Bench等,测试内容涵盖指向能力、图像问答及视频问答[9] - 模型展现出在高危环境检修、太空作业等延伸场景的潜力[2] - 在ASIMOV基准测试的安全评估中,Gemini Robotics-ER 1.5表现出最先进的性能[16] 开发者生态与应用 - ER 1.5已通过Gemini API开放给全球开发者,Robotics 1.5向选定合作伙伴赋能,加速技术规模化应用[2] - 模型支持灵活的思考预算,开发者可直接控制"延迟与准确性"的权衡[23] - 增强的安全过滤功能让开发更具信心,模型能更好地识别并拒绝生成违反物理约束的计划[23] 行业影响与定位 - 这两款模型是理解下一代Physical Agents发展路径的关键技术,披露了"双模型协同"的架构创新与核心能力参数[2] - 技术覆盖技术底层、场景适配、生态构建核心维度,推动实体智能体时代的发展[3] - 模型帮助开发者打造功能更强大、用途更广泛的机器人,能够主动理解周围环境,以通用方式完成复杂的多步骤任务[3]