Workflow
具身推理
icon
搜索文档
首款推理具身模型,谷歌DeepMind造!自主理解/规划/执行复杂任务,打破一机一训,还能互相0样本迁移技能
量子位· 2025-09-27 12:46
衡宇 发自 凹非寺 量子位 | 公众号 QbitAI 谷歌DeepMind正式发布 新一代通用机器人基座模型 ——Gemini Robotics 1.5系列。 它不止于对语言、图像进行理解,还结合了视觉、语言与动作 (VLA) ,并通过具身推理 (Embodied Reasoning) 来实现"先思考,再行 动"。 全球首个具备模拟推理能力的具身模型来了! 这一系列由两大模型组成: 其中,ER代表"具身推理"。 这意味着GR-ER 1.5是全球首个具备模拟推理能力的具身模型。 不过, GR-ER 1.5并不执行任何实际操作 ,GR 1.5正是为执行层而生。 两者结合,能让机器人不仅完成"折纸、解袋子"这样的单一动作,还能解决"分拣深浅色衣物"甚至"根据某地天气自动打包行李"这种需要理解 外部信息、分解复杂流程的多步任务。 甚至,它能根据特定地点的特定要求 (比如北京和上海的不同垃圾分类标准) ,自己上网搜索,以帮助人们完成垃圾分类。 而且用上GR 1.5系列的模型,还能够在多种不同的机器人之间进行能力的零样本跨平台迁移。 Gemini Robotics 1.5 (GR 1.5) :负责动作执行的多模态大模型; ...
Google推出Gemini Robotics 1.5,如何让机器人更聪明、更安全、更通用?
锦秋集· 2025-09-26 17:22
为什么智能机器人无法在复杂场景中工作,为什么当下的智能机器人还无法完成多步骤任务? 我们正推动实体智能体时代的发展——让机器人能够感知、规划、思考、使用工具并采取行动,从 而更好地解决复杂的多步骤任务。 今年早些时候,我们以Gemini Robotics系列模型为起点,在将Gemini的多模态理解能力引入物理 世界方面取得了重大进展。 如今,我们在推进智能型、真正通用型机器人的道路上又迈出了一步。我们推出两款具备高级思考 能力的模型,可解锁智能体体验: Google DeepMind推出的Gemini Robotics 1.5与Gemini Robotics-ER 1.5,恰好以底层技术 创新视角填补了这一空白。 作为构建下一代Physical Agents的核心引擎,这两款模型形成"推理 大脑+执行中枢"的黄金组合: ER 1.5作为性能最优的VLM模型,在15项实体推理学术基准测试中斩获综合第一,能通过自然语 言理解复杂需求,原生调用谷歌搜索获取外部信息(如当地垃圾分类规则),制定多步骤计划并估 算任务成功率,更支持"思考预算"自定义以平衡延迟与精度。 Robotics 1.5则作为顶尖VLA模型,凭借" ...