机器人技术的演变与未来 - Google DeepMind专注于将大模型嵌入现实世界的机器人中 语言能力进步显著但具身智能发展相对缓慢 [3] - 传统机器人依赖预先编程完成特定任务 对环境和物体有大量假设 通常需人类远程操控 [4] - 2022年首次将LMS引入机器人 实现自然语言指令理解 2023年推出Robotics Transformers架构 开启数据驱动机器人学习新时代 [5] Gemini机器人的突破性能力 - 通过Gemini多模态理解能力 机器人可结合视觉输入和自然语言转化为操作指令 支持任意Gemini兼容语言 [5][16] - 展示灌篮等未经训练的任务执行能力 依靠对"篮球"概念的理解而非具体编程 动作决策仅需0 25秒 [9][10] - 具备手眼协调抓取能力 如抓香蕉时通过视觉学习而非上千次重复训练 独创性在于知识迁移应用 [11] 具身智能与通用性进展 - 区别于预设动作序列的机器人 新型机器人需实时推断任务含义 如理解"打包午餐"涉及的面包装袋和封口逻辑 [12] - 通过更换背景 移动物体 多语言指令等基准测试验证泛化能力 西班牙语指令可立即执行 [13] - 引入"边界框"识别技术 精确定位物体边缘和空间关系 实现类似人类的具身推理能力 [17][18] 系统架构设计创新 - 采用双模型架构:服务器端"慢系统"负责复杂推理 本地"快系统"处理即时反应 模仿人类快慢思考机制 [24][25] - 慢系统解析任务概念(如灌篮的篮球定位) 快系统执行轨迹并动态调整 应对环境突变 [25] - 双系统协同解决Moravec悖论 使机器人既能处理复杂推理又能快速响应可变物理环境 [26][34] 训练方法与数据获取 - 通过VR远程操作采集人类示范数据 如系鞋带任务仅需1000次示例 简单任务仅需十几个示例 [31][35][37] - 结合仿真环境与强化学习 DemoStart项目将现实所需训练数据减少100倍 如钥匙插入锁孔任务 [45][46] - 平衡仿真训练与现实迁移 可变形物体操作(如叠衣服)在现实更易学习 而稳定动作适合仿真 [48] 安全机制与社会应用 - 建立Asimov安全数据集 包含医院伤害案例和潜在危险情境 确保物理行为符合安全规范 [51][52] - 机器人可充当人类助手 如护士护理时负责物品搬运 保留人际互动中的人文关怀部分 [54] - 当前机器人能力相当于2岁儿童 需突破社交技能(读取肢体语言)和工作中的持续学习能力 [55] 行业前景展望 - 机器人技术可能成为继LLM后的下一个飞跃点 物理世界运作能力将增强AI模型对人类空间的理解 [57] - 关键突破窗口期为2-5年 需整合理解 灵巧控制和全身协调等技术模块 [56] - 心智进步(如Gemini的概念理解)比身体优化带来更大飞跃 改变机器人技术发展轨迹 [57]
深度|DeepMind机器人组负责人:过去人们一直将注意力集中在本体,但真正带来巨大飞跃的是机器人的心智进步