谷歌拍了拍Figure说,“起来卷”
技术突破 - 谷歌Gemini Robotics On-Device模型实现机器人脱机工作,无需持续互联网连接[3] - 该模型是公司首个"视觉-语言-动作"模型,帮助机器人更快适应新任务和新环境[3] - 模型解决了灵巧操作、新任务微调和适应、基于本地运行的低延迟快速推理三大问题[5] - 在双臂Franka FR3机器人和Apptronik Apollo人形机器人上展示了通用指令执行能力[14][17] 性能表现 - 模型泛化能力略低于旗舰Gemini Robotics模型,但远超之前最好的离线模型[8] - 在分布式任务和复杂多步骤指令方面优于其他设备端替代方案[10] - 通过50到100次演示即可快速适应新任务,展示了强大的适应能力[12][14] - 能够处理以前未见过的物体和场景,完成折叠衣服等灵巧任务[14] 行业比较 - 与Figure的Helix模型不同,谷歌模型独立于数据网络运行,适合延迟敏感应用[3] - 模型提供了微调选择,而Helix使用一组神经网络权重学习所有行为[12] - 技术白皮书提出机器人应成为物理世界的解读者而非人类模仿者[19] 应用展示 - 机器人未经教授完成"扣篮"动作,展现快速适应新场景能力[1] - 在RSS2025大会上完成全球首个互动式现场展示[1] - 灵巧手可以拿起笔并相互配合拔掉笔盖[7] - 完成"放置蓝色砖块"、"拉开抽屉"等基于自然语言指令的任务[8]