谷歌Gemini Robotics On-Device模型发布 - 谷歌于6月24日发布Gemini Robotics On-Device模型,该模型为"视觉-语言-动作"模型,使机器人能够脱机工作,无需持续互联网连接 [6] - 该模型旨在帮助机器人更快适应新任务和新环境,与Figure公司2月发布的Helix模型同属VLA模型类别 [6] - 模型独立于数据网络运行,对延迟敏感应用程序有帮助,确保在间歇性或零连接环境中的稳健性 [7] 模型技术特点 - 作为双臂机器人基础模型,主要解决三个问题:灵巧操作、新任务微调和适应、基于本地运行的低延迟快速推理 [9] - 在官方演示中,机器人灵巧手可以完成拿笔、拔笔盖等精细动作,并执行"放置蓝色砖块"、"拉开抽屉"等自然语言指令任务 [11][13] - 在泛化能力测试中,表现虽略低于旗舰Gemini Robotics模型,但显著优于之前最好的离线模型 [14] - 在分布式任务和复杂多步骤指令方面,表现优于其他设备端替代方案 [16] 模型适应能力 - 通过50-100次演示即可快速适应新任务,在100个示例内展现出强大适应能力 [18][20] - 已调整应用于双臂Franka FR3机器人和Apptronik Apollo人形机器人,能处理未见过的物体和场景,完成折叠衣服、工业皮带组装等精细任务 [20] - 在Apollo人形机器人上可遵循自然语言指令,以通用方式操控不同物体,包括未见过的物体 [22] 行业技术发展 - 机器人技术面临处理家庭环境中不可预测物品的挑战,需要按需产生智能新行为的能力 [18] - Figure的Helix模型采用双系统设计分别完成"想"和"干",而谷歌模型提供微调选择 [18] - 行业大模型技术呈现多样性,共同指向让AI在物理世界建立真正因果认知的命题 [24]
谷歌拍了拍Figure说,“起来卷”