谷歌拍了拍Figure说，“起来卷”

谷歌Gemini Robotics On-Device模型发布 - 谷歌于6月24日发布Gemini Robotics On-Device模型，该模型为"视觉-语言-动作"模型，使机器人能够脱机工作，无需持续互联网连接 [6] - 该模型旨在帮助机器人更快适应新任务和新环境，与Figure公司2月发布的Helix模型同属VLA模型类别 [6] - 模型独立于数据网络运行，对延迟敏感应用程序有帮助，确保在间歇性或零连接环境中的稳健性 [7] 模型技术特点 - 作为双臂机器人基础模型，主要解决三个问题：灵巧操作、新任务微调和适应、基于本地运行的低延迟快速推理 [9] - 在官方演示中，机器人灵巧手可以完成拿笔、拔笔盖等精细动作，并执行"放置蓝色砖块"、"拉开抽屉"等自然语言指令任务 [11][13] - 在泛化能力测试中，表现虽略低于旗舰Gemini Robotics模型，但显著优于之前最好的离线模型 [14] - 在分布式任务和复杂多步骤指令方面，表现优于其他设备端替代方案 [16] 模型适应能力 - 通过50-100次演示即可快速适应新任务，在100个示例内展现出强大适应能力 [18][20] - 已调整应用于双臂Franka FR3机器人和Apptronik Apollo人形机器人，能处理未见过的物体和场景，完成折叠衣服、工业皮带组装等精细任务 [20] - 在Apollo人形机器人上可遵循自然语言指令，以通用方式操控不同物体，包括未见过的物体 [22] 行业技术发展 - 机器人技术面临处理家庭环境中不可预测物品的挑战，需要按需产生智能新行为的能力 [18] - Figure的Helix模型采用双系统设计分别完成"想"和"干"，而谷歌模型提供微调选择 [18] - 行业大模型技术呈现多样性，共同指向让AI在物理世界建立真正因果认知的命题 [24]