Workflow
刚刚,首个能在机器人上本地运行的具身Gemini来了
机器之心·2025-06-25 08:46

Gemini Robotics On-Device发布 - 谷歌DeepMind推出首个可直接部署在机器人上的视觉-语言-动作(VLA)模型Gemini Robotics On-Device,无需持续互联网连接即可运行[2] - 该模型基于Gemini 2.0多模态推理能力开发,属于Gemini Robotics系列,于2024年3月发布[3] - 模型经过优化可在机器人机体上高效运行,展现出强大的通用灵活性和任务泛化能力[4] 技术特性与优势 - 专为延迟敏感型应用设计,在连接中断或零连接环境中保持稳健性[5] - 相比之前最佳的本地端机器人模型表现出明显优势,在分布外任务和复杂多步骤指令方面优于其他本地端方案[15][16] - 只需50到100个演示即可快速适应新任务,展示出强大的基础知识泛化能力[21] 应用场景与测试表现 - 在七项不同难度灵巧操作任务测试中表现优异,包括拉开午餐盒拉链、画卡片和倒沙拉酱等[22] - 成功适配多种机器人平台,包括ALOHA机器人、双臂Franka FR3机器人和Apptronik的Apollo人形机器人[25][26][27] - 可执行通用指令,处理未见过的物体和场景,完成折叠连衣裙等灵巧任务及工业皮带装配等精密操作[26] 开发者支持 - 谷歌将发布Gemini Robotics SDK,支持开发者在MuJoCo物理模拟器中测试模型表现[7] - 开发者可使用SDK快速将模型适应到新领域,仅需少量演示即可完成适配[7] - 模型支持微调以获得更佳性能,是DeepMind首个可供微调的VLA模型[20] 相关技术进展 - 加州大学伯克利分校等机构联合推出的MuJoCo Playground获得RSS 2025杰出演示论文奖[8] - 谷歌同时宣布在AI Studio和Gemini API中推出图像生成模型Imagen 4和Imagen 4 Ultra[33] 产品策略调整 - 下调Gemini系列免费可用额度:Gemini 2.5 Flash从每日500次降至250次,Gemini 2.0 Flash从1500次大幅降至200次[30] - 公司表示这是伴随新模型推出的策略,会降低或取消上一代模型的免费套餐[32]