本地具身智能

搜索文档
谷歌发布本地具身智能模型!全程无联网执行精细操作,从人形机器人到工业机器人全覆盖
量子位· 2025-06-25 08:33
核心观点 - Google DeepMind团队发布首个完全本地运行的视觉-语言-动作模型Gemini Robotics On-Device,解决了网络延迟和连接不稳定问题 [2][4] - 模型具备强大的多模态推理和真实世界理解能力,可离线运行且响应延迟极低 [3][5] - 在泛化性能测试中表现优异,大幅超越此前最好的本地模型 [6][8] - 首次开放VLA模型微调功能,仅需50-100个演示样本即可适应新任务 [10][11] - 成功实现跨平台部署,在不同机器人本体上展现强大泛化能力 [13][14] - 发布Gemini Robotics SDK,支持开发者评估模型和模拟测试 [15][16] 技术突破 - 将云端AI能力完全本地化,支持从人形机器人到工业双臂机器人的多种平台部署 [4][5] - 在视觉泛化、语义理解和行为泛化等维度接近云端版本性能 [6] - 处理分布外任务和复杂多步骤指令时碾压此前本地模型 [8] - 能理解自然语言指令而非简单执行预设程序 [9] 应用优势 - 特别适合对延迟敏感的应用场景和网络不稳定环境 [6] - 微调效率极高,复杂任务不到100个样本即可达到高成功率 [11][12] - 在ALOHA、Franka FR3和Apollo等不同机器人平台均验证有效 [13][14] - 采用语义安全和物理安全并重的整体安全方案 [14] 开发者支持 - 提供SDK支持开发者评估模型和MuJoCo物理模拟器测试 [15] - 通过可信测试者计划逐步开放申请 [16] - 可先在模拟环境验证再部署到真实机器人,降低开发成本 [15]