Workflow
具身多模态大模型
icon
搜索文档
从近1000篇工作中,看具身智能的技术发展路线!
具身智能之心· 2025-09-05 08:45
机器人操作技术演进 - 机器人操作从机械编程向具身智能演进 从简单夹爪发展到多指灵巧手[5] - 灵巧操作依赖数据采集与技能学习框架 包括模拟 人类演示和遥操作三种数据采集方式以及模仿学习与强化学习两种学习框架[5] - 面临三大关键挑战 涉及复杂被操作对象和多样操作类型[5][8] - 核心技术方向包括灵巧操作 多指手 人工智能赋能机器人 数据采集 模仿学习和强化学习[6] 具身导航与物理模拟器 - 导航与操作是具身智能核心能力 现实训练存在高成本问题 Sim-to-Real迁移受域差距制约[9] - 物理模拟器分为室内型 室外型和通用型 包括Habitat AI2-THOR CARLA AirSim ThreeDWorld和Isaac Sim等[14][15] - 导航从显式记忆转向隐式记忆 操作从强化学习拓展至模仿学习 扩散策略及VLA模型[15] - 操作任务按复杂程度和自由度递增 硬件演进涵盖多种类型[13] 具身多模态大模型发展 - 具身多模态大模型可弥合感知 认知与动作鸿沟 基础构成包括具身智能体 大语言模型 大视觉模型和视觉语言模型等[16][19] - 核心任务涵盖具身感知 导航 交互和仿真 感知分GPT与非GPT模型 导航分通用与专用模型 交互分短长视域动作策略[19] - 数据集包括Open X-Embodiment和HM3D等 面临跨模态对齐难 计算资源消耗大 领域泛化性弱等技术挑战[19] 具身仿真与研究任务 - 具身AI模拟器存在真实感 可扩展性和交互性问题 研究任务面临长轨迹记忆设计等多重挑战[20][24] - 视觉探索通过运动或感知构建环境内部模型 方法分好奇心驱动 覆盖最大化和重建驱动 核心数据集为Matterport3D和Gibson V1[24] - 视觉导航含点导航 物体导航 带先验导航和视觉语言导航 评估指标以成功率和路径长度加权成功率为主[24] 强化学习在视觉领域应用 - 强化学习在大语言模型中成效显著 近年拓展至视觉多模态领域 面临高维视觉输入等挑战[25] - 基础理论涵盖RLHF DPO和RLVR三大对齐范式 以及PPO和GRPO两种策略优化算法[26] - 核心研究方向包括多模态大语言模型 视觉生成 统一模型和视觉语言动作模型[28] 遥操作与人形机器人 - 人形机器人遥操作可结合人类认知与机器人物理能力 适配人类环境与危险场景如核救援和空间探索[29] - 系统架构含人类状态测量 运动重定向 机器人控制和多模态反馈 支持单向或双向遥操作[32] - 应用包括远程存在和危险作业等 挑战集中在非专家操作门槛 动态环境适应和长延迟稳定性[35] 视觉语言动作模型进展 - VLA模型从跨模态学习架构演化至融合视觉语言模型和动作规划器的通用智能体 涵盖80多个近三年发布的模型[33] - 按架构范式分类 提出基于任务复杂度 模态多样性和数据集规模的新型评估标准 涉及102个VLA模型和26个基础数据集[36] - 发展历程分萌芽 探索和快速发展三阶段 从模型架构 训练数据 预训练方法 后训练方法和模型评估五个维度剖析现状[38] - 横向整合VLA建模实践 提出单体模型与分层模型的分类体系 探索强化学习融合等前沿方向[41]
申万宏源银河通用投资项目突破融资新纪录
公司融资与业务进展 - 北京银河通用机器人有限公司完成新一轮11亿元融资 刷新具身大模型机器人领域单笔和累计融资双纪录 [1] - 本轮融资由宁德时代及溥泉资本领投 吸引国资投资平台、战略产业方及国际机构参与 累计融资规模超24亿元 [1] - 公司2023年5月成立后快速获得市场化机构、产业资本、科研基金及国资平台认可 [1] 技术研发与商业化落地 - 专注具身多模态大模型通用机器人研发 2024年申万宏源投资后业务加速发展 [1] - 推出全球首个人形机器人智慧药房解决方案Galbot 实现药品全流程自动化 已获100家门店订单 [1] - 工业领域与国际知名车企合作 执行天窗玻璃搬运、料箱拆垛等任务 完全基于视觉引导无需二维码 [1] 战略投资方向 - 申万宏源集团加大"投早、投小、投硬科技"力度 以长期股权资金支持科技创新企业 [2] - 未来将围绕新质生产力发展 加强战略新兴产业和未来产业投资布局 [2]