Workflow
Vision-Language-Action(VLA)模型
icon
搜索文档
VLA/VLA+触觉/VLA+RL/具身世界模型等方向教程来啦!
具身智能之心· 2025-08-18 08:07
具身智能概述 - 具身智能强调智能体与物理环境的交互与适应 聚焦于感知环境 理解任务 执行动作并反馈学习的能力 [1] - 具身智能的核心模块分为大脑(语义理解与任务规划)和小脑(高精度运动执行) 类比人类神经系统结构 [1] 产业动态 - 近2年星海图 银河通用 逐际动力等明星团队从实验室走向商业化 推动本体与大小脑技术进步 [3] - 国内华为2024年启动"全球具身智能产业创新中心" 联合乐聚机器人 大族机器人攻关关键技术 [5] - 京东2025年起连续投资智元机器人 千寻智能 逐际动力 强化物流与家庭服务场景能力 [5] - 国际方面Tesla/Figure AI聚焦工业物流机器人 Wayve/Apptronik获资本支持发展自动驾驶与仓储机器人 [5] 技术演进路径 - **第一阶段**:抓取位姿检测(Grasp Pose Detection) 通过点云/图像预测末端执行器姿态 但缺乏任务上下文建模 [6] - **第二阶段**:行为克隆(Behavior Cloning) 通过专家数据学习端到端映射 存在泛化能力弱 误差累积问题 [6] - **第三阶段**:2023年Diffusion Policy引入序列建模 2024年VLA模型实现多模态协同 支持零样本泛化 [7] - **第四阶段**:2025年探索VLA与强化学习 世界模型 触觉感知融合 解决反馈 预测与触觉局限 [8] 应用与产品 - 技术演进推动人形机器人 机械臂 四足机器人在工业 家居 餐饮 医疗等场景落地 [9] - 行业岗位呈现爆发式增长 吸引大量从业者转入具身智能领域 [9] 技术体系与课程 - 课程系统梳理大脑+小脑技术路线 涵盖灵巧手 移动操作 人形机器人方法 [15] - 包含主流仿真框架配置 DP/VLA/VLA+RL/VLA+触觉等方法详解 以及世界模型下一代范式 [15] - 实践环节覆盖Sim2Real演进 IsaacGym/Mujoco仿真环境 Diffusion Policy代码实战 VLA模型训练等 [21] - 目标群体包括具身算法从业人员 研究方向学生 以及传统CV/自动驾驶转行者 [24][29]
国内首个具身大脑+小脑算法实战全栈教程
具身智能之心· 2025-08-07 10:38
具身智能概述 - 具身智能强调智能体与物理环境的交互与适应 聚焦于感知环境 理解任务 执行动作并反馈学习的能力 [1] - 大脑模块负责语义理解和任务规划 小脑模块负责高精度运动执行 构成具身机器人核心架构 [1] 产业动态 - 2024年华为启动"全球具身智能产业创新中心" 联合乐聚机器人 大族机器人等企业共建大脑 小脑关键技术 [5] - 京东2025年起连续投资智元机器人 千寻智能 逐际动力等公司 强化物流科技与家庭服务场景能力 [5] - 腾讯 蚂蚁集团 小米通过战略投资加速构建具身智能产业生态 [5] - 国外Tesla/Figure AI聚焦工业与物流机器人 Wayve Apptronik获资本支持推进自动驾驶与仓储机器人应用 [5] 技术演进路径 - **第一阶段**:抓取位姿检测技术依赖单步决策 缺乏任务上下文建模能力 [6] - **第二阶段**:行为克隆技术通过专家数据实现端到端映射 但存在泛化能力弱 误差累积缺陷 [6] - **第三阶段**:2023年Diffusion Policy采用扩散模型生成动作轨迹 提升策略稳定性与泛化能力 [6] - **第四阶段**:2024年VLA模型融合视觉 语言与动作模块 支持零样本快速泛化 实现"感知+推理+行动"范式跃迁 [7] - 2025年技术探索聚焦VLA与强化学习 世界模型 触觉感知的融合 突破环境预测与多模态感知边界 [8] 商业化应用 - 技术演进推动人形机器人 机械臂 四足机器人在工业 家居 餐饮 医疗康复领域落地 [9] - 行业岗位呈现爆发式增长 吸引大量跨领域人才转入具身智能研究 [9] 工程化挑战 - 产业界需求推动从论文向部署转型 对Mujoco IsaacGym Pybullet等仿真平台训练能力要求提升 [13] - 需解决Diffusion Policy/VLA模型训练部署 强化学习反馈微调 世界建模一体化架构等工程难题 [13] 人才能力需求 - 从业者需掌握Python/Pytorch基础 具备3090ti及以上算力设备 [17] - 核心技能覆盖仿真环境搭建 模型训练优化 触觉信息融合 世界模型应用等全栈能力 [17]
理想最新DriveAction:探索VLA模型中类人驾驶决策的基准~
自动驾驶之心· 2025-06-21 21:15
研究背景与问题提出 - 自动驾驶技术发展中,Vision-Language-Action(VLA)模型凭借多模态处理能力带来新机遇,但现有基准数据集在场景多样性、动作标注可靠性和评估协议一致性方面存在不足,制约了VLA模型的发展和应用 [2] - 现有基准数据集主要问题包括:场景多样性不足(来源单一,忽略复杂场景如道路合并、行人交互等)、动作标注不真实(缺乏实时驾驶意图反映)、评估框架不完善(未体现目标驱动决策模式) [3] DriveAction基准的核心创新 - 提出首个专为VLA模型设计的动作驱动基准,三大创新包括:用户贡献的广泛覆盖驾驶场景、与人类驾驶偏好一致的真实标注、以动作为根的树状结构评估框架 [3] - 数据集覆盖中国148个城市及所有量产车型记录,涵盖7大关键场景类别(如匝道合并、导航变道、绕行弱势道路使用者等),每个场景关联多种细粒度动作 [5] - 动作标签直接来源于用户实时驾驶操作,离散化为高级动作并经过多轮人工验证,确保可靠性和有效性 [6] 实验设计与关键发现 - 评估12个VLM模型,分为非推理模型(如GPT-4o、Claude 3.5 Sonnet)和推理模型(如o1、Gemini 2.5 Pro),通过VLMEvalKit实现性能测量 [11] - 全流程模式(V-L-A)准确率最高,无信息模式(A)最低:移除视觉输入准确率下降3.3%,移除语言输入下降4.1%,两者均移除下降8.0% [14] - 推理模型在复杂场景下优于非推理模型(如o1和o3在V-L-A模式下准确率超92%),但无信息模式下部分非推理模型表现更优 [14] - 特定任务评估显示:模型在动态/静态障碍物任务表现较好,导航任务得分较低(车道定位能力有限),交通灯任务准确率持续偏低 [16][17] DriveAction的意义与价值 - 为学术界提供更全面、真实的评估工具,推动VLA模型研究发展,同时支持工业界识别模型瓶颈并优化系统 [20] - 通过促进学术界与工业界在一致评估标准下合作,加速自动驾驶技术向更安全、智能的方向发展 [20]