Workflow
Diffusion Policy
icon
搜索文档
具身的这几个方向,组成了所谓的大小脑算法
具身智能之心· 2025-09-19 08:03
具身智能技术框架 - 具身智能领域围绕大脑和小脑两大模块展开 大脑负责思考感知和任务规划 小脑负责高精度运动执行[3] - 细分技术包括仿真 VLA Diffusion Policy VLN 世界模型和强化学习等多个子模块[5] - VLA和世界模型在自动驾驶和具身领域同时发力 代表两个不同技术路线[5] 技术演进阶段 - 第一阶段聚焦抓取位姿检测 通过点云或图像预测末端执行器姿态 但缺乏任务上下文和动作序列建模[7] - 第二阶段进入行为克隆阶段 通过专家演示数据学习端到端映射 但存在泛化能力弱和误差累积问题[7] - 第三阶段引入Diffusion Policy方法 通过扩散模型生成动作轨迹 提升策略稳定性与泛化能力[8] - 第四阶段探索VLA模型与强化学习 世界模型 触觉感知等模块融合 弥补现有局限[9] 关键技术发展 - VLA研究热点为端到端和分层两种方案 分别基于大模型和diffusion技术拓展 VLA+RL方案成为新探索方向[5] - Diffusion Policy负责学习具体动作和执行 包括状态扩散 动作空间扩散和三维空间扩散等多个方向[6] - 仿真技术发展sim2real和real2sim2real 解决真机泛化差问题 获多家具身公司认可[6] - VLN更关注目标导航 与移动操作相关联 map-free方案利于任务泛化[6] 应用与落地 - 技术发展推动人形机器人 机械臂 四足机器人等产品落地 服务于工业 家居 餐饮 医疗康复等领域[10] - 产业界重视推动具身智能从论文走向部署 对工程能力提出更高要求[14] - 需掌握在Mujoco IsaacGym Pybullet等平台完成策略训练与仿真测试的能力[14] - 需实现强化学习在VLA后训练上的应用 支持机器人反馈微调[14] 人才需求与培养 - 岗位呈现爆发式增长 导致许多专业人士转入具身智能领域[10] - 需要掌握具身大脑+小脑算法全体系知识点 熟悉模型优化方法[25] - 需掌握仿真 DP VLA VLA+RL模型的基本原理和实际应用[25] - 需熟悉世界模型在具身智能领域中的应用 掌握基于触觉信息的VLA主流方案[25]
具身智能之心技术交流群成立了!
具身智能之心· 2025-08-28 16:36
具身智能技术社群成立 - 行业成立具身智能之心技术交流群 重点关注视觉语言导航 视觉语言动作 遥操作 扩散策略 强化学习 仿真到现实迁移 多模态大模型 运动控制 目标导航 建图定位等技术方向[1] - 行业社群面向机构及学校研究人员开放 需通过指定联系方式备注机构名称 个人姓名及研究方向完成入群申请[2][3]
具身智能之心B端和C端培训老师招募来啦~
具身智能之心· 2025-08-28 09:20
业务模式 - 公司开展B端和C端培训业务 B端主要面向企业和高校及研究院所 C端面向学生和求职人群[1][3] - 业务内容包括制定课程大纲和制作课程材料[3] 技术方向 - 培训内容涵盖VLA VLN 遥操作 Diffusion Policy 强化学习 VLA+RL sim2real 多模态大模型 仿真 运动控制 目标导航等前沿技术领域[2] 人才要求 - 要求博士及以上学历(包含在读)[3] - 需具备2篇A会或一区以上期刊/会议发表或2年及以上工业界经验[3] 合作方式 - 通过微信平台进行业务咨询(微信号:oooops-life)[4] - 提供高于行业水平的酬金待遇[1]
从方法范式和应用场景上看强化与VLA/Flow Matching/机器人控制算法
具身智能之心· 2025-08-19 09:54
方法范式 - 传统强化学习(RL)和模仿学习结合Sim2Real技术,方法包括DQN/PPO/SAC/D4PG/GRPO等,主流仿真环境有Mujoco、Gazebo、Bullet、IssacSim/IssacGym [5] - Diffusion Policy和VLA模型与传统RL的根本区别在于用训练数据分布描述任务目标,而非依赖reward function,适合复杂任务如叠衣服、收拾桌面等 [4] - OpenVLA模型整合多模态输入,基于7B参数的Llama 2语言模型,结合DINOv2和SigLIP视觉编码器 [7] - RDT(Robotic Decision Transformer)采用Goal-Conditioned设计,在AGIBot百万真机数据集上训练 [9] - pi-0引入动作抽象层,将不同机器人关节空间映射到统一潜空间,缓解本体差异问题 [13] - 流匹配(Flow Matching)建模从标准正态分布到复杂目标数据分布的映射,用于生成机器人动作序列 [15][17][18] 技术实现 - 基础运动控制(如人形/四足机器人)以RL+sim2real为主,模型较小,算力消耗低,但全场景丝滑动作仍有差距 [22] - 复杂/长程操作任务采用预训练ViT编码器+LLM,使用diffusion/流匹配/transformer decoder输出动作,通过预训练+微调实现跨机器人泛化 [23] - 宇树官方demo基于IssacGym和PPO算法 [24] - 北京亦庄人形机器人中心开源强化学习运动控制,基于IssacLab融合人体运动数据与AMP奖励,实现天工Ultra机器人21公里奔跑 [24] - pi0预训练阶段利用10,000小时多机器人数据,微调阶段需1-5小时到上百小时任务数据,模型规格为33亿参数 [25] - Google Gemini Robotics采用云端VLA骨干(160毫秒延迟)和本地动作解码器的快慢架构 [25][26] 数据集 - Open X-Embodiment数据集包含1M+ trajectories、500+ skills、22种机器人类型,统一为RLDS格式 [21] - AGIBot数据集为智元机器人开源的百万真机数据集 [9][24] - EgoDex数据集包含829小时人类操作视频,338K轨迹/194任务 [24] 应用场景 - 基础运动控制依赖仿真器、机器人模型和domain randomization设计,reward shaping和sim2real技术 [35] - 复杂长程任务依赖VLA和Diffusion/FM,用训练数据分布描述任务目标,语言索引任务分布 [35] - 任务过程和目标定义方面,强化学习通过reward函数,VLA用数据分布描述,未来可能通过多模态输入预测任务目标 [35] - 底层控制任务适合RL+sim2real,上层复杂任务适合VLA+数据,如叠衣服、收拾桌面等需要理解人类意图的任务 [40]
具身智能之心技术交流群成立了!
具身智能之心· 2025-08-11 14:01
具身智能技术交流群 - 社群聚焦研究方向包括视觉语言动作(VLA)、视觉语言导航(VLN)、遥操作、扩散策略(Diffusion Policy)、强化学习(RL)、VLA与强化学习结合(VLA+RL)、仿真到现实迁移(sim2real)、多模态大模型、运动控制、目标导航、建图定位等前沿技术领域 [1] - 入群需通过微信添加助理账号AIDriver005并提交机构/学校名称、个人姓名及研究方向信息以加速审核流程 [2][3]
具身智能之心技术交流群成立了!
具身智能之心· 2025-08-07 10:38
具身智能技术交流群成立 - 交流群聚焦VLA、VLN、遥操作、Diffusion Policy、强化学习、VLA+RL、sim2real、多模态大模型、仿真、运动控制、目标导航、建图定位、导航等技术方向 [1] - 社群通过微信小助理AIDriver005邀请加入 [2] - 入群需备注机构/学校+姓名+研究方向以加速审核 [3]
从近30篇具身综述中!看领域发展兴衰(VLA/VLN/强化学习/Diffusion Policy等方向)
自动驾驶之心· 2025-07-11 14:46
具身智能综述与研究方向 - 文章整理了数十篇具身智能相关综述,涵盖数据集、评测、VLA、VLN、强化学习、基础模型、DP等多个方向,展示具身智能发展路线 [1] - 内容来自具身智能之心知识星球,提供近30+具身路线学习和近200家具身公司与机构成员交流机会 [9] 视觉-语言-动作(VLA)模型 - 从动作标记化视角综述VLA模型,探讨其在自动驾驶领域的应用 [2] - 分析VLA模型后训练与人类运动学习的相似性,包括进展、挑战和趋势 [2] - 综述VLA模型的概念、进展、应用和挑战 [5] - 针对具身AI的VLA模型进行系统调查 [7][8] 机器人基础模型与强化学习 - 探讨基础模型在机器人领域的应用、挑战和未来发展方向 [3] - 调查深度强化学习在机器人真实场景中的成功案例 [3] - 分析扩散策略在机器人操作中的分类、应用和未来趋势 [3] - 研究机器人操作中的模仿学习方法 [5] 具身工业机器人与神经科学启发 - 提出具身智能工业机器人的概念和技术框架 [4] - 开发受神经科学启发的具身智能体框架Neural Brain [4][5] 多模态感知与机器人导航 - 调查基于物理模拟器的机器人导航和操作技术 [5] - 研究目标导向导航中的多模态感知方法 [5] - 分析机器人视觉中的多模态融合和视觉语言模型 [6] - 探讨SE(3)-等变机器人学习和控制方法 [6] 生成式AI与机器人操作 - 调查生成式人工智能在机器人操作中的应用 [6] - 研究扩散模型在机器人操作中的进展 [5][6] 具身AI系统与数据集 - 开发通用型具身智能体标准和统一数据集 [9] - 探索从互联网视频中学习通用机器人技能的方法 [9] - 调查人形机器人远程操作技术 [9] - 研究基于基础模型的机器人学习向具身AI发展 [9]
从近30篇具身综述中!看领域发展兴衰(VLA/VLN/强化学习/Diffusion Policy等方向)
具身智能之心· 2025-07-11 08:57
具身智能研究综述 - 文章整理了数十篇具身智能领域的综述论文,涵盖数据集、评测、视觉-语言-动作模型(VLA)、视觉语言导航(VLN)、强化学习、基础模型和扩散策略(DP)等方向 [1] 视觉-语言-动作模型(VLA) - 从动作标记化视角综述VLA模型的发展 [2] - 自动驾驶领域的VLA模型应用现状 [2] - VLA模型后训练与人类运动学习的类比研究 [2] - 探讨VLA模型的概念、进展、应用与挑战 [5] - 机器人视觉中的多模态融合与VLM应用 [6] 机器人基础模型 - 机器人领域基础模型的应用现状与未来挑战 [3] - 深度强化学习在机器人领域的实际应用案例 [3] - 扩散策略在机器人操作中的分类与发展方向 [3] - 面向具身AI的机器人基础模型研究进展 [9] 工业机器人技术 - 具身智能工业机器人的概念与技术框架 [4] - 受神经科学启发的具身智能体框架Neural Brain [4] 机器人导航与操作 - 物理模拟器在具身AI时代的机器人导航与操作应用 [5] - 目标导向导航的多模态感知技术 [5] - 扩散模型在机器人操作中的应用现状 [5] - 基于模仿学习的灵巧操作技术综述 [5] - SE(3)等变机器人学习与控制方法 [6] 多模态大模型 - 具身多模态大模型的发展与数据集建设 [8] - 大模型在具身AI中的研究挑战 [8] - 网络视频数据在通用机器人学习中的应用 [9] 数据集与评测 - 通用型具身智能体数据集标准建设 [9] - 人形机器人远程操作技术研究 [9]