Workflow
Diffusion Policy
icon
搜索文档
从世界模型到VLA再到强化,具身大小脑算法原来是这样的!
具身智能之心· 2025-10-26 12:02
具身智能技术框架 - 行业将具身智能技术框架类比为人类的大脑和小脑,大脑负责思考感知(语义理解和任务规划),小脑负责执行(高精度的运动执行)[3] - 细分领域包含仿真、VLA、Diffusion Policy、VLN、世界模型、强化学习等多个子模块[5] - VLA和世界模型目前是自动驾驶和具身智能领域的两大技术路线[5] 核心技术演进路径 - 第一阶段技术研究聚焦于抓取位姿检测,通过点云或图像预测末端执行器姿态,但策略多为单步决策,缺乏对任务上下文和动作序列的建模[7] - 第二阶段进入行为克隆阶段,机器人借助专家演示数据学习端到端映射,但暴露出泛化能力弱、误差累积等问题[7] - 第三阶段以2023年兴起的Diffusion Policy为代表,通过扩散模型生成整个动作轨迹,提升策略稳定性与泛化能力;2024年进入VLA模型阶段,融合视觉、语言与动作生成,支持零样本或小样本快速泛化[8] - 第四阶段自2025年以来,行业探索VLA与强化学习、世界模型、触觉感知等模块的融合,以弥补现有模型在反馈、预测和多模态感知方面的局限[9] 当前技术热点与方向 - VLA目前主要研究热点为端到端和分层两种方案,并分别基于大模型和Diffusion技术拓展,VLA+RL方案正成为学者探索方向[5] - Diffusion Policy作为动作模块,负责学习具体动作和执行,主要方向包括状态扩散、动作空间扩散、三维空间扩散等[6] - 仿真技术关注sim2real和real2sim2real,以解决真机泛化差的问题,该方案已获多家具身公司认可[6] - VLN更关注目标导航,与移动操作相关联,map-free方案利于任务泛化[6] - VLA与强化学习结合提升机器人在长时任务中的试错与自我改进能力;与世界模型结合引入环境动态预测,使机器人具备“想象未来”的能力;与触觉信息结合拓展多模态融合的感知边界[10] 行业应用与市场前景 - 技术发展推动人形机器人、机械臂、四足机器人等产品落地,服务于工业、家居、餐饮、医疗康复等领域[10] - 相关产品和融资络绎不绝,岗位呈现爆发式增长,吸引大量人员转入具身智能领域[10] - 随着产业界重视,行业从“论文”走向“部署”,对工程与系统能力需求激增[14]
我们正在找具身领域的合伙人......
具身智能之心· 2025-10-08 10:49
最近收到越来越多合作伙伴和中小公司的诉求,期望具身智能之心团队能够在方案和数采、技术升级、 企业培训等多个方向上赋能。 岗位说明 主要面向具身课程开发、方案研发、硬件研发、培训合作(B端主要面向企业和高校、研究院所培训,C 端面向较多学生、求职类人群)。 联系我们 感兴趣的可以添加微信oooops-life做进一步咨询。 虽然从上半年开始,我们一直在筹办相关事宜。但众人拾柴火焰高,要推动大的行业进步,需要更多优 秀的伙伴加入我们。 现面向全球的具身领域从业者发出邀请函,具身智能之心期望能够和您在技术服务、培训、课程开发与 科研辅导等多个领域展开合作。 我们将提供高额的酬金与丰富的行业资源。 主要方向 包括但不限于:VLA、VLN、Diffusion Policy、强化学习、VLA+RL、遥操作、动捕、sim2real、多模态 大模型、仿真、运动控制、端到端、3D感知等多个方向。 ...
具身的这几个方向,组成了所谓的大小脑算法
具身智能之心· 2025-09-19 08:03
具身智能技术框架 - 具身智能领域围绕大脑和小脑两大模块展开 大脑负责思考感知和任务规划 小脑负责高精度运动执行[3] - 细分技术包括仿真 VLA Diffusion Policy VLN 世界模型和强化学习等多个子模块[5] - VLA和世界模型在自动驾驶和具身领域同时发力 代表两个不同技术路线[5] 技术演进阶段 - 第一阶段聚焦抓取位姿检测 通过点云或图像预测末端执行器姿态 但缺乏任务上下文和动作序列建模[7] - 第二阶段进入行为克隆阶段 通过专家演示数据学习端到端映射 但存在泛化能力弱和误差累积问题[7] - 第三阶段引入Diffusion Policy方法 通过扩散模型生成动作轨迹 提升策略稳定性与泛化能力[8] - 第四阶段探索VLA模型与强化学习 世界模型 触觉感知等模块融合 弥补现有局限[9] 关键技术发展 - VLA研究热点为端到端和分层两种方案 分别基于大模型和diffusion技术拓展 VLA+RL方案成为新探索方向[5] - Diffusion Policy负责学习具体动作和执行 包括状态扩散 动作空间扩散和三维空间扩散等多个方向[6] - 仿真技术发展sim2real和real2sim2real 解决真机泛化差问题 获多家具身公司认可[6] - VLN更关注目标导航 与移动操作相关联 map-free方案利于任务泛化[6] 应用与落地 - 技术发展推动人形机器人 机械臂 四足机器人等产品落地 服务于工业 家居 餐饮 医疗康复等领域[10] - 产业界重视推动具身智能从论文走向部署 对工程能力提出更高要求[14] - 需掌握在Mujoco IsaacGym Pybullet等平台完成策略训练与仿真测试的能力[14] - 需实现强化学习在VLA后训练上的应用 支持机器人反馈微调[14] 人才需求与培养 - 岗位呈现爆发式增长 导致许多专业人士转入具身智能领域[10] - 需要掌握具身大脑+小脑算法全体系知识点 熟悉模型优化方法[25] - 需掌握仿真 DP VLA VLA+RL模型的基本原理和实际应用[25] - 需熟悉世界模型在具身智能领域中的应用 掌握基于触觉信息的VLA主流方案[25]
具身智能之心技术交流群成立了!
具身智能之心· 2025-08-28 16:36
具身智能技术社群成立 - 行业成立具身智能之心技术交流群 重点关注视觉语言导航 视觉语言动作 遥操作 扩散策略 强化学习 仿真到现实迁移 多模态大模型 运动控制 目标导航 建图定位等技术方向[1] - 行业社群面向机构及学校研究人员开放 需通过指定联系方式备注机构名称 个人姓名及研究方向完成入群申请[2][3]
具身智能之心B端和C端培训老师招募来啦~
具身智能之心· 2025-08-28 09:20
业务模式 - 公司开展B端和C端培训业务 B端主要面向企业和高校及研究院所 C端面向学生和求职人群[1][3] - 业务内容包括制定课程大纲和制作课程材料[3] 技术方向 - 培训内容涵盖VLA VLN 遥操作 Diffusion Policy 强化学习 VLA+RL sim2real 多模态大模型 仿真 运动控制 目标导航等前沿技术领域[2] 人才要求 - 要求博士及以上学历(包含在读)[3] - 需具备2篇A会或一区以上期刊/会议发表或2年及以上工业界经验[3] 合作方式 - 通过微信平台进行业务咨询(微信号:oooops-life)[4] - 提供高于行业水平的酬金待遇[1]
从方法范式和应用场景上看强化与VLA/Flow Matching/机器人控制算法
具身智能之心· 2025-08-19 09:54
方法范式 - 传统强化学习(RL)和模仿学习结合Sim2Real技术,方法包括DQN/PPO/SAC/D4PG/GRPO等,主流仿真环境有Mujoco、Gazebo、Bullet、IssacSim/IssacGym [5] - Diffusion Policy和VLA模型与传统RL的根本区别在于用训练数据分布描述任务目标,而非依赖reward function,适合复杂任务如叠衣服、收拾桌面等 [4] - OpenVLA模型整合多模态输入,基于7B参数的Llama 2语言模型,结合DINOv2和SigLIP视觉编码器 [7] - RDT(Robotic Decision Transformer)采用Goal-Conditioned设计,在AGIBot百万真机数据集上训练 [9] - pi-0引入动作抽象层,将不同机器人关节空间映射到统一潜空间,缓解本体差异问题 [13] - 流匹配(Flow Matching)建模从标准正态分布到复杂目标数据分布的映射,用于生成机器人动作序列 [15][17][18] 技术实现 - 基础运动控制(如人形/四足机器人)以RL+sim2real为主,模型较小,算力消耗低,但全场景丝滑动作仍有差距 [22] - 复杂/长程操作任务采用预训练ViT编码器+LLM,使用diffusion/流匹配/transformer decoder输出动作,通过预训练+微调实现跨机器人泛化 [23] - 宇树官方demo基于IssacGym和PPO算法 [24] - 北京亦庄人形机器人中心开源强化学习运动控制,基于IssacLab融合人体运动数据与AMP奖励,实现天工Ultra机器人21公里奔跑 [24] - pi0预训练阶段利用10,000小时多机器人数据,微调阶段需1-5小时到上百小时任务数据,模型规格为33亿参数 [25] - Google Gemini Robotics采用云端VLA骨干(160毫秒延迟)和本地动作解码器的快慢架构 [25][26] 数据集 - Open X-Embodiment数据集包含1M+ trajectories、500+ skills、22种机器人类型,统一为RLDS格式 [21] - AGIBot数据集为智元机器人开源的百万真机数据集 [9][24] - EgoDex数据集包含829小时人类操作视频,338K轨迹/194任务 [24] 应用场景 - 基础运动控制依赖仿真器、机器人模型和domain randomization设计,reward shaping和sim2real技术 [35] - 复杂长程任务依赖VLA和Diffusion/FM,用训练数据分布描述任务目标,语言索引任务分布 [35] - 任务过程和目标定义方面,强化学习通过reward函数,VLA用数据分布描述,未来可能通过多模态输入预测任务目标 [35] - 底层控制任务适合RL+sim2real,上层复杂任务适合VLA+数据,如叠衣服、收拾桌面等需要理解人类意图的任务 [40]
具身智能之心技术交流群成立了!
具身智能之心· 2025-08-11 14:01
具身智能技术交流群 - 社群聚焦研究方向包括视觉语言动作(VLA)、视觉语言导航(VLN)、遥操作、扩散策略(Diffusion Policy)、强化学习(RL)、VLA与强化学习结合(VLA+RL)、仿真到现实迁移(sim2real)、多模态大模型、运动控制、目标导航、建图定位等前沿技术领域 [1] - 入群需通过微信添加助理账号AIDriver005并提交机构/学校名称、个人姓名及研究方向信息以加速审核流程 [2][3]
具身智能之心技术交流群成立了!
具身智能之心· 2025-08-07 10:38
具身智能技术交流群成立 - 交流群聚焦VLA、VLN、遥操作、Diffusion Policy、强化学习、VLA+RL、sim2real、多模态大模型、仿真、运动控制、目标导航、建图定位、导航等技术方向 [1] - 社群通过微信小助理AIDriver005邀请加入 [2] - 入群需备注机构/学校+姓名+研究方向以加速审核 [3]
从近30篇具身综述中!看领域发展兴衰(VLA/VLN/强化学习/Diffusion Policy等方向)
自动驾驶之心· 2025-07-11 14:46
具身智能综述与研究方向 - 文章整理了数十篇具身智能相关综述,涵盖数据集、评测、VLA、VLN、强化学习、基础模型、DP等多个方向,展示具身智能发展路线 [1] - 内容来自具身智能之心知识星球,提供近30+具身路线学习和近200家具身公司与机构成员交流机会 [9] 视觉-语言-动作(VLA)模型 - 从动作标记化视角综述VLA模型,探讨其在自动驾驶领域的应用 [2] - 分析VLA模型后训练与人类运动学习的相似性,包括进展、挑战和趋势 [2] - 综述VLA模型的概念、进展、应用和挑战 [5] - 针对具身AI的VLA模型进行系统调查 [7][8] 机器人基础模型与强化学习 - 探讨基础模型在机器人领域的应用、挑战和未来发展方向 [3] - 调查深度强化学习在机器人真实场景中的成功案例 [3] - 分析扩散策略在机器人操作中的分类、应用和未来趋势 [3] - 研究机器人操作中的模仿学习方法 [5] 具身工业机器人与神经科学启发 - 提出具身智能工业机器人的概念和技术框架 [4] - 开发受神经科学启发的具身智能体框架Neural Brain [4][5] 多模态感知与机器人导航 - 调查基于物理模拟器的机器人导航和操作技术 [5] - 研究目标导向导航中的多模态感知方法 [5] - 分析机器人视觉中的多模态融合和视觉语言模型 [6] - 探讨SE(3)-等变机器人学习和控制方法 [6] 生成式AI与机器人操作 - 调查生成式人工智能在机器人操作中的应用 [6] - 研究扩散模型在机器人操作中的进展 [5][6] 具身AI系统与数据集 - 开发通用型具身智能体标准和统一数据集 [9] - 探索从互联网视频中学习通用机器人技能的方法 [9] - 调查人形机器人远程操作技术 [9] - 研究基于基础模型的机器人学习向具身AI发展 [9]
从近30篇具身综述中!看领域发展兴衰(VLA/VLN/强化学习/Diffusion Policy等方向)
具身智能之心· 2025-07-11 08:57
具身智能研究综述 - 文章整理了数十篇具身智能领域的综述论文,涵盖数据集、评测、视觉-语言-动作模型(VLA)、视觉语言导航(VLN)、强化学习、基础模型和扩散策略(DP)等方向 [1] 视觉-语言-动作模型(VLA) - 从动作标记化视角综述VLA模型的发展 [2] - 自动驾驶领域的VLA模型应用现状 [2] - VLA模型后训练与人类运动学习的类比研究 [2] - 探讨VLA模型的概念、进展、应用与挑战 [5] - 机器人视觉中的多模态融合与VLM应用 [6] 机器人基础模型 - 机器人领域基础模型的应用现状与未来挑战 [3] - 深度强化学习在机器人领域的实际应用案例 [3] - 扩散策略在机器人操作中的分类与发展方向 [3] - 面向具身AI的机器人基础模型研究进展 [9] 工业机器人技术 - 具身智能工业机器人的概念与技术框架 [4] - 受神经科学启发的具身智能体框架Neural Brain [4] 机器人导航与操作 - 物理模拟器在具身AI时代的机器人导航与操作应用 [5] - 目标导向导航的多模态感知技术 [5] - 扩散模型在机器人操作中的应用现状 [5] - 基于模仿学习的灵巧操作技术综述 [5] - SE(3)等变机器人学习与控制方法 [6] 多模态大模型 - 具身多模态大模型的发展与数据集建设 [8] - 大模型在具身AI中的研究挑战 [8] - 网络视频数据在通用机器人学习中的应用 [9] 数据集与评测 - 通用型具身智能体数据集标准建设 [9] - 人形机器人远程操作技术研究 [9]