Workflow
机器人操作
icon
搜索文档
原力灵机提出ManiAgent!会 “动手”,会 “思考”,还会“采数据”!
具身智能之心· 2025-10-20 18:00
文章核心观点 - 提出了一种名为ManiAgent的新型智能体架构,旨在解决机器人操作领域Vision-Language-Action模型在复杂推理与长程任务规划中面临的数据稀缺和模型容量限制问题 [1] - 该架构实现了从任务描述、环境输入到机器人操作动作的端到端输出,通过多个智能体协同工作来应对复杂操作场景 [1][2] - 实验验证表明,该框架在仿真和真实世界任务中均取得高成功率,并能作为高效自动化数据采集工具,为VLA模型训练提供高质量数据 [2][10] 方法与架构 - ManiAgent框架由四个核心智能体组成:场景感知智能体、推理智能体、物品级别感知智能体和控制器智能体,分别负责环境感知、子任务分解、目标物体识别和动作序列生成 [11] - 框架通过工具调用、上下文工程、实时性优化与自动数据采集四大关键技术构建完整技术链路 [8] - 工具调用方面,整合了视觉语言模型用于场景感知与物体筛选、大型语言模型用于推理规划与动作生成,以及专用感知工具解决机械臂抓取精度问题 [8][17] 技术实现细节 - 上下文工程通过场景描述优化、子任务上下文管理和物体信息格式化来提升任务相关性与信息传递一致性 [17] - 实时性优化通过参数化动作缓存机制降低动作生成延迟,当新任务与缓存任务匹配时直接调用缓存序列,无需重复查询大型语言模型 [17] - 自动数据采集体系支持随机或规则化场景重置,集成数据记录与筛选功能,整个采集过程仅需少量人工介入,平均每46分钟干预1次 [17] 实验评估与性能 - 在SimplerEnv仿真基准测试中,ManiAgent使用GPT-5版本取得了86.8%的平均任务成功率,显著高于对比方法CogACT的51.3%和pi-0的55.7% [10][22] - 在真实世界实验中,使用WidowX 250S机械臂执行8项代表性任务,最高取得了95.8%的平均成功率 [2][25] - 实验使用的提示词在仿真和实物环境中完全保持一致,未针对任何特殊任务进行调整 [18] 应用价值与前景 - ManiAgent可自动采集高质量训练数据,基于该数据训练的VLA模型性能能够与基于人工标注数据集训练的模型相媲美,显著降低数据采集成本 [2][10] - 该框架打通了“感知-推理-控制”技术链路,为机器人操作框架提供参考,未来将聚焦于强化实时反馈、拓展至移动机器人平台及优化人机交互体验 [26]
史上最全robot manipulation综述,多达1200篇!八家机构联合发布
自动驾驶之心· 2025-10-15 07:33
文章核心观点 - 人工智能正以前所未有的速度从"会说"迈向"会做",具身智能成为连接认知与行动的关键前沿,机器人操作在其中扮演核心角色[5] - 该综述论文使用17张图、15张表格、超1000篇参考文献,系统梳理了机器人操作领域的全景图谱,提出了统一的理解框架[6] - 论文扩展了传统的"高层规划—低层控制"划分,高层规划纳入语言、代码、运动、可供性与三维表示,低层学习控制提出基于训练范式的新分类法[9][11] 机器人操作研究演进 - 从早期的规则控制与运动规划,发展到如今融合强化学习、模仿学习与大模型的智能控制体系,经历范式转变[6] - 控制范式从基于经典算法(如RRT、MPC)演进到基于学习的方法(如强化学习/模仿学习)[15] - 硬件沿革从机械手、机械臂发展到移动机器人平台[15] 研究框架与分类体系 - 提出统一的高低层控制框架:高层规划涵盖任务规划、语言、代码、运动、可供性和3D表示[14][21] - 低层学习控制采用三层结构分类:输入建模、潜表征学习和策略学习[22][24] - 系统总结了机器人操作面临的两大核心瓶颈:数据采集与利用、系统泛化能力[27] 数据集与仿真平台 - 梳理了多种仿真器与基准,包括MetaWorld、Franka Kitchen、RLBench等平台,支持50-1000+任务数量[16] - 数据集类型涵盖抓取数据集、轨迹数据集、具身问答与功能可供性数据集等[16] - 例如CALVIN数据集包含40M演示,Maniskill2包含2144物体和20任务[16] 操作任务分类 - 将操作任务分为抓取、基础操作、灵巧操作、软体机器人操作、可变形物体操作、移动操作、四足机器人操作和人形机器人操作等8类[17][19] - 各任务类型有明确技术定义,如抓取狭义定义为机器人生成抓取位姿,灵巧操作通过多指手实现精确物体控制[17] - 基础操作指单臂或双臂在桌面场景执行的简单任务(如拾放、分拣)[17] 未来研究方向 - 构建真正的"机器人脑",实现通用认知与控制[35] - 打破数据瓶颈,实现可扩展的数据生成与利用[35] - 强化多模态感知,提升与复杂物体的交互能力[35] - 确保人机共存安全,推动机器人走向真实世界[35]
史上最全robot manioulation综述,多达1200篇!西交,港科,北大等八家机构联合发布
具身智能之心· 2025-10-14 11:50
文章核心观点 - 具身智能是人工智能迈向通用智能的关键前沿,其核心在于机器人操作技术,该技术正经历从基于规则到融合大语言模型和多模态模型的范式转变 [3][4] - 一篇由多机构学者联合撰写的综述论文系统性地梳理了机器人操作领域,提出了统一的理解框架,涵盖硬件基础、任务数据、控制框架及泛化研究,旨在推动机器人从“执行任务”到“理解与学习任务”的演进 [4][6][7] 机器人操作领域综述概览 - 该综述使用17张图、15张表格和超1000篇参考文献,构建了机器人操作的全景图谱,内容覆盖硬件与控制基础、任务与数据体系、高低层控制框架及跨本体与跨模态的泛化研究 [4][6] - 论文扩展了传统的“高层规划—低层控制”框架,高层规划纳入语言、代码、运动、可供性与三维表示,低层学习控制则提出基于训练范式的新分类法,包含输入建模、潜表征学习和策略学习三个核心部分 [6][9][13] 机器人硬件与控制范式演进 - 机器人硬件从机械手、机械臂发展到移动机器人平台,控制范式从基于经典算法(如RRT、MPC)演进到基于学习的方法(如强化学习/模仿学习) [14] - 机器人模型的分类方式及其验证流程构成了评估体系,反映了领域技术栈的成熟度 [14] 仿真器、基准与数据集 - 综述整理了多个主流仿真器与基准,例如MetaWorld(80物体、50任务)、CALVIN(40M演示数据)、Maniskill2(2144物体、20任务)等,覆盖从基础操作到灵巧操作、移动操作等多种任务类型 [15][18] - 数据集类型包括抓取数据集、单/跨具身仿真器基准、轨迹数据集及具身问答数据集,支持多样化的机器人操作研究与验证 [17] 高层规划与低层控制框架 - 高层规划被扩展至语言、代码、运动、可供性和3D表示,凸显其在语义决策中的作用,例如通过大语言模型生成任务计划或代码 [21][24] - 低层学习控制提出三层结构分类法:输入建模(处理输入数据)、潜表征学习(构建可迁移表示)、策略学习(生成精准动作),为控制策略研究提供系统化视角 [22][23] 机器人操作核心瓶颈 - 领域面临两大瓶颈:数据采集与利用(涉及人类示教、合成数据生成、众包收集等途径)以及系统泛化能力(包括环境、任务和跨具身泛化) [27][28] - 数据利用方法涵盖数据扩展、选择重加权、检索与增强技术,而泛化挑战的解决方案旨在提升机器人对未知场景的适应能力 [27][28] 未来研究方向 - 未来重点方向包括构建通用“机器人脑”实现认知与控制、突破数据瓶颈以 scalable 生成利用数据、强化多模态感知提升复杂物体交互、确保人机共存安全推动真实世界应用 [32][34]
硬件不是问题,理解才是门槛:为什么机器人还没走进你家
锦秋集· 2025-09-29 21:40
文章核心观点 - 机器人技术发展的核心瓶颈并非硬件性能,而在于机器人缺乏对人类物理世界的直观理解和预测能力 [1][2] - 基于学习的动力学模型通过从感知数据中直接学习物理交互规则,为解决机器人操作中的物理预测难题提供了新路径 [2][8] - 该方法已显著提升机器人处理可变形物体、颗粒物质及多物体交互等复杂任务的能力,有望推动机器人从实验室演示走向日常应用 [5][6][20] 基于学习的动力学模型概述 - 与传统基于物理原理的模型不同,基于学习的模型直接从原始感官数据推导状态转移函数,无需完整状态信息即可捕捉复杂物理因素 [8][20][24] - 学习模型能够补偿状态估计误差并绕过显式状态估计步骤,有效弥补传统解析模型的"仿真到现实差距" [20][33] - 习得模型具有端到端可微性,支持基于梯度的规划与控制,且在非刚性系统中计算效率高于解析求解器 [20][35] 状态表示方法及权衡 - 原始像素表示直接使用RGB-D等二维特征图,无需显式状态估计但计算开销大,且存在物体恒存性和时间一致性问题 [36][40] - 潜在表示将高维观测压缩为低维隐向量,提升学习效率与泛化能力,但可能丢失任务相关信息 [36][42][46] - 三维粒子表示显式编码几何结构,精确捕捉可变形物体形状,但需要精确感知和状态估计,对遮挡敏感 [36][47][50] - 关键点表示聚焦任务相关特征,提供高效计算方式,支持实时控制,但对遮挡敏感且需保持跨时间检测一致性 [10][52][56] - 物体中心表示将场景建模为离散实体,支持组合泛化,适用于多物体操作,但难以处理流体等连续材料 [11][57][62] 与机器人控制的集成 - 运动规划方法利用习得动力学模型进行轨迹优化和路径搜索,在缺乏精确解析模型的环境中实现可行路径规划 [12][70][71] - 策略学习通过从模型生成的仿真数据中学习状态-动作映射,或结合强化学习优化策略,减少对真实环境交互的依赖 [12][14][72][74] - 集成应用已覆盖物体重定位、可变形物体操作、多物体交互和工具使用等复杂任务场景 [75][76][77][78][84] 未来研究方向 - 感知领域需开发应对部分可观测性和多模态信号融合的新方法,以提升状态估计的稳健性 [15][87][89][90] - 动力学学习需重点提升模型在未探索状态-动作空间的稳健性,并探索利用基础模型提供物理先验 [15][91][92][93] - 控制领域机遇包括分层动力学建模与规划、学习规划算法以及结合不确定性量化的性能保证技术 [15][97][98][99] - 新兴表示方法如3D高斯泼溅技术可能为动态场景建模提供更灵活的解决方案 [95]
最新综述!多模态融合与VLM在具身机器人领域中的方法盘点
具身智能之心· 2025-09-01 12:02
多模态融合与视觉语言模型综述 - 文章系统综述了多模态融合和视觉语言模型在机器人视觉领域的应用,涵盖语义场景理解、3D目标检测、SLAM、具身导航和操作控制等任务,并比较传统方法与新兴大模型方法的优劣 [3][4][11][57] 语义场景理解 - 多模态融合通过整合RGB图像、深度信息、LiDAR点云和语言数据,显著提升复杂环境下物体识别、语义分割和关系建模的准确性与鲁棒性 [9] - 主流融合策略分为早期融合(输入层直接拼接)、中期融合(特征层交互如注意力机制)和后期融合(决策层整合),现代方法趋向统一架构实现隐式协作 [10][12] - 实现路径包括编码器-解码器架构(如DeepLabv3+)、基于注意力的Transformer(如MRFTrans)和图神经网络方法(如MISSIONGNN) [12] 3D目标检测 - 多模态融合结合相机(丰富纹理)和LiDAR(精准几何),解决单一传感器在遮挡、极端天气或低反射物体下的性能缺陷 [16][18][19] - 融合设计核心涉及何时融合(早期/中期/后期)、融合内容(特征图、点云、BEV视图)及融合方法(从非注意力型到基于注意力的跨模态交互) [17] - 技术演进从早期MV3D、AVOD到TransFusion(Transformer建模跨模态依赖)和BEVFusion,并扩展雷达-相机融合(如CenterFusion)和4D雷达提升动态感知 [20][21][22] 具身导航 - 分为目标导向导航(依赖视觉语义与空间先验)、指令跟随导航(结合自然语言理解)和基于对话的导航(主动交互与动态调整),体现从感知到交互的演进 [24][26][27][28] - 代表性系统如InstructNav(零样本规划)和NaVid(视频驱动泛化),强调多模态融合在复杂环境中的适应能力 [27][33] 视觉定位与SLAM - 多模态融合(如DeepVO、D3VO)和自监督学习解决光照变化、遮挡及动态场景中的定位问题,神经隐式表示(如NeRF)压缩场景几何与语义信息 [29][30] - SLAM从传统LiDAR-SLAM(几何精准)和V-SLAM(语义丰富)向多模态融合(如V-LOAM、LIC-Fusion)和神经化转型(如UVIO用Transformer建模时序) [34][35] - 未来方向包括轻量化、自监督与感知决策一体化,提升在动态环境中的语义理解与规划能力 [35][38] 视觉-语言-动作模型(VLA) - VLA模型整合视觉感知、语言理解和动作生成,实现从"感知"到"执行"的闭环,代表方法包括RT-2(预训练对齐)、RoboMamba(动作动态建模)和3D-VLA(三维点云融合) [36][37][39] - 高效化趋势明显:OpenVLA通过LoRA降低训练成本,DeeR-VLA采用动态退出机制减少计算开销,VoxPoser支持语言驱动的实时策略调整 [39][40] - 多模态融合使机器人在操作任务中实现感知更强、理解更深和执行更准的三重跃迁 [47] 视觉-触觉融合 - 视觉提供全局物体信息(位置、形态),触觉补充局部反馈(接触力、滑动),提升抓取精度与稳定性,如FusionNet-A融合特征用于抓取规划 [41][42][48] - 触觉在抓取执行阶段实时调整力度和姿态,避免滑动或掉落,并通过时空注意力(如Li等人方法)或自监督学习(如MimicTouch)优化稳定性预测 [44][45][48] 视觉语言模型演进 - 预训练阶段通过对比学习(如CLIP)或自监督方法对齐多模态表示,实现零样本迁移和泛化能力 [50] - 跨模态对齐方法包括对比学习(拉近相关样本)、自监督学习(掩码预测)和跨模态生成(如DALL·E),解决模态间语义粒度差异 [51][55] - VLM从Flamingo、PaLM-E发展到Gemini、Llama-3.2,支持多模态(图像、文本、音频)和结构优化(MoE、稀疏注意力),增强指令理解与推理能力 [53][54] 挑战与未来方向 - 关键挑战包括跨模态对齐的语义偏差、算力有限平台的轻量化部署需求,以及真实环境中的传感器异质性和延迟问题 [58] - 未来重点方向包括结构化空间建模与记忆机制、可解释性与伦理适应性提升,以及发展具备长期学习能力的认知型VLM架构 [58]
VLA之外,具身+VA工作汇总
自动驾驶之心· 2025-07-14 18:36
具身智能领域研究进展 - 2025年将涌现大量具身智能与视觉动作融合的研究成果,涵盖机器人操作、全身控制、sim2real迁移等方向,其中字节跳动Seed团队提出Chain-of-Action轨迹自回归建模方法[2] - 扩散策略成为主流技术路线,涉及潜在空间强化学习(Steering Your Diffusion Policy)、模态组合扩散(Modality-Composable Diffusion Policy)、响应式噪声中继扩散(Responsive Noise-Relaying Diffusion Policy)等变体[2][3][4] - 单次学习(One-Shot)技术取得突破,包括You Only Teach Once双手机器人操作、FUNCTO工具操作模仿、Human2Robot人机视频配对学习等方案[2][3][5] 机器人操作技术创新 - 灵巧操作领域出现AnyDexGrasp通用抓取系统,学习效率达到人类水平,支持不同手型适配[3] - 触觉融合技术发展显著,包含Adaptive Visuo-Tactile Fusion多感官融合、KineDex触觉运动教学、Tactile Beyond Pixels多模态触觉表征等方案[3][7] - 非prehensile操作取得进展,DyWA动力学自适应模型实现通用化非抓取操作,SPOT基于SE(3)的物体中心轨迹扩散提升操作精度[5][8] 仿真到现实迁移 - sim2real技术出现FetchBot零样本迁移方案,可在杂乱货架实现物体抓取[3] - 世界模型应用广泛,LaDi-WM基于潜在扩散的预测模型、GAF高斯动作场动态模型、World4Omni零样本框架等提升跨域迁移能力[7][9] - 数据生成技术突破,DemoGen合成演示生成、GraspMolmo大规模合成数据生成等方法解决数据效率问题[3][7] 算法架构演进 - 2024年扩散策略持续优化,出现1B参数规模的Transformer扩散策略(Scaling diffusion policy)、Consistency Policy一致性蒸馏加速、One-Step Diffusion单步蒸馏等高效方案[9][11] - 3D表征成为新趋势,3D Diffuser Actor、GenDP 3D语义场、Lift3D 2D升维等方法增强空间理解[9][11] - 多任务学习框架创新,包含MoE-Loco专家混合架构、H3DP三重层次扩散策略、Mamba Policy混合选择状态模型等[5][9] 人机交互技术 - 人类示范利用效率提升,Phantom仅用人类视频训练、ZeroMimic从网络视频蒸馏、HACTS人类协同驾驶系统等方法降低数据依赖[4][5][7] - 跨具身学习取得进展,SHADOW利用分割掩码跨具身迁移、UniSkill跨具身技能表征实现视频模仿[4][6] - 人形机器人技术突破,HumanoidPano全景-LiDAR跨模态感知、Trinity模块化AI系统、Distillation-PPO两阶段强化学习框架等推动发展[5]