Workflow
具身智能之心
icon
搜索文档
让 VLMs 更适配机器人:小型VLMs也能展现出强大的视觉规划能力
具身智能之心· 2025-07-15 21:49
研究背景 - 大语言模型(LLMs)在机器人程序规划中展现出潜力,能生成符合人类直觉的分步动作序列,但缺乏机器人执行所需的精确感官或物理世界细节[3] - 视觉语言模型(VLMs)为生成更具感知接地性的计划提供可能,但现有方法存在仿真环境过度专门化或训练成本高的局限[3] - 小型VLMs若训练得当,可在教育、机器人技术等资源受限场景中展现出强大的视觉规划能力[3] 核心方法 - 提出SelfReVision框架,通过迭代自我批判和自我改进提升小型VLMs(3B-72B参数)的视觉语言程序规划能力[4] - 框架基于自蒸馏原则,无需外部监督或教师模型,通过三阶段循环(批判-修订-验证)优化计划[6][10] - 最终计划可直接用于推理或作为自监督数据微调模型,在灵活性与性能间实现权衡[9] 实验设置 - 评估数据集包括基于图像的PLACES数据集(100个真实场景)和修改后的MFE-ETP仿真数据集(100个虚拟场景)[14] - 新增Image Groundedness指标评估计划与视觉上下文的契合度,采用GPT-4o作为自动评估器,与人类标注一致性达0.52[12] - 基线对比包括初始计划、GPT-4o、PaliGemma领域特定模型和best-of-N算法[12] 主要结果 - SelfReVision在PLACES和SIMULATION数据集平均胜率分别达68%和72%,完整性和覆盖度提升常超80%[13] - 12B以上模型整体增益达74%,优化轮次增加使胜率从75-78%升至81%,多数改进出现在前2-3轮[16] - 相较best-of-N方法,SelfReVision在多数设置中提升60%,12B以上模型胜率比GPT-4o高25%[17] 实体代理任务应用 - 在仿真拾取放置任务中,Gemma 12B和27B模型分别提升26%和17%的成功率[21] - 真实世界场景中,SelfReVision计划使HAMSTER动作模型生成的成功轨迹达70%,高于基础模型的61%[21] - 通过新增必要步骤和移除错误步骤显著提升复杂任务的执行可靠性[21] 方法优势与局限 - 完整CRV流程性能最强,消融实验中Verify步骤被证明对过滤次优修订至关重要(PLACES数据集胜率差9 3%)[18][19] - 推理成本较高,平均每个样本需8个推理步骤,可能影响实时应用[22] - 当前仅整合视觉输入,未利用机器人本体感受等多模态信息,限制场景适应性[22]
物理模拟器与世界模型驱动的机器人具身智能综述
具身智能之心· 2025-07-15 21:49
具身智能技术综述 - 具身智能成为机器人与人工智能领域的前沿课题,关注智能体在物理世界中的感知、推理与行动能力[3] - 物理模拟器与世界模型是两大关键技术:前者提供高保真虚拟训练环境,后者实现内部环境预测与策略规划[3][5] - 论文整合25张图、6张表格、超400篇文献,系统梳理技术协同路径[3] 技术框架与能力分级 - 提出五级机器人能力标准(IR-L0至IR-L4):从基础执行到完全自主决策[8][15] - 物理模拟器核心指标包括物理引擎精度(ODE/DART/MuJoCo等)、渲染能力(OpenGL/Vulkan)及传感器支持[13][18][19] - 世界模型架构涵盖预测网络、生成式模型及多任务复合模型,应用于自动驾驶与关节机器人[14] 主流技术平台对比 - 物理仿真平台横评:MuJoCo在刚体动力学领先,Isaac系列支持GPU加速物理(PhysX/FleX),CoppeliaSim兼容多引擎[18] - 渲染能力差异显著:Isaac Sim/Isaac Lab采用Omniverse RTX实现光线追踪,Webots/Gazebo依赖基础OpenGL[19] - 自动驾驶领域世界模型密集涌现,如GAIA-1、DriveDreamer等基于扩散模型与Transformer架构[20] 应用场景与突破方向 - 运动控制技术从模型预测控制(MPC)演进至深度强化学习端到端策略[15] - 操作控制结合VLM/LLM实现视觉-语言-动作一体化,双臂协作精度提升[15] - 交互能力突破包括社会嵌入认知与物理安全机制[15]
重磅直播!RoboTwin2.0:强域随机化双臂操作数据生成器与评测基准集
具身智能之心· 2025-07-15 21:49
双臂机器人训练瓶颈 - 真实示教数据规模化获取成本高耗时长 难以覆盖足够多任务物体形态与硬件差异 [2] - 现有仿真缺乏针对新任务的高效可扩展专家数据生成方法 [2] - 域随机化设计过于表层 无法模拟真实环境中的复杂性 [2] - 未考虑不同双臂平台在运动学与抓取策略上的行为差异 导致数据合成方案难以在新环境或新硬件上泛化 [2] 技术资源与竞赛 - RoboTwin平台提供代码库论文及使用文档 涉及双臂机器人仿真与训练 [3] - CVPR RoboTwin竞赛技术报告展示真实场景机器人导航与运动控制方案 [3][4] - BridgeVLA方案实现真机性能提升32% [4] 行业技术进展 - VR-Robo技术通过real2sim2real框架助力真实场景机器人导航与运动控制 [4] - UniVLA方案高效利用多源异构数据构建通用可扩展机器人动作空间 [5] - 行业关注遥操技术流畅度对机器人操作性能的影响 [5] 深度内容获取 - 具身智能之心知识星球提供完整技术细节QA及未公开彩蛋 涵盖双臂机器人训练仿真等专题 [1][4]
为什么纯人形VLA方案很少?这些公司的方案是哪些?
具身智能之心· 2025-07-15 17:39
机械臂VLA与人形VLA的应用现状 - 机械臂VLA当前主要应用于移动抓取和放置任务 这些任务相对单一且依赖视觉 辅以触觉或力觉传感器 落地难度较低[1] - 人形机器人面临数据采集困难和控制复杂度高的挑战 例如单只灵巧手可能包含20个自由度 全身自由度接近百个 需采用强化学习训练动作[1] - 人形VLA在复杂环境中的泛化性和灵活性不足 难以像机械臂VLA在结构化环境中稳定工作[1] 技术融合发展趋势 - 行业探索VLA与强化学习(RL)结合的混合架构 RL擅长底层运动优化 VLA擅长高层任务规划[1] - 未来可能形成"VLA规划+RL执行"模式 该方向已吸引多家独角兽公司投入人力资源并开放相关岗位[1] 商业化落地差异 - 机械臂VLA因任务标准化程度高 在工业场景中已实现规模化应用[1] - 人形VLA受限于多自由度协同控制难题 商业化进程明显滞后于机械臂品类[1]
TACTILE-VLA:激活VLA模型的物理知识以实现触觉泛化(清华大学最新)
具身智能之心· 2025-07-15 15:55
核心观点 - 视觉-语言-动作模型(VLA)在接触密集型场景中存在触觉感知缺失的短板,难以实现精准力控制与物理交互 [2] - Tactile-VLA框架通过深度融合视觉、语言、动作与触觉感知,激活VLA模型中隐含的物理知识,解决接触密集型任务中的力控制难题 [2] - 研究发现视觉-语言模型(VLM)的先验知识中已包含物理交互的语义理解,通过触觉传感器连接可激活该知识实现零样本泛化 [6] 核心创新与研究目标 关键发现 - VLM的先验知识包含物理交互语义理解,触觉传感器连接可激活该知识实现零样本泛化 [6] 主要创新点 - Tactile-VLA框架首次将触觉作为原生模态引入VLA模型,构建多模态深度融合架构 [7] - 混合位置-力控制器创新性地将力目标转化为位置调整指令,解决位置与力控制协同难题 [7] - Tactile-VLA-CoT变体引入思维链推理机制,基于触觉反馈分析失败原因并自主调整策略 [7] 主要解决问题 - 实现触觉感知的指令遵循、触觉相关常识运用和触觉参与的自适应推理三大能力 [9] 框架设计 整体架构 - 包含多模态编码器、Transformer backbone网络、触觉感知动作专家和混合位置-力控制器四大模块 [13] - 采用token级融合机制,通过非因果注意力实现视觉、语言和触觉token的自由交互 [14] 混合位置-力控制机制 - 以位置控制为主,力误差超阈值时引入力反馈调整,公式ΔF为目标力与实测力差值 [14] - 双通道分离设计:外部净力通过机械臂笛卡尔位置控制,内部抓取力通过夹爪宽度控制 [14] 思维链推理机制 - 按固定间隔评估任务进展,检测失败时启动"判定-分析-生成"三阶段推理流程 [14] - 使用含失败案例和语言注释的小型数据集微调模型,保留通用推理能力 [14] 实验验证 触觉感知的指令遵循 - USB任务中Tactile-VLA成功率35%,充电器任务达90%,显著高于基线模型(最高40%)[21] - 力控制精度:USB任务中"轻柔地"0.51N vs "用力地"2.57N,充电器任务保持区分度(4.68N vs 9.13N)[21] 触觉相关常识运用 - 域内物体抓取成功率90%-100%,域外物体80%-100%,显著高于基线(易碎物体基线接近0)[27] - 能根据物体属性自主调整力度:坚硬沉重物体用大力,易碎物体用轻力 [27] 触觉参与的自适应推理 - Tactile-VLA-CoT黑板任务成功率80%,基线模型和Tactile-VLA(无推理)分别为0和15% [33] - 首次尝试3.5N力失败后,通过推理将力增加到6.7N并成功完成任务 [33]
机器人与具身控制WBC和MPC方法汇总
具身智能之心· 2025-07-14 19:15
机器人控制方案 - 机器人控制主要分为MPC(模型预测控制)和强化学习两种方案 [3] - MPC是一种实时控制方法,广泛应用于人形机器人领域 [3] - WBC(全身控制)是一种优化框架,用于人形机器人在复杂环境中的运动生成 [4] MPC相关研究 - 2013年提出了一种实时MPC系统,应用于人形机器人控制 [3] - 2015年将MPC应用于HRP-2人形机器人,实现全身控制 [3] - 2017年出版MPC理论、计算与设计的专著 [3] - 2023年综述了MPC在腿式和人形机器人中的应用模型与算法 [3] WBC相关研究 - 2006年提出人形机器人在人类环境中的全身控制框架 [4] - 2014年开发分层二次规划方法,实现快速在线运动生成 [4] - 2015年优化Atlas人形机器人的运动规划、估计与控制设计 [4] - 2015年结合WBC与运动跟踪实现柔顺运动 [5] - 2017年出版人形机器人百科全书,涵盖WBC内容 [5] - 2024年推出ExBody2系统,实现高级表达性全身控制 [5] - 2025年提出统一框架,实现精细运动控制 [5]
从本体到数据,从VLA到VLN!大家在这里抱团取暖
具身智能之心· 2025-07-14 19:15
具身智能社区发展 - 社区成立三周年,专注于具身智能领域,目前正推动社区规模扩展至2000人[1] - 已见证ACT、RDT-1/RDT-2、CogACT、OpenVLA、π0、π0.5等具身智能技术迭代,行业进展迅速[1] - 社区成员包括学术研究者和求职者,内部梳理30+技术路线,覆盖benchmark检索、综述学习等需求[1] 资源与技术支持 - 汇集40+开源项目、60+具身智能数据集及主流仿真平台,提供技术学习路线如强化学习、VLN、VLA等[11] - 汇总国内外30家具身机器人公司(智元、优必选等)及高校实验室(斯坦福、清华等)资源[11][17] - 提供机器人零部件品牌清单(芯片、激光雷达等)及仿真平台资源(通用与真实场景仿真)[24][32] 行业活动与人才服务 - 举办圆桌论坛、直播活动,覆盖本体、数据、算法等主题,邀请产业界嘉宾参与[1] - 与多家具身公司建立内推机制,直接对接求职者与岗位需求[2] - 成员可获取专属研报(大模型、人形机器人等)、技术书籍(导航、动力学等)及数据集(触觉感知、机械臂抓取等)[19][22][30] 技术路线与研究方向 - 强化学习全栈方案涵盖LLM强化学习、可解释强化学习等子领域[34] - 具身感知路线整合3D视觉定位、触觉感知等任务,交互方向覆盖抓取、视觉语言模型等[36][38] - 多模态大模型内容包含理解(Image+Text到Text)与生成(Video+Text到Video+Text)技术[44][46] 社区互动与案例 - 成员可自由提问工作或研究方向问题,获行业大佬解答[66] - 案例:研一学生通过仿真项目(如Isaac Sim)准备具身智能实习,社区提供项目建议[68] - 直播内容涉及机器人操作系统(EMO S)、协同感知(RoboTwin数据集)等前沿主题[65]
智源全面开源具身大脑RoboBrain 2.0与大小脑协同框架RoboOS 2.0:刷新10项评测基准
具身智能之心· 2025-07-14 19:15
具身智能技术突破 - 智源研究院发布RoboBrain 2.0 32B版本和跨本体大小脑协同框架RoboOS 2.0单机版,RoboBrain 2.0作为"通用具身大脑"集感知、推理与规划于一体,32B版本在多项权威具身智能基准上刷新纪录,7B版本具备轻量化设计适配边缘设备部署需求 [2] - RoboOS 2.0是全球首个具身智能SaaS开源框架,创新性集成MCP协议与无服务器架构,实现轻量化部署,同步推出单机版产品线及RoboSkill技能商店,支持"三行指令"极速部署 [3] - RoboBrain 2.0突破三大能力瓶颈:空间理解精度不足、时间依赖建模薄弱、长链推理能力欠缺,显著提升对复杂具身任务的理解与执行能力 [4] RoboBrain 2.0技术架构 - 采用模块化的编码器-解码器架构,实现感知、推理和规划的统一,专门针对具身推理任务如空间感知、时间建模和长链因果推理 [9] - 依托全面且多样化的多模态数据集,融合高分辨率图像、多视角视频序列、场景图、3D场景数据及复杂自然语言指令 [12] - 采用三阶段递进式训练流程:基础时空学习、具身时空增强、具身情境中的推理链训练,训练样本量分别为4.8M、224K、195K [14][15][17][18] 性能表现 - RoboBrain-32B-2.0在BLINK-Spatial(83.63)、CV-Bench(83.92)、RoboSpatial(72.43)等空间推理基准上表现优异 [19][20] - 在时间推理方面,RoboBrain-32B-2.0在多机器人规划(80.33)、Ego-Plan2(57.23)、RoboBench(72.16)等任务中领先 [19] - RoboBrain 2.0 7B模型在Multi-Robot Planning以81.50分拔得头筹,32B版本在Ego-Plan2以57.23分登顶 [22] RoboOS 2.0框架 - 是全球首个基于具身智能SaaS平台、支持无服务器一站式轻量化机器人本体部署的开源框架,代码量仅为传统手动注册方式的1/10 [25] - 对端到端推理链路进行系统级优化,整体性能提升30%,全链路平均响应时延低至3ms以下,端云通信效率提升27倍 [27] - 新增多本体时空记忆场景图共享机制,支持动态环境下的实时感知与建模,引入多粒度任务监控模块提升任务执行稳定性 [27] 开源生态 - RoboBrain 2.0及RoboOS 2.0已全面开源,模型权重、训练代码与评测基准全部可用 [30] - 智源研究院已与全球20余家机器人企业与顶尖实验室建立战略合作关系 [33] - 提供多个开源资源链接包括GitHub仓库、模型检查点、技术文档等 [31][34]
VLA之外,具身+VA工作汇总
具身智能之心· 2025-07-14 10:21
具身智能领域研究进展 2025年核心研究方向 - 扩散策略优化:多篇研究聚焦扩散策略在机器人操作中的应用,包括Latent Space强化学习[2]、流轨迹简化处理[2]、推理时模态组合[2]以及接触式操作的慢快策略学习[2] - 多模态融合:涉及视觉-触觉策略[3][5]、雷达-相机融合抓取[3]、跨模态表示学习[7][9]以及视觉-语言模型课程设计[3] - 通用化策略开发:包括跨机械臂适配的抓取策略[3]、零样本仿真到现实迁移[3][6]、物体中心表示法[7]以及大规模仿真训练[3][6] 技术方法创新 - 模仿学习革新:提出无机器人的人类视频训练[4]、单次演示学习[2][5]、演示数据生成[3]以及去噪加速策略[5][8] - 世界模型构建:Robotic World Model强调神经模拟器优化[2],LaDi-WM利用潜在扩散进行预测操作[7],Unified World Models耦合视频与动作扩散[6] - 高效策略架构:包括混合专家去噪器[6]、一致性蒸馏[8][9]、稀疏可重用策略[8]以及十亿参数级Transformer扩展[11] 应用场景突破 - 灵巧操作:涵盖双手协调策略[2][5]、非抓取式操作[5]、透明物体抓取[3]以及不规则物体追踪[4] - 跨领域迁移:研究分割掩码跨载体迁移[4]、人类视频到机器人动作转换[3][5]以及跨形态技能表示[6] - 实时控制优化:开发高频重规划策略[3]、事件相机驱动跑酷[5]以及流匹配快速策略[6][7] 数据集与训练范式 - 超大规模训练:Dex1B项目使用10亿演示数据训练灵巧操作[9],DataMIL研究数据选择对模仿学习影响[6] - 仿真-现实协同:Sim-and-Real联合训练方法在平面推动[5]和操作策略[5][6]中验证有效性 - 新兴训练技术:包括无数据模仿学习[5]、强化与模仿学习交错[5]以及人类视频预训练[7][11]
SURPRISE3D:首创复杂3D场景空间推理数据集,突破语义捷径依赖瓶颈
具身智能之心· 2025-07-13 17:48
具身智能与空间推理 - 空间推理是具身AI和机器人系统的核心能力,智能体需在真实环境中解读3D空间布局和上下文指令以完成导航、物体操作等任务[3] - 现有3D视觉-语言基准存在三大局限:过度依赖显式查询、推理覆盖有限且浅显、模板驱动或简单空间查询,导致模型依赖语义先验而非真正空间推理[4] - SURPRISE3D是首个支持20多万查询-物体掩码对的大规模空间推理分割基准,覆盖2800多种物体类别,通过隐式性、模糊性和语义轻量性设计强制模型进行深度空间推理[4][5] 数据集创新与构建 - SURPRISE3D基于ScanNet++ v2的900多个室内环境构建,包含89K+人工生成复杂空间查询和110K LLM生成的常识/意图推理问题[6] - 采用双重标注流程:空间推理标注固定相机视角下的四种问题类型,常识/意图标注通过LLM生成+人工验证的两阶段工作流[16][18] - 引入3D-SRS基准套件,采用掩码IoU和grounding精度等指标,实证显示现有3D基础模型在缺乏语义捷径时性能下降50%以上[5][15][26] 技术突破与评估 - 定义四类空间推理任务:叙事视角(模拟智能体视角)、参数视角(解析方向指令)、相对位置(处理遮挡关系)、绝对距离(计算物理距离)[12] - 在零样本测试中,最先进的MLLMfor3D模型在叙事视角任务上仅达15 07%准确率(A25),参数视角任务低至4 25%,暴露当前技术瓶颈[26][27] - 微调后模型性能提升约3倍,证明现有数据集因保留语义线索而低估了真实空间推理难度,SURPRISE3D为行业提供更严格的评估标准[28] 行业应用与局限 - 该技术可提升服务机器人执行"沙发左侧桌子"等空间指令的准确率,优化家庭助手根据"离地板2米的灯"等模糊查询的响应能力[3][6] - 当前局限包括标注扩展性依赖人工、部分查询类型在实际部署中不够自然、数据集仅覆盖室内静态场景[29] - 行业未来方向包括领域迁移至户外环境、引入时间推理维度以及开发多轮交互框架,以全面推动具身智能商业化落地[29]