具身智能之心
搜索文档
一文尽览!2025年多篇VLA与RL融合的突破方向
具身智能之心· 2025-08-25 08:04
视觉-语言-动作模型与强化学习融合研究进展 - 2025年机器人具身智能领域聚焦视觉-语言-动作模型与强化学习的融合 旨在解决真实场景中决策与执行精度问题 相关研究在ICLR、RSS、ICRA、CVPR等顶会集中收录[2] GRAPE模型创新 - 通过轨迹级VLA对齐和任务阶段分解提升模型泛化能力 解决行为克隆依赖导致的未见任务适应性问题[4][5] - 采用可定制时空约束的偏好建模 支持根据安全、效率等目标灵活调整策略[5] - 在现实世界与模拟环境中 域内操作任务成功率提升51.79% 未见任务成功率提升58.20% 安全性目标下碰撞率降低37.44% 效率目标下启动步长减少11.15%[7] VLA-RL框架突破 - 构建轨迹级强化学习表达式 将操作轨迹转化为多模态对话形式 优化在线数据利用[10][12] - 微调预训练视觉语言模型作为机器人过程奖励模型 解决稀疏奖励问题[12] - 在LIBERO平台40个任务中性能超越OpenVLA-7B基线 并显现推理扩展规律迹象[14] ReWiND框架优势 - 通过预训练语言基奖励函数和策略 实现少样本微调适配新任务 无需重复设计奖励或演示[17][18] - 奖励模型泛化能力达基准方法2.4倍 新任务适应效率在模拟环境中快2倍 真实世界场景下双手动策略性能提升5倍[20] ConRFT强化微调方法 - 采用离线行为克隆与Q学习结合在线一致性策略的两阶段训练 提升训练稳定性[23][25] - 在八项实际操作任务中平均成功率达96.3% 较监督学习方法提升144% 回合长度缩短1.9倍[28] RLDG数据优化策略 - 利用强化学习生成高质量训练数据微调通用策略 改善动作分布与状态覆盖[32][35] - 在精确操作任务中成功率最高提升40% 泛化能力优于人类演示训练策略[38] TGRPO在线优化方案 - 融合步骤级与轨迹级优势信号优化组级估计 增强在线强化学习训练适配性[38][41] - 在十个操作任务中性能超越监督微调与PPO基线 生成策略更稳健高效[43] iRe-VLAd迭代训练框架 - 通过强化学习与监督学习循环迭代解决训练不稳定与计算负担问题[44][46][48] - 在模拟基准和真实操作套件中验证有效性 实现交互场景下性能优化[50] RIPT-VLA后训练模式 - 基于稀疏二进制成功奖励进行交互式后训练 适配低数据环境[51][52][54] - 轻量级QueST模型成功率提升21.2% OpenVLA-OFT模型达97.5%成功率 仅需1次演示即可在15次迭代内实现97%成功率[56] 行业应用与趋势 - 研究聚焦机器人操控、导航中的策略泛化、动态环境适应及多模态信息对齐问题 覆盖家居家务、工业装配、机械臂操控等高频场景[57] - 部分研究开放项目代码 推动前沿技术落地应用[57]
3个月!完成你的具身大脑+小脑算法学习
具身智能之心· 2025-08-25 08:04
具身智能行业概述 - 具身智能强调智能体与物理环境的交互与适应 聚焦智能体在物理世界中感知环境、理解任务、执行动作并反馈学习的能力[1] - 具身智能的核心模块由大脑和小脑构成 大脑负责思考感知(语义理解和任务规划) 小脑负责执行(高精度运动执行)[1] 国内外产业布局 - 近2年具身明星团队陆续创业 成立星海图、银河通用、逐际动力等公司 推动具身本体和大小脑技术进步[3] - 华为2024年底启动"全球具身智能产业创新中心" 与乐聚机器人、大族机器人等企业合作建设具身智能大脑和小脑关键技术[5] - 京东自2025年5月以来连续投资智元机器人、千寻智能、逐际动力等公司 强化物流科技与家庭服务场景效率[5] - 腾讯、蚂蚁集团、小米等科技巨头通过战略投资与合作加快构建具身智能产业生态[5] - 国外Tesla/Figure AI推进工业与物流机器人应用 美国投资机构支持Wayve、Apptronik等公司落地自动驾驶与仓储机器人[5] - 国内企业以产业链投资与综合平台驱动具身智能落地 国外科技巨头侧重基础模型、模拟环境与类人机器人原型研发[5] 技术演进阶段 - 第一阶段聚焦抓取位姿检测 通过点云或图像预测末端执行器姿态实现静态物体抓取 但缺乏任务上下文和动作序列建模[6] - 第二阶段进入行为克隆阶段 借助专家演示数据学习从感知到控制的端到端映射 具备模仿人类完成复杂任务能力[6] - 第三阶段(2023年起)采用Diffusion Policy方法 通过扩散模型生成整个动作轨迹 提升策略稳定性与泛化能力[6] - 2024年进入Vision-Language-Action模型阶段 融合视觉感知、语言理解与动作生成模块 支持零样本或小样本快速泛化[6][7] - 第四阶段(2025年起)探索VLA模型与强化学习、世界模型、触觉感知等模块融合 提升长时任务试错能力与环境动态预测能力[8] 技术发展特征 - 从抓取位姿检测到行为克隆、扩散策略与VLA模型的演进 体现"低层感知->中层策略->高层理解"的能力补齐路径[9] - VLA+强化学习结合提升机器人试错能力与自我改进能力 VLA+世界模型引入环境动态预测 VLA+触觉信息拓展多模态融合感知边界[8] - 技术发展推动人形机器人、机械臂、四足机器人等产品落地 服务于工业、家居、餐饮、医疗康复等领域[9] 工程化需求 - 产业界推动具身智能从"论文"走向"部署" 对工程能力提出更高要求[12] - 需要在Mujoco/IsaacGym/Pybullet等平台完成策略训练与仿真测试[12] - 需要训练并部署Diffusion Policy/VLA/力触融合的VLA模型[12] - 需要实现强化学习在VLA后训练上的应用 支持机器人反馈微调[12] - 需要实现从世界建模预测→策略学习→物理执行的一体化具身智能架构[12]
浙大具身智能VLN+VLA统一框架:ODYSSEY
具身智能之心· 2025-08-25 08:04
ODYSSEY框架核心创新 - 提出分层视觉-语言规划器 将基于自我中心感知的长期指令分解为可执行动作 弥合自我中心感知与语言任务间差距 [4] - 设计首个适用于复杂地形的四足机器人全身控制策略 协调运动和操作 实现从模拟到现实的有效迁移 [4] - 构建首个长期移动操作基准测试 覆盖广泛现实世界室内外场景 提供语义推理/任务规划/导航/操作能力全面测试平台 [4] - 实现模拟到现实迁移 现实部署展现强大泛化能力和鲁棒性 验证非结构化环境部署可行性 [4] 研究背景与动机 - 移动操作在动态非结构化环境中至关重要 需结合移动性/操作/实时感知实现复杂任务如微妙调整位置抓取物体 [5] - 现有研究局限:大型语言模型多局限于桌面场景 未解决移动平台感知受限和执行器范围有限问题 [5] - 开放世界环境中操作策略泛化能力不足 非结构化环境中高平台机动性与精确末端执行器控制的双重需求研究不足 [5] - 研究动机为解决上述局限 提出统一移动操作框架实现四足机器人开放世界长期任务执行 [5] 技术架构设计 - 全身控制策略定义为单一网络 将观测向量映射到目标动作 观测包括运动指令/末端执行器目标/局部地面高度图/重力向量等 [9] - 输出动作为默认关节配置偏移量 通过PD控制器转换为扭矩 [9] - 全局规划器融合RGB和LiDAR流构建空-语义表示 利用预训练基础模型映射实例图 [10] - GPT-4.1分解自然语言指令为原子动作 输出粗略目标航路点 投影到2D占用图生成无碰撞目标姿态 [10] - Qwen2.5-VL-72B-Instruct根据RGB观测推断任务相关接触点 投影到深度图像恢复3D位置 根据几何约束确定末端执行器朝向 [10] 训练方法 - 采用两阶段训练:第一阶段固定机械臂关节训练静态负载运动 引入步态奖励和频率奖励改善探索效率 [11] - 第二阶段控制所有18个关节 扩展奖励函数包括末端执行器跟踪项 采用地形不变采样策略提高交互精度 [11] - 全程运用领域随机化增强不同负载适应性 [11] 基准测试构建 - 资产库包含50个刚体物体/15个容器/30个关节结构/10个可拖动物体 [20] - 10个真实场景涵盖室内家居/超市/餐厅/室外庭院等 [20] - 从物体布局/物理属性/环境条件/地形复杂性四维度引入变化确保泛化能力 [20] - 多阶段任务套件包括短期操作技能和长期移动操作任务 长期任务由2-3个子目标组成 共246个室内和58个室外变化 [20] - 模块化评估协议同时评估整体任务成功率和每个动作成功率 [20] 性能评估结果 - 短期任务评估显示在所有数据集实现显著改进 仅依赖单个自我中心摄像头下优于PerAct的精细操作能力 [17] - 在未见数据集上性能保持稳定 PerAct性能急剧下降 表明具备处理未见物体配置的泛化能力 [17] - 长期任务评估涵盖8个移动操作任务 整体成功率均达40%以上 原子技能成功率保持60%以上 [19][29] - 导航成功率表现优异:室内导航成功率97.4%-98.4% 室外导航成功率95.6% [19] - 抓取成功率72.7%-85.0% 放置成功率76.5%-96.8% 推/拉操作成功率71.0%-94.1% [19] 模拟到现实迁移 - 使用Unitree Go2四足机器人和Arx5机械臂构建平台 配备MID-360 LiDAR定位和D435i/D405 RealSense相机 [36] - 现实世界测试两个长期任务("导航到抓取"和"抓取和放置") 使用五种不同物体 [36] - 成功实现任务规划和执行从模拟到现实的迁移 [37] - 存在模拟到现实差距:抓取小物体时因末端执行器跟踪和视觉感知不准确导致失败 [37] 未来发展方向 - 将基准测试扩展为全面评估范式 评估视觉-语言模型和移动操作器的跨体现语义推理和运动-操作协调能力 [38] - 探索主动感知新兴能力 使动态场景理解和自适应运动协同作用 实现更有效现实世界交互 [38] - 解决杂乱非结构化环境中新行为 进一步弥合高层规划和低层控制间差距 [38]
具身智能之心人形机器人交流群成立啦~
具身智能之心· 2025-08-24 21:22
行业动态 - 具身智能领域正积极组建人形机器人技术交流群 旨在促进相关技术方向的专业交流与合作 [1] - 交流群重点关注人形运控 VLA模型 数据采集及硬件等核心技术创新领域 [1] - 行业通过专业社群形式整合技术资源 推动人形机器人产业链上下游协同发展 [1][2]
就在明天!英伟达具身机器人“新大脑”即将揭晓
具身智能之心· 2025-08-24 20:36
英伟达机器人技术发布 - 英伟达预告2025年8月25日发布机器人相关产品 配图为黑色礼盒和签名贺卡 [2] - 黄仁勋在预告视频中表示"致机器人:好好享受你的新大脑吧" 并展示人形机器人阅读贺卡场景 [4] 物理AI技术进展 - 英伟达在SIGGRAPH会议发布开源物理AI应用和视觉推理模型Cosmos Reason 使机器人能基于知识进行人类式推理并执行现实行动 [4] - 视觉推理模型案例:机器人手臂根据"面包+烤面包机"场景推断出需将面包放入烤面包机 并将逻辑转化为操作指令 [5] - 物理AI定义为使用运动技能理解并交互现实世界的模型 通常封装于机器人或自动驾驶汽车等自主机器中 [6] - 物理AI使自主机器能感知、理解并执行复杂现实世界操作 [6] 行业趋势与市场前景 - 英伟达高管称物理AI将撬动万亿美元级市场 [7] - 机器人产业在技术迭代、场景落地和行业标准方面取得进展 国内外迎来密集催化 [7] - 华为、字节、比亚迪、小米、广汽等国内企业加码具身智能 特斯拉、1X、Figure AI等海外企业加速商业化量产 [7] - 人形机器人进入工业场景成为国内外确定性较高的应用趋势 商业化落地可期 [7] 技术范式演进 - 黄仁勋提出AI经历三代范式转移:从意识AI到生成式AI 再到代理式AI 下一波浪潮将是物理AI(机器人时代) [6]
具身真实场景的机器人数据集汇总
具身智能之心· 2025-08-23 00:03
具身智能机器人数据集汇总 - BRMData:专注于家庭任务的双臂移动机器人操作数据集 [4] - AgiBot World Colosseo:为可扩展智能具身系统打造的大规模操作平台 [4] - RoboMIND:面向机器人操作的多模态智能基准规范数据 [4] - OpenX‑Embodiment:包含机器人学习数据集和RT‑X模型 [4] - DROID:大规模真实世界机器人操作数据集 [5] - RH20T:用于一次性学习多样化技能的综合性机器人数据集 [5] - BridgeDataV2:旨在实现规模化机器人学习的数据集 [5] - RT‑2:作为高效机器人模仿者的视觉语言基础模型 [5] - RT‑1:用于大规模真实世界控制的机器人Transformer模型 [6] - Bridge Data:通过跨领域数据集提升机器人技能泛化能力 [7] - BC-Z:通过机器人模仿学习实现零样本任务泛化 [7] 具身智能开发者社区 - 具身智能之心知识星球是国内首个具身智能全栈学习社区 [2][10] - 社区关注领域包括数据集、仿真平台、VLA、VLN、大模型、机器人控制等方向 [10] - 社区内部汇总了近30条学习路线、40多个开源项目及近60个具身智能相关数据集 [10] - 已有近200家公司和机构加入社区进行学术与产业交流 [10] 技术交流社群 - 具身智能之心社群覆盖大模型、VLN、VLA、机器人仿真、产品开发等60多个技术方向 [13] - 目前拥有近60个技术交流群 用户可根据学校/公司及研究方向申请加入 [13]
ICCV 2025 | 打造通用工具智能体的基石:北大提出ToolVQA数据集
具身智能之心· 2025-08-23 00:03
数据集概述 - 提出ToolVQA数据集 包含23,655条样本 专为多模态多步骤推理任务设计[2][3][7] - 覆盖10种多模态工具和7类任务领域 每条样本平均涉及2.78步工具调用[3][22] - 采用真实世界图像场景 包括新闻图片/电商场景/考试题图等多源类型[15] 技术创新 - 开发ToolEngine自动生成框架 通过深度优先搜索(DFS)模拟人类工具调用链条[17][18] - 引入动态上下文示例匹配机制(LCS) 实现非模板化的灵活路径组合[19] - 全自动生成流程无需人工标注 数据构建准确率达90.8%[15][20] 性能表现 - 微调后的LLaVA-7B模型在ToolVQA测试集上超越GPT-3.5-Turbo[24] - 在分布外数据集TextVQA准确率达47% 显著高于GPT-3.5-Turbo的36.3%[25] - 小样本学习实验中 10-shot设定下微调模型准确率达20.69%[26] 应用价值 - 支持文本与图像双模态输入输出 平均查询长度15.7词 答案长度2.7词[22] - 涵盖OCR/图像字幕生成/区域描述/绘图/计算器等10类工具[15][22] - 为多模态工具智能体研究提供系统性训练与评估基准[31] 局限性分析 - 参数预测错误率较高 如关键信息遗漏导致工具返回无关内容[27] - 答案整合存在缺陷 模型可能错误选择工具返回的正确信息[27] - 多步推理中存在误差累积效应 早期错误会导致后续连锁失败[27]
又帮到了一位同学拿到了VLA算法岗......
具身智能之心· 2025-08-23 00:03
具身智能行业发展趋势 - 具身智能行业处于早期发展阶段 对标自动驾驶行业2017-2018年阶段 仍存在窗口期机会 [83] - 技术发展重点从传统SLAM转向大模型和端到端方案 传统机器人从业者与具身感知技术派系分化明显 [83] - 行业平均薪资水平较高 初创公司1-2年工作经验人员总包可达70-80万 但稳定性较差 [83] 技术发展重点 - 视觉语言模型(VLA)和视觉语言动作模型(VLA)成为技术热点 应用涵盖机器人抓取与规划任务 [2][58] - 强化学习与VLA结合(VLA+RL)成为重要技术方向 [40][42] - 多模态大模型技术快速发展 涵盖理解与生成两大方向 包括Image+Text到Text等多种模态组合 [52][54] - 仿真技术(sim2real)和数据采集成为关键环节 存在real2sim2real等解决方案 [2][66] 人才需求与就业情况 - 企业招聘偏好有实习经验的候选人 机器人创业公司普遍要求实习经历 [81] - 自动驾驶领域人才向具身智能领域迁移 技术栈通用性较高 [80][83] - 算法岗位需求旺盛 VLA算法岗位薪资较高 某案例显示强化学习岗位薪资达(N+6000)*15水平 [1][81] 技术社区生态 - 具身智能之心知识星球为国内首个具身全栈技术社区 成员近2000人 目标2年内达到近万人规模 [1][16] - 社区汇聚40+开源项目 60+数据集 30+技术路线 覆盖感知、交互、导航等全方位技术领域 [16] - 社区成员来自斯坦福大学、清华大学等顶尖高校和智元机器人、优必选等头部企业 [16] - 建立企业内推机制 与多家具身公司合作提供岗位对接服务 [10] 技术资源体系 - 汇总国内外40+高校实验室资源 提供读研、申博参考 [18][20] - 汇总国内外具身机器人公司 涵盖教育、工业、医疗等多个应用方向 [21] - 整理机器人相关书籍 包括导航、动力学、运动学等基础学习资料 [26] - 汇集零部件制造厂商信息 涵盖芯片、激光雷达、相机等核心部件 [28] 技术应用方向 - 视觉语言导航成为自动驾驶与机器人的重要应用领域 [48] - 触觉感知为前沿应用方向 包括传感器应用和多模态算法集成 [50] - 机械臂技术涵盖抓取、位姿估计和策略学习等多个环节 [69] - 双足与四足机器人技术发展迅速 提供从零搭建机器人的完整方案 [71] 学习与培训体系 - 为入门者提供完整技术栈和学习路线 [11] - 为从业者提供产业体系和项目方案 [13] - 社区提供问答交流、直播分享等多元学习方式 [76][78] - 建立专家答疑机制 数十位产业界和工业界大佬提供技术支持 [2]
小模型也能超越GPT-4o!邱锡鹏团队WAP框架打造「世界感知」智能体
具身智能之心· 2025-08-22 08:04
核心观点 - 大规模视觉语言模型在具身规划任务中存在处理复杂场景的困难 但环境感知规划叙事增强框架通过四项认知能力注入全面环境理解 显著提升任务成功率 并在基准测试中超越专有系统 [2][6] 技术框架 - 环境感知规划叙事增强框架整合视觉外观建模 空间推理 功能抽象和语法接地四项认知能力 为模型提供全面环境理解 [2] - 仅通过课程学习使用原始视觉观测数据来开发和评估模型 不依赖与环境无关的模仿学习 [2] 性能表现 - 在EB-ALFRED基准测试中 Qwen2.5-VL实现60.7%的绝对任务成功率提升 [2] - 常识推理方面提升60.0% 长周期规划方面提升70.0% [2] - 增强后的开源模型大幅超越GPT-4o和Claude-3.5-Sonnet等专有系统 [2] 模型参数 - 框架将7B参数模型任务成功率提升60.7% [6] 应用领域 - 多模态模型在具身规划任务面临严峻挑战 该研究为具身规划带来新的可能 [6] - 研究涉及从视觉到行动的创新框架 突破多模态模型的具身规划瓶颈 [7]
3个月!搞透VLA/VLA+触觉/VLA+RL/具身世界模型等方向!
具身智能之心· 2025-08-22 08:04
具身智能技术演进 - 技术发展经历了四个阶段:从抓取位姿检测(单步决策缺乏任务上下文建模)到行为克隆(端到端模仿但泛化能力弱),再到2023年Diffusion Policy(扩散模型生成动作轨迹提升稳定性与泛化能力),最终进入2024年Vision-Language-Action模型阶段(多模态协同支持零样本泛化)[6][7] - 2025年技术探索聚焦VLA模型与强化学习、世界模型、触觉感知的融合,以弥补"只能理解不能反馈""只能关注当下不能看见未来""只能看不能触"的局限[8] - 技术演进路径体现从"低层感知->中层策略->高层理解"的能力补齐,逐步迈向通用任务和开放环境智能体时代[9] 产业生态与竞争格局 - 国内企业如华为2024年底启动"全球具身智能产业创新中心"并与乐聚机器人、大族机器人合作建设大脑与小脑关键技术;京东自2025年5月连续投资智元机器人、千寻智能、逐际动力以强化物流与家庭服务场景能力;腾讯、蚂蚁、小米等通过战略投资加快生态构建[5] - 国外企业如Tesla/Figure AI聚焦工业与物流机器人应用;美国投资机构支持Wayve、Apptronik等公司落地自动驾驶与仓储机器人[5] - 国内以产业链投资与综合平台驱动落地,国外侧重基础模型、模拟环境与类人机器人原型研发,双方进入关键竞赛阶段[5] 应用场景与商业化进展 - 技术发展推动人形机器人、机械臂、四足机器人等产品在工业、家居、餐饮、医疗康复等领域落地,相关产品和融资活动活跃[9] - 岗位需求呈现爆发式增长,吸引大量人员转入具身智能领域研究[9] 技术体系与学习框架 - 具身智能核心模块分为大脑(语义理解与任务规划)和小脑(高精度运动执行),需系统学习灵巧操作、移动操作、仿真框架、Diffusion Policy、VLA及融合技术[1][20] - 主流仿真框架包括Mujoco(生态系统架构与接口)、Isaac Gym(数据采集与可视化)、Pybullet(数据集与接口)[21] - 关键技术方法涵盖Diffusion Policy数学原理与3D点云融合、VLA模型(OpenVLA/PI0/SmolVLA架构与性能对比)、VLA+强化学习/触觉/世界模型的融合方案[21]