Workflow
具身智能之心
icon
搜索文档
从方法范式和应用场景上看强化与VLA/Flow Matching/机器人控制算法
具身智能之心· 2025-08-19 09:54
方法范式 - 传统强化学习(RL)和模仿学习结合Sim2Real技术,方法包括DQN/PPO/SAC/D4PG/GRPO等,主流仿真环境有Mujoco、Gazebo、Bullet、IssacSim/IssacGym [5] - Diffusion Policy和VLA模型与传统RL的根本区别在于用训练数据分布描述任务目标,而非依赖reward function,适合复杂任务如叠衣服、收拾桌面等 [4] - OpenVLA模型整合多模态输入,基于7B参数的Llama 2语言模型,结合DINOv2和SigLIP视觉编码器 [7] - RDT(Robotic Decision Transformer)采用Goal-Conditioned设计,在AGIBot百万真机数据集上训练 [9] - pi-0引入动作抽象层,将不同机器人关节空间映射到统一潜空间,缓解本体差异问题 [13] - 流匹配(Flow Matching)建模从标准正态分布到复杂目标数据分布的映射,用于生成机器人动作序列 [15][17][18] 技术实现 - 基础运动控制(如人形/四足机器人)以RL+sim2real为主,模型较小,算力消耗低,但全场景丝滑动作仍有差距 [22] - 复杂/长程操作任务采用预训练ViT编码器+LLM,使用diffusion/流匹配/transformer decoder输出动作,通过预训练+微调实现跨机器人泛化 [23] - 宇树官方demo基于IssacGym和PPO算法 [24] - 北京亦庄人形机器人中心开源强化学习运动控制,基于IssacLab融合人体运动数据与AMP奖励,实现天工Ultra机器人21公里奔跑 [24] - pi0预训练阶段利用10,000小时多机器人数据,微调阶段需1-5小时到上百小时任务数据,模型规格为33亿参数 [25] - Google Gemini Robotics采用云端VLA骨干(160毫秒延迟)和本地动作解码器的快慢架构 [25][26] 数据集 - Open X-Embodiment数据集包含1M+ trajectories、500+ skills、22种机器人类型,统一为RLDS格式 [21] - AGIBot数据集为智元机器人开源的百万真机数据集 [9][24] - EgoDex数据集包含829小时人类操作视频,338K轨迹/194任务 [24] 应用场景 - 基础运动控制依赖仿真器、机器人模型和domain randomization设计,reward shaping和sim2real技术 [35] - 复杂长程任务依赖VLA和Diffusion/FM,用训练数据分布描述任务目标,语言索引任务分布 [35] - 任务过程和目标定义方面,强化学习通过reward函数,VLA用数据分布描述,未来可能通过多模态输入预测任务目标 [35] - 底层控制任务适合RL+sim2real,上层复杂任务适合VLA+数据,如叠衣服、收拾桌面等需要理解人类意图的任务 [40]
一个集视频 /图文/学习路线/问答/求职交流为一体的具身社区
具身智能之心· 2025-08-19 09:54
社区规模与定位 - 具身智能之心知识星球是国内首个具身全栈技术社区 集视频 图文 学习路线 问答 求职交流为一体 目前近2000人 目标2年内达到近万人规模 [1][3] - 社区成员覆盖斯坦福大学 加州大学 清华大学 西湖大学 上海交大 智元机器人 有鹿机器人 优必选等40余家顶尖高校和头部企业 [17] 技术资源体系 - 汇总40+开源项目 60+具身智能数据集 行业主流仿真平台及20余种技术学习路线 包括具身感知 强化学习 VLA 多模态大模型等方向 [17][18] - 整理近30+技术路线 涵盖benchmark 综述 入门指南 并邀请数十位产业界与工业界嘉宾提供一线指导 [4][9] - 提供机器人导航 概率机器人 动力学与运动学等基础学习书籍 以及ToF相机 数据采集方案 触觉感知等专项技术资源 [28][34][36] 行业研究内容 - 汇总国内外具身智能高校实验室与公司 涉及教育 宠物 工业 救援 物流 交互 医疗等多个领域 [20][23] - 整合IFR-2024世界机器人报告 GTC大会 2024中国具身智能创投报告等10余份行业研报 跟踪技术发展与商业化进展 [25][27] - 梳理机器人零部件制造厂商 包括芯片 激光雷达 相机 IMU等核心部件品牌信息 [30] 社区活动与服务 - 每周举办圆桌论坛与直播 覆盖灵巧手 agent 数采 具身本体等主题 并计划拓展具身大脑+小脑算法技术分享 [1][4] - 建立岗位内推机制 与多家具身公司合作 提供求职对接服务 第一时间推送招聘岗位 [11][21] - 社区内实时解答技术问题 包括设备使用 数据采集 VLA模型部署等实操性难题 [1][3] 成员互动案例 - 为研一学生提供实习建议 推荐Isaac Sim仿真项目 指导项目问题总结与解决方案 [77] - 指导自动驾驶VSLAM工程师转向视觉语言导航或DL-based SLAM方向 利用现有技术栈平滑过渡 [78] - 为研三SLAM方向学生提供职业规划建议 分析智驾与具身行业薪资差异及转方向可行性 [80][81][84]
足球还是靠机器人吧!首届机器人运动会闭幕:票价终究保守了
具身智能之心· 2025-08-19 09:54
编辑丨 量子位 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 男篮亚洲杯中国队1分憾负澳大利亚,但另一边绿茵场上,中国机器人传来好消息: 1-0战胜人形机器人版德国战车,再次将世界冠军收入囊中。 获得胜利的是清华火神队。 只见身穿红色队服的火神队1号一脚大力抽射,足球命中德国队球员坚硬的后脚跟,直接回弹入网! 这一波啊,其实战术是翻袋(doge)。 一记乌龙球,奠定这场5v5机器人足球赛最终的胜负之势。而这样的让观众们一边鼓掌欢呼一边忍俊不禁的场面,亦是本届 世界人形机器人运 动会 的小小缩影。 怎么说?值此闭幕之际,一起来复盘一波机器人冠军们的 鬼畜 名场面吧~ 名场面,够帅也够鬼畜 首先来看宇树7块金牌之一的100米障碍赛。 G1跨栏动作一出,现场欢呼声之巨,毫不逊于人类运动会。 最终,宇树以 33.71秒 的成绩拿下这项比赛的冠军。 但其实嘛,是有机会更快的,如果不是…… 画面转到自由搏击赛场,决赛选手这架势确实帅气,看后边蓝衣服大哥的反应就知 ...
哈工深提出UAV-ON:开放世界空中智能体目标导向导航基准测试
具身智能之心· 2025-08-19 09:54
研究背景 - 提出首个大规模开放世界环境中基于语义目标指令的无人机目标导航基准UAV-ON,定义超过11000个导航任务,涵盖14个高保真户外场景 [2] - 现有无人机导航研究多依赖视觉语言导航(VLN)范式,限制其在开放世界环境中的可扩展性和自主性 [2] - 目标导航(ObjectNav)仅基于语义线索定位目标物体,但在大规模非结构化户外环境中的空中导航潜力尚未充分探索 [2] 任务定义 - UAV-ON定义开放世界环境中的实例级目标导航任务,无人机需根据语义指令导航到目标物体 [5] - 任务要求无人机在复杂真实环境中执行离散参数化动作,处理障碍物规避和碰撞动力学等现实挑战 [2] 环境感知与动作空间 - 无人机配备多视角RGB-D相机(前方、左方、右方和下方),获取多模态观测,不依赖全局定位信号如GPS [7] - 动作空间采用参数化设计,包括平移(前进、左移、右移、上升、下降)、旋转(左转、右转)和停止 [7][14] - 动作物理执行并需通过碰撞检测,任何与障碍物接触视为失败 [14] UAV-ON基准 - 包含14个高保真户外环境,涵盖村庄、城镇、城市、公园等多样化景观 [12] - 目标物体放置采用基于提示的对象映射策略,利用大型语言模型生成候选物体并手动筛选 [12] - 场景水平尺度从350×250到1400×1250单位,共放置1270个目标物体,覆盖约900万平方单位区域 [15] 数据集分析 - 训练集使用10个环境生成10000个导航episode,测试集包含1000个episode分布在10个训练环境和4个额外环境 [15] - 评估指标包括成功率(SR)、Oracle成功率(OSR)、成功距离(DTS)和路径长度加权成功率(SPL) [15] 基线方法与实验结果 - 基线方法包括随机策略(Random)、基于CLIP的启发式探索(CLIP-H)和空中目标导航智能体(AOA) [15] - AOA-V在Oracle成功率(OSR)上表现最佳,但成功率(SR)和SPL较低 [16] - AOA-F在成功率(SR)和SPL上表现更一致,但探索范围略逊于AOA-V [17] - CLIP-H在SPL上表现较好,但对语义目标理解有限 [17] - 随机策略在所有指标上表现最差 [17] 终止行为与安全导航 - AOA-V探索能力强但停止动作不稳定,AOA-F运动和停止动作较平衡但接近障碍物时易失败 [20] - CLIP-H停止动作可靠性高但探索不够积极,随机策略无目标意图表现最差 [20] - 所有方法碰撞率超过30%,与现实世界无人机安全运行要求存在显著差距 [20] 结论与未来工作 - UAV-ON验证了语义推理、障碍物感知探索和目标定位的复合挑战 [24] - 需开发更安全可靠的控制策略以满足复杂环境中无人机自主运行需求 [24]
2025世界人形机器人运动会:从赛场到市场,优理奇机器人两金一银背后的商业化布局
具身智能之心· 2025-08-18 19:32
赛事概况 - 2025年世界人形机器人运动会于8月17日闭幕,包含26个赛项和487场竞技对决[1] - 世界人形机器人运动联合会(WHRGF)正式成立,第二届赛事将于2026年8月在北京举办[1] - 宇树科技以11枚奖牌(4金3银4铜)位居奖牌榜首位,北京人形以10枚奖牌(2金6银2铜)位列第二[2] - 优理奇科技(UniX AI)以2金1银共3枚奖牌位列总奖牌榜第三名[3] 优理奇科技赛事表现 - 在酒店迎宾服务和酒店清洁服务两个赛项中获得金牌,酒店清洁服务获得银牌[3] - 采用Wanda系列通用人形机器人参赛,具备长序列推理能力和全自主完成能力[10] - 在严苛赛制下(360°无死角评测、全程自主执行)成功完成长序列任务[9] 技术优势 - 自研三位一体算法:UniFlex(可泛化模仿学习框架)、UniTouch(全球首个融合触觉的多模态感知模型)、UniCortex(长程任务规划推理架构)[12] - 硬件创新:自主研发8自由度机械臂(超越人类手臂7自由度设计)、轻量化大扭矩关节模组[13] - 机械臂重复定位精度高、响应速度快,支持复杂空间路径规划和末端姿态控制[13] - Wanda机器人热身两天即实现泛化抗干扰,适应现场光照变化和人物干扰[10] 商业化进展 - 轮式双臂机器人于2025年2月开始量产交付,在商业/安保/娱乐/服务及C端完成超千万元订单和数百万回款[15] - 已正式上线京东平台,入门版本售价8.8万元,配置京东大模型版本售价9.9万元[21][22] - 与酒店集团、物业公司、养老社区等B端合作伙伴拓展合作[21] 应用场景 - 酒店服务:可完成迎宾引导、清洁整理等全流程服务,无需额外硬件改造[17] - 养老服务:具备算法和力控优势,可完成家务型任务并提供老人陪伴与基础照护[19] - 未来可能扩展至零售、教育、医疗和工业运维等领域[24] 团队与研发 - 2024年4月组建团队,拥有50余位全球顶尖研发人员(发表400余篇顶会论文)和20余位行业领军者[15] - 创始人杨丰瑜为耶鲁大学博士,全球首个触觉融合多模态大模型UniTouch第一作者[15] - 首席科学家王贺升为上海交大电气学院副院长、国家杰青,机器人领域顶尖专家[15] - 已开发两代轮式双臂机器人Wanda和双足灵巧手版本机器人Martian[15]
VLA/强化学习/VLN方向的论文辅导招募!
具身智能之心· 2025-08-18 14:00
具身智能论文辅导服务 - 提供1v1论文辅导服务 目前开放3个名额 方向包括vla 强化学习 sim2real [1] - 目标会议涵盖CVPR ICCV ECCV ICLR CoRL ICML ICRA等顶级学术会议 [1] - 辅导老师具备具身学术领域活跃研究经验 能够提供创新性研究思路 [1] 服务咨询方式 - 可通过添加微信oooops-life进行咨询 [2] - 支持扫码直接联系 需备注"具身论文辅导咨询" [2]
近2000人了,这个具身智能社区竟然私藏了这么多东西......
具身智能之心· 2025-08-18 14:00
社区规模与定位 - 具身智能之心知识星球是国内首个具身全栈技术社区 集视频、图文、学习路线、问答、求职交流为一体 目前成员近2000人 目标未来2年内达到近万人规模 [1][3][18] - 社区成员覆盖国内外知名高校和头部企业 高校包括斯坦福大学、加州大学、清华大学、西湖大学、上海交大等 企业包括智元机器人、有鹿机器人、优必选、小米、逐际动力等 [18] 技术内容体系 - 汇总40+开源项目、60+具身智能数据集、行业主流仿真平台及技术学习路线 [18] - 覆盖30+技术路线 包括具身感知、强化学习、VLA模型、Diffusion Policy、多模态大模型、机器人导航等 [4][18][42][46][48][54][56] - 提供具体技术解决方案 包括数据采集、模型部署、sim2real、分层决策、机械臂抓取等 [1][8][69] 行业资源整合 - 汇总国内外具身智能高校实验室和机器人公司 涉及教育、工业、医疗、物流等多个领域 [21][23] - 整合行业研报、机器人书籍、零部件品牌(芯片、激光雷达、相机等)、ToF与3D相机资源 [25][28][30][34] - 建立企业内推机制 与多家具身公司合作提供岗位对接 [10][19] 社区活动与服务 - 定期举办圆桌论坛和直播 主题涵盖本体、数据、算法等前沿技术 [1][4][74] - 提供个性化问题解答 包括设备使用、数据采集、项目部署、研究方向选择等 [1][77][79][80][82] - 为不同阶段成员提供支持 包括小白入门技术栈、产业项目方案、学术与工业进展同步 [13][15][19] 典型用户案例 - 自动驾驶SLAM工程师寻求向具身智能转型 建议关注视觉语言导航和深度学习化SLAM方向 [80] - 研三学生面临职业选择 社区提供具身感知、强化学习等技术转型路径及行业窗口期分析 [82][83] - 研一学生寻求仿真环境项目建议 社区推荐Isaac Sim框架及项目问题解决经验包装 [79]
VLA+RL还是纯强化?从200多篇工作中看强化学习的发展路线
具身智能之心· 2025-08-18 08:07
视觉强化学习综述 核心观点 - 该综述对视觉强化学习(VRL)领域进行系统性梳理,整合200+篇研究成果,提出四大主题支柱:多模态大型语言模型、视觉生成、统一模型框架和视觉-语言-动作模型,并分析算法设计、奖励工程及评估协议 [5] - 强调强化学习在视觉任务中的关键作用,包括跨模态对齐、长序列优化及可验证奖励设计,同时指出开放挑战如推理效率、长视野信用分配等 [47] 研究框架 强化学习范式 - **RLHF(基于人类反馈的强化学习)**:通过三元组偏好数据训练奖励模型,结合PPO优化策略,三阶段流程(监督预训练→奖励建模→策略优化)成为主流 [10] - **DPO(直接偏好优化)**:绕过奖励建模环节,直接通过封闭式监督目标优化策略,降低计算成本 [11] - **RLVR(带可验证奖励的强化学习)**:用确定性验证信号(如代码测试结果)替代人类偏好,提升客观性 [12] 策略优化算法 - **PPO(近端策略优化)**:通过重要性采样和广义优势估计实现稳定策略更新,依赖精确奖励模型 [15] - **GRPO(群体相对策略优化)**:利用群体归一化优势信号替代价值网络,降低内存消耗并提升训练稳定性 [16] 应用领域 多模态大型语言模型 - **传统方法**:通过GRPO/PPO将视觉-语言模型与可验证奖励对齐,如RePIC、GoalLadder等 [17] - **空间感知**:2D任务(目标检测、分割)和3D任务(布局推理)均采用规则驱动奖励和KL正则化微调 [18] - **视频推理**:分层奖励设计(如VQ-Insight)和时间衰减回报(如TW-GRPO)解决长序列挑战 [20] 视觉生成 - **图像生成**:DiffPPO等结合扩散模型与感知奖励(如ImageReward),提升生成质量 [21] - **3D生成**:DreamCS等通过渲染-比较循环优化几何结构,强化学习实现标准方法难以达到的保真度 [24] 视觉-语言-动作模型 - **GUI自动化**:规则驱动奖励(如GUI-R1)和群体归一化更新(如UIShift)推动跨平台交互 [28] - **视觉导航**:OctoNav-R1等结合第一人称视觉与低级动作控制,通过混合强化学习管道提升泛化性 [29] 评估体系 - **多模态模型**:结合外部基准(如MME)、人类偏好奖励和KL散度监控 [35] - **视觉生成**:FID/CLIP Score等传统指标与去噪轨迹诊断结合 [36] - **GUI任务**:在线成功率与逐步奖励设计(如Mind2web)平衡稀疏信号问题 [39] 未来方向 - **自适应推理**:通过终止评论者动态平衡深度与效率 [43] - **长视野优化**:子目标发现与对比视觉-语言评论者缓解稀疏奖励问题 [44] - **奖励模型设计**:需开发抗攻击、跨模态且用户可定制的综合奖励函数 [46]
具身智能之心灵巧手与触觉感知交流群来啦!
具身智能之心· 2025-08-18 08:07
具身智能技术交流群成立 - 具身智能领域聚焦心灵巧手与触觉感知技术 成立专业交流群 涵盖灵巧手相关运控 算法 硬件 VTLA等技术方向 [1] - 交流群目标为促进产业与学术结合 推动工程落地实践 形成技术协同效应 [1] - 入群方式需通过指定微信账号申请 备注需包含灵巧手关键词及个人昵称信息 [2]
VLA/VLA+触觉/VLA+RL/具身世界模型等方向教程来啦!
具身智能之心· 2025-08-18 08:07
具身智能概述 - 具身智能强调智能体与物理环境的交互与适应 聚焦于感知环境 理解任务 执行动作并反馈学习的能力 [1] - 具身智能的核心模块分为大脑(语义理解与任务规划)和小脑(高精度运动执行) 类比人类神经系统结构 [1] 产业动态 - 近2年星海图 银河通用 逐际动力等明星团队从实验室走向商业化 推动本体与大小脑技术进步 [3] - 国内华为2024年启动"全球具身智能产业创新中心" 联合乐聚机器人 大族机器人攻关关键技术 [5] - 京东2025年起连续投资智元机器人 千寻智能 逐际动力 强化物流与家庭服务场景能力 [5] - 国际方面Tesla/Figure AI聚焦工业物流机器人 Wayve/Apptronik获资本支持发展自动驾驶与仓储机器人 [5] 技术演进路径 - **第一阶段**:抓取位姿检测(Grasp Pose Detection) 通过点云/图像预测末端执行器姿态 但缺乏任务上下文建模 [6] - **第二阶段**:行为克隆(Behavior Cloning) 通过专家数据学习端到端映射 存在泛化能力弱 误差累积问题 [6] - **第三阶段**:2023年Diffusion Policy引入序列建模 2024年VLA模型实现多模态协同 支持零样本泛化 [7] - **第四阶段**:2025年探索VLA与强化学习 世界模型 触觉感知融合 解决反馈 预测与触觉局限 [8] 应用与产品 - 技术演进推动人形机器人 机械臂 四足机器人在工业 家居 餐饮 医疗等场景落地 [9] - 行业岗位呈现爆发式增长 吸引大量从业者转入具身智能领域 [9] 技术体系与课程 - 课程系统梳理大脑+小脑技术路线 涵盖灵巧手 移动操作 人形机器人方法 [15] - 包含主流仿真框架配置 DP/VLA/VLA+RL/VLA+触觉等方法详解 以及世界模型下一代范式 [15] - 实践环节覆盖Sim2Real演进 IsaacGym/Mujoco仿真环境 Diffusion Policy代码实战 VLA模型训练等 [21] - 目标群体包括具身算法从业人员 研究方向学生 以及传统CV/自动驾驶转行者 [24][29]