Workflow
具身智能之心
icon
搜索文档
VLA/强化学习/VLN方向的论文辅导招募!
具身智能之心· 2025-08-18 14:00
具身智能论文辅导服务 - 提供1v1论文辅导服务 目前开放3个名额 方向包括vla 强化学习 sim2real [1] - 目标会议涵盖CVPR ICCV ECCV ICLR CoRL ICML ICRA等顶级学术会议 [1] - 辅导老师具备具身学术领域活跃研究经验 能够提供创新性研究思路 [1] 服务咨询方式 - 可通过添加微信oooops-life进行咨询 [2] - 支持扫码直接联系 需备注"具身论文辅导咨询" [2]
近2000人了,这个具身智能社区竟然私藏了这么多东西......
具身智能之心· 2025-08-18 14:00
社区规模与定位 - 具身智能之心知识星球是国内首个具身全栈技术社区 集视频、图文、学习路线、问答、求职交流为一体 目前成员近2000人 目标未来2年内达到近万人规模 [1][3][18] - 社区成员覆盖国内外知名高校和头部企业 高校包括斯坦福大学、加州大学、清华大学、西湖大学、上海交大等 企业包括智元机器人、有鹿机器人、优必选、小米、逐际动力等 [18] 技术内容体系 - 汇总40+开源项目、60+具身智能数据集、行业主流仿真平台及技术学习路线 [18] - 覆盖30+技术路线 包括具身感知、强化学习、VLA模型、Diffusion Policy、多模态大模型、机器人导航等 [4][18][42][46][48][54][56] - 提供具体技术解决方案 包括数据采集、模型部署、sim2real、分层决策、机械臂抓取等 [1][8][69] 行业资源整合 - 汇总国内外具身智能高校实验室和机器人公司 涉及教育、工业、医疗、物流等多个领域 [21][23] - 整合行业研报、机器人书籍、零部件品牌(芯片、激光雷达、相机等)、ToF与3D相机资源 [25][28][30][34] - 建立企业内推机制 与多家具身公司合作提供岗位对接 [10][19] 社区活动与服务 - 定期举办圆桌论坛和直播 主题涵盖本体、数据、算法等前沿技术 [1][4][74] - 提供个性化问题解答 包括设备使用、数据采集、项目部署、研究方向选择等 [1][77][79][80][82] - 为不同阶段成员提供支持 包括小白入门技术栈、产业项目方案、学术与工业进展同步 [13][15][19] 典型用户案例 - 自动驾驶SLAM工程师寻求向具身智能转型 建议关注视觉语言导航和深度学习化SLAM方向 [80] - 研三学生面临职业选择 社区提供具身感知、强化学习等技术转型路径及行业窗口期分析 [82][83] - 研一学生寻求仿真环境项目建议 社区推荐Isaac Sim框架及项目问题解决经验包装 [79]
VLA+RL还是纯强化?从200多篇工作中看强化学习的发展路线
具身智能之心· 2025-08-18 08:07
视觉强化学习综述 核心观点 - 该综述对视觉强化学习(VRL)领域进行系统性梳理,整合200+篇研究成果,提出四大主题支柱:多模态大型语言模型、视觉生成、统一模型框架和视觉-语言-动作模型,并分析算法设计、奖励工程及评估协议 [5] - 强调强化学习在视觉任务中的关键作用,包括跨模态对齐、长序列优化及可验证奖励设计,同时指出开放挑战如推理效率、长视野信用分配等 [47] 研究框架 强化学习范式 - **RLHF(基于人类反馈的强化学习)**:通过三元组偏好数据训练奖励模型,结合PPO优化策略,三阶段流程(监督预训练→奖励建模→策略优化)成为主流 [10] - **DPO(直接偏好优化)**:绕过奖励建模环节,直接通过封闭式监督目标优化策略,降低计算成本 [11] - **RLVR(带可验证奖励的强化学习)**:用确定性验证信号(如代码测试结果)替代人类偏好,提升客观性 [12] 策略优化算法 - **PPO(近端策略优化)**:通过重要性采样和广义优势估计实现稳定策略更新,依赖精确奖励模型 [15] - **GRPO(群体相对策略优化)**:利用群体归一化优势信号替代价值网络,降低内存消耗并提升训练稳定性 [16] 应用领域 多模态大型语言模型 - **传统方法**:通过GRPO/PPO将视觉-语言模型与可验证奖励对齐,如RePIC、GoalLadder等 [17] - **空间感知**:2D任务(目标检测、分割)和3D任务(布局推理)均采用规则驱动奖励和KL正则化微调 [18] - **视频推理**:分层奖励设计(如VQ-Insight)和时间衰减回报(如TW-GRPO)解决长序列挑战 [20] 视觉生成 - **图像生成**:DiffPPO等结合扩散模型与感知奖励(如ImageReward),提升生成质量 [21] - **3D生成**:DreamCS等通过渲染-比较循环优化几何结构,强化学习实现标准方法难以达到的保真度 [24] 视觉-语言-动作模型 - **GUI自动化**:规则驱动奖励(如GUI-R1)和群体归一化更新(如UIShift)推动跨平台交互 [28] - **视觉导航**:OctoNav-R1等结合第一人称视觉与低级动作控制,通过混合强化学习管道提升泛化性 [29] 评估体系 - **多模态模型**:结合外部基准(如MME)、人类偏好奖励和KL散度监控 [35] - **视觉生成**:FID/CLIP Score等传统指标与去噪轨迹诊断结合 [36] - **GUI任务**:在线成功率与逐步奖励设计(如Mind2web)平衡稀疏信号问题 [39] 未来方向 - **自适应推理**:通过终止评论者动态平衡深度与效率 [43] - **长视野优化**:子目标发现与对比视觉-语言评论者缓解稀疏奖励问题 [44] - **奖励模型设计**:需开发抗攻击、跨模态且用户可定制的综合奖励函数 [46]
具身智能之心灵巧手与触觉感知交流群来啦!
具身智能之心· 2025-08-18 08:07
具身智能技术交流群成立 - 具身智能领域聚焦心灵巧手与触觉感知技术 成立专业交流群 涵盖灵巧手相关运控 算法 硬件 VTLA等技术方向 [1] - 交流群目标为促进产业与学术结合 推动工程落地实践 形成技术协同效应 [1] - 入群方式需通过指定微信账号申请 备注需包含灵巧手关键词及个人昵称信息 [2]
VLA/VLA+触觉/VLA+RL/具身世界模型等方向教程来啦!
具身智能之心· 2025-08-18 08:07
具身智能概述 - 具身智能强调智能体与物理环境的交互与适应 聚焦于感知环境 理解任务 执行动作并反馈学习的能力 [1] - 具身智能的核心模块分为大脑(语义理解与任务规划)和小脑(高精度运动执行) 类比人类神经系统结构 [1] 产业动态 - 近2年星海图 银河通用 逐际动力等明星团队从实验室走向商业化 推动本体与大小脑技术进步 [3] - 国内华为2024年启动"全球具身智能产业创新中心" 联合乐聚机器人 大族机器人攻关关键技术 [5] - 京东2025年起连续投资智元机器人 千寻智能 逐际动力 强化物流与家庭服务场景能力 [5] - 国际方面Tesla/Figure AI聚焦工业物流机器人 Wayve/Apptronik获资本支持发展自动驾驶与仓储机器人 [5] 技术演进路径 - **第一阶段**:抓取位姿检测(Grasp Pose Detection) 通过点云/图像预测末端执行器姿态 但缺乏任务上下文建模 [6] - **第二阶段**:行为克隆(Behavior Cloning) 通过专家数据学习端到端映射 存在泛化能力弱 误差累积问题 [6] - **第三阶段**:2023年Diffusion Policy引入序列建模 2024年VLA模型实现多模态协同 支持零样本泛化 [7] - **第四阶段**:2025年探索VLA与强化学习 世界模型 触觉感知融合 解决反馈 预测与触觉局限 [8] 应用与产品 - 技术演进推动人形机器人 机械臂 四足机器人在工业 家居 餐饮 医疗等场景落地 [9] - 行业岗位呈现爆发式增长 吸引大量从业者转入具身智能领域 [9] 技术体系与课程 - 课程系统梳理大脑+小脑技术路线 涵盖灵巧手 移动操作 人形机器人方法 [15] - 包含主流仿真框架配置 DP/VLA/VLA+RL/VLA+触觉等方法详解 以及世界模型下一代范式 [15] - 实践环节覆盖Sim2Real演进 IsaacGym/Mujoco仿真环境 Diffusion Policy代码实战 VLA模型训练等 [21] - 目标群体包括具身算法从业人员 研究方向学生 以及传统CV/自动驾驶转行者 [24][29]
NIPS 2025 MARS 多智能体具身智能挑战赛正式启动!
具身智能之心· 2025-08-18 08:07
具身智能新挑战 - 单一智能体难以胜任复杂多变的任务场景,多具身智能体系统(如人形机器人、四足机器人、机械臂)成为实现通用自主的关键力量[3] - 多具身智能体需要在复杂环境中制定高层任务计划并稳健执行精细操作,但面临异构机器人、不同感知能力与部分可观测性等难题[3] - MARS Challenge通过两条互补赛道推动具身智能研究向真实世界落地,鼓励探索高层规划与低层控制能力[3][4] 赛道1:多智能体具身规划 - 面向异构机器人协同配合环境下的高层任务规划与角色分配,基于ManiSkill平台与RoboCasa数据集[5] - 通过视觉大语言模型完成智能体选择和动作分配,根据自然语言指令挑选最优机器人组合并制定高层动作序列[5][6] - 评估视觉大语言模型在多智能体分配、角色指派与符号规划等方面的推理能力,模拟现实环境中的协作[7][8] 赛道2:多智能体协同控制 - 致力于推动多智能体系统在复杂任务中的协作能力,如机械臂紧密配合堆叠方块等[12] - 基于RoboFactory仿真环境,要求智能体在动态、部分可观测条件下实时交互,设计端到端可部署控制模型[12][13] - 参赛者需通过仿真平台收集数据训练模型,最终提交部署后的模型供测试[12] 比赛安排与参与方式 - 时间安排:热身赛2025年8月18日开启,正式赛9月1日开启,10月31日结束,12月公布结果[25] - 参赛方式:通过比赛主页、微信交流群或Discord群参与,联系邮箱为marschallenge2025@gmail.com[25] - 比赛结果将在NeurIPS 2025的SpaVLE Workshop上公布,参赛者有机会赢得奖金并共同撰写报告[4][25] 行业展望 - 未来不同形态的智能体将协作完成超越单一能力边界的任务,MARS Challenge是推动多具身智能体走向通用自主的重要一步[26] - 该挑战为机器人、计算机视觉、自然语言处理及多模态AI领域的研究者提供了展示创意与技术的全球舞台[26][27]
扩散世界模型LaDi-WM大幅提升机器人操作的成功率和跨场景泛化能力
具身智能之心· 2025-08-18 08:07
核心观点 - 国防科大、北京大学、深圳大学团队提出LaDi-WM(Latent Diffusion-based World Models),一种基于隐空间扩散的世界模型,用于预测隐空间的未来状态,提升机器人操作性能 [1] - LaDi-WM利用预训练的视觉基础模型构建隐空间表示,包含几何特征和语义特征,具有广泛通用性,有利于机器人操作的策略学习和跨任务泛化 [1] - 团队设计了一种扩散策略,通过整合世界模型生成的预测状态迭代优化输出动作,在LIBERO-LONG数据集上成功率提升27.9% [2] - 该方法在虚拟和真实数据集上均表现出色,在真实场景中将原始模仿学习策略的成功率显著提升20% [26] 技术方法 - 世界模型学习阶段:通过预训练的视觉基础模型提取几何表征(DINOv2)和语义表征(Siglip),并在扩散过程中让二者交互,学习依赖关系 [10] - 策略模型训练与迭代优化:将世界模型的未来预测作为额外输入引导策略学习,基于扩散策略模型架构,迭代优化动作输出 [12] - 框架分为世界模型学习和策略学习两大阶段,通过任务无关的片段学习隐扩散世界模型,再利用未来状态预测优化策略模型 [9] 实验结果 虚拟实验 - 在LIBERO-LONG数据集上,仅用10条轨迹训练,达到68.7%的成功率,显著优于其他方法(DreamerV3 33.5%,ATM 44.0%,Seer 53.6%) [15][16] - 在CALVIN D-D数据集上,平均完成任务数量为3.63,优于Seer(3.60)和ATM(2.98) [17] - 跨场景实验中,在LIBERO-LONG训练的世界模型应用于CALVIN D-D策略学习,性能比CALVIN环境训练的原始策略高0.61 [21] 真机实验 - 在真实场景操作任务(叠碗、开抽屉、关抽屉、抓取物体放入篮子等)中,将原始模仿学习策略的成功率从40.0%提升至60.0% [26] - 提出的策略在不同光照条件和初始位置下表现出鲁棒的泛化性 [25][27] 创新点 - 基于隐空间扩散的世界模型:使用视觉基础模型构建隐空间的通用表示,学习可泛化的动态建模能力 [5] - 基于世界模型预测迭代优化的扩散策略:利用未来预测状态反馈给策略模型,迭代优化动作输出 [6] - 通过交互扩散过程学习几何与语义表征之间的依赖关系,促进准确动态预测 [10]
中山&清华:基于大模型的具身智能系统综述
具身智能之心· 2025-08-17 00:03
具身智能系统综述 核心观点 - 大模型显著提升具身智能的感知精度、理解深度和规划能力,实现感知-规划-动作闭环[6][39] - 大模型在具身智能中分为需求级、任务级、规划级和动作级四个控制层级[6][11] - 基于Transformer的端到端架构和参数冻结的大模型结合基础模型是主流系统架构[21][24][28] 感知与理解 多模态模型理解 - GPT-4V等多模态大模型通过预训练将图像与文本编码到同一向量空间,提升环境感知能力[9] - ViLA模型整合视觉反馈实现闭环规划,MultiPLY通过动作标记实现抽象与多模态信息切换[9] - 多模态模型能捕获文本、图像、音频间关系,提取统一高维特征[5] 多模态环境建模 - CLIP模型对场景进行语义建模,HomeRobot利用CLIP学习3D语义表示[10] - PerAct通过体素编码器实现3D环境建模,LangSplat用3D高斯构建语言场[10] 可供性与约束 - AffordanceLLM结合大模型知识与3D几何信息预测可操作性图[10] - Affordance Diffusion通过RGB图像合成3D手部姿态,KITE用关键点生成动作序列[10] 控制层级 需求级 - Text2Motion框架将自然语言指令转化为物理可执行任务,PaLM-E整合多模态数据生成任务规划[14] - SayCan通过语义知识与技能评估选择最优方案,EmbodiedGPT用思维链技术提高成功率[14] 任务级 - OK-Robot结合OWL-ViT实现物体定位,CaP将自然语言转换为可执行策略代码[16] - LLM-GROP提取语义对象配置知识并实例化到规划器[16] 规划级 - VoxPoser生成3D价值地图控制机器人轨迹,3D-VLA处理3D空间信息生成动作特征[21] - iVideoGPT构建世界模型支持智能体探索,RoCo实现多机器人协作规划[21] 动作级 - Gato通用智能体可完成游戏、机械臂操控等多样化任务,RoboFlamingo解耦视觉-语言理解与决策[21] - Prompt2Walk通过文本提示输出关节位置,ManipLLM预测末端执行器精确姿态[21] 系统架构 基于Transformer的架构 - RT-1吸收多样化机器人数据生成离散动作指令,RT-2整合PaLM-E提升语义推理能力[33] - InteractiveAgent通过多模态预训练实现交互执行,ALOHA用Transformer生成精细双手操作[33] 参数冻结的大模型结合基础模型 - TidyBot利用CLIP实现个性化家庭清理,VIMA通过多模态提示输出动作序列[35] - Instruct2Act用大语言模型生成Python程序构建感知-规划-动作循环[35] 数据来源 模拟器 - BEHAVIOR-1K包含1000个日常活动数据集,RoboGen用生成模型自动学习机器人技能[36] - DrEureka通过LLM合成奖励函数解决Sim2Real问题[36] 模仿学习 - ALOHA记录人类操作数据训练端到端模型,HumanPlus通过"影子跟随"收集全身数据[37] - UMI实现跨平台双手操作数据收集[37] 视频学习 - VRB从人类行为视频训练视觉可供性模型,VPT通过未标记视频预训练智能代理[37] - RoboCLIP利用视频-语言模型相似度生成奖励函数[37] 未来发展方向 - 需开发低成本真实数据收集方法并优化大模型推理速度[44] - 多智能体协同框架将应对复杂任务,跨领域应用拓展至医疗、教育等行业[40][44]
迟迟入不了具身的门?别人在这里已经弯道超车了......
具身智能之心· 2025-08-17 00:03
社区价值定位 - 国内首个具身全栈技术社区 提供学术研究 工程实践 求职对接的全方位闭环服务[3] - 社区成员来自斯坦福大学 清华大学 智元机器人 优必选等全球顶尖高校和头部企业[17] - 已汇总40+开源项目 60+数据集 30+技术路线 覆盖感知 控制 导航 仿真等核心领域[17] 技术资源体系 - 系统化整理视觉语言模型(VLA)应用方案 包括机器人抓取 规划任务及与强化学习的融合方法[3][9][43] - 强化学习全栈学习路线涵盖深度强化学习 可解释强化学习及基于LLM的强化学习框架[17][41] - 多模态大模型技术体系包含理解与生成两大方向 支持Image/Video/Audio/3D与文本的跨模态交互[53][55] - 仿真平台资源整合通用机器人与真实场景仿真工具链 支持sim2real技术验证[39] 产业实践支持 - 建立与智元机器人 有鹿机器人 云深处等企业的内推机制 直接对接岗位需求[11][17] - 汇总30家具身机器人公司业务布局 覆盖教育 医疗 工业 物流等应用场景[22] - 提供零部件供应商资源 包括芯片 激光雷达 ToF相机 IMU等核心硬件选型指南[29][33] 学术研究支撑 - 收录机器人导航 概率机器人 动力学等专业书籍PDF资源 夯实理论基础[27] - 汇总国内外具身智能高校实验室信息 支持研究生 博士申请及博士后进修[19][21] - 持续更新行业研报 跟踪大模型与人形机器人领域的技术演进与商业化进展[24] 实践应用案例 - 自动驾驶从业者转型案例显示 视觉SLAM技术可迁移至视觉语言导航与端到端控制领域[81][83] - 机械臂控制项目采用LLM+Foundation Model+MoveIt技术栈 侧重实际应用落地[80] - 社区实时解答技术难题 包括数据采集清洗 模型部署 仿真调试等工程化问题[1][79] 行业发展趋势 - 具身智能行业处于早期探索阶段 技术路径尚未固化 存在较大发展窗口期[83] - 薪资水平呈现分化态势 头部企业强化学习岗位薪资较自动驾驶领域高出6k/月以上[82] - 技术演进方向聚焦端到端系统 VLA+RL融合方案以及大模型轻量化部署[65][83]
ICCV 2025 | HERMES:首个统一3D场景理解与生成的世界模型
具身智能之心· 2025-08-17 00:03
自动驾驶技术发展现状 - 自动驾驶技术需要具备对当前环境的深刻理解能力和对未来场景的准确预测能力[6] - 主流方案通常将环境理解与未来生成任务分开处理[7] - 实际驾驶决策需要两种能力的深度融合[9] HERMES模型核心设计 - 采用统一框架通过共享LLM同时驱动理解与生成任务[12] - 使用鸟瞰图(BEV)作为统一场景表达 解决多视图输入与LLM长度限制问题[15] - 引入世界查询机制实现知识注入和传递 通过当前-未来连接模块打通理解与生成[16] - 采用共享渲染器将BEV特征解码为3D点云序列[17] 技术实现方法 - BEV Tokenizer将六路环视图像编码为紧凑俯视视角表征[15] - 通过自适应采样提取世界查询向量代表场景核心信息[16] - 联合训练使用语言建模损失和点云生成损失优化模型[18][19] - 端到端联合训练实现任务间最佳平衡点[20] 性能表现对比 - 3秒未来点云误差降低32.4% 显著优于ViDAR模型[22] - 在nuScenes和OmniDrive-nuScenes数据集上评估表现[22] - CIDEr指标提升8% 超越OmniDrive等专用理解模型[22] - 无需历史序列 推理更高效且泛化能力更强[22] - 生成精度提升显著 理解能力无损[22] 应用场景展示 - 准确预测未来三秒车辆与环境动态[3] - 深度理解当前场景并进行问答交互[3] - 生成时序连贯且几何精确的未来点云[23] - 精准描述驾驶场景细节包括动态物体移动和路边商家识别[23]