Workflow
具身智能之心
icon
搜索文档
VLA+强化学习,会催生更强大的系统!
具身智能之心· 2025-07-31 08:04
机器人基础模型发展 - RT-2作为首个机器人VLA模型,通过将机器人控制问题构建为视觉问答任务实现基础功能,基于PaLI-X和PaLM-E预训练模型开发[5][7] - RT-X跨具身数据集整合34个实验室、22种机器人数据,通用模型性能比单一场景专业模型平均提升50%,分布外指令处理能力提升3倍[10][11] - 第二代VLA模型采用连续动作分布设计(如扩散模型/流匹配模型),支持高频率精细控制,动作生成跨度达50个时间步[15][17][19] PI公司技术迭代 - π0模型基于30亿参数Polyglot-LLM开发,集成动作专家模块,输入包含1-3张图像+语言指令,可控制多样化机器人形态[18][19] - π0训练数据集达10,000小时,融合RT-X数据后实现复杂任务微调,如折叠盒子(成功率66%)和衣物(抗干扰恢复能力突出)[21][23][26] - π0.5版本新增分层推理架构,支持长期任务(如卧室清洁),仅3%移动操作数据但实现真实场景迁移应用[28][30][32] 技术融合方向 - 当前VLA模型依赖模仿学习,未来将通过强化学习(RLPD算法)优化任务成功率与鲁棒性,采用稀疏奖励+人工干预机制[35][39][43] - RLDG方法尝试将强化学习专家数据整合至VLA,已实现连接器插入等技能泛化,但端到端训练流程仍需突破[45][46] - 视觉编码器+图像分类奖励机制提升强化学习效率,动态任务如煎蛋翻面、家具组装验证技术互补潜力[42][43]
买来的足式机器人,调了好久不work......
具身智能之心· 2025-07-31 08:04
足式机器人开发挑战 - 初学者开发足式机器人面临巨大困难,需实现爬楼梯、跑步、跳舞等高难度动作,但缺乏系统指导导致难以入门[1] - 复杂地形(石子路、坑洼路面)要求机器人具备稳定动作执行能力,僵硬驱动难以行走超过20米[1] - 完整开发流程需掌握运动学、动力学、多传感器融合、强化学习等8项核心技术,学习门槛高[1] 足式机器人行业价值 - 足式机器人(四足/双足)被视为机器人领域里程碑,能仿生应对复杂地形突破平坦环境限制[2] - 资本高度关注,在巡检、安防、救援等场景有广阔应用前景,企业正高薪争夺相关人才[2] - 当前是进入领域最佳时机,但缺乏系统学习路径导致学习者易踩坑放弃[2] 课程技术体系 - 国内首门覆盖四足到双足的全栈算法课程,包含基础运动控制、高级强化学习、Sim2Real迁移三大模块[2][3] - 核心技术包含:关节负载分析(运动学)、IMU/视觉多模态融合、双足动态平衡控制、PPO/SAC算法应用[3] - 前沿技术整合:波士顿动力跳跃算法解析、域随机化策略、RMA等提升仿真到现实的迁移成功率[4][7] 实战训练设计 - 仿真平台覆盖Isaac Gym/Gazebo/MuJoCo,实现行走/跳跃/攀爬等多任务切换训练[3][9] - 硬件部署涉及Unitree、DeepRobotics等主流平台,包含噪声注入、物理参数抖动等鲁棒性增强手段[7][11] - 大作业设置复杂地形跑酷、人机协作等场景,要求学员完成从设计到性能评估的全流程[7][16] 目标人群与能力培养 - 面向AI从业者、机器人专业学生、转行者三类人群,需具备Python/PyTorch及线性代数基础[16] - 培养能力包含:全栈技术掌握(运动控制到强化学习)、四足/双足系统思维、1-2年等效项目经验[16] - 课程形式为离线视频+代码+线上答疑,配套源码与行业案例,有效期1年[17]
WAIC2025之后!上海具身智能机器人产业大会来啦~
具身智能之心· 2025-07-31 08:04
具身智能技术发展 - 具身智能技术突破感知与行动壁垒,机械臂在无序环境中自主作业,智能体在复杂场景中理解并执行指令,实现人机自然协作[2] - 技术从实验室走向工业应用,颠覆人机交互范式,重塑产业场景[2] - 2025中国具身智能机器人产业大会将展示技术突破与商业化路径,覆盖全产业链创新应用[5] 行业大会与展览 - 2025中国具身智能机器人产业大会暨展览会将于8月13-15日在上海新国际博览中心举办[2] - 活动包括高峰论坛、产品展示、产学研投对接,聚焦技术变现与生态合作[2][5][9] - 参展企业涵盖机器人、传感器、电机、资本等产业链上下游,如Tesla、KEPLER、CRRC、RoboSense等[6][7] 核心议题与演讲 - 主论坛议题包括国家战略、工业转型、量产技术、智能感知等,演讲嘉宾来自工信部、连界、均普机器人等[12] - 分论坛涉及汽车科技、EMC标准、充电网络等,如"具身智能×汽车科技"探讨产业生态与资本对接[9][20][22] - 技术专题覆盖灵巧手、导航、视触觉传感等前沿方向,企业如灵巧智能、纬钛科技分享解决方案[12][19] 产业融合与创新 - 具身智能与汽车科技深度融合,探讨自动驾驶、线控制动、电池系统等跨界应用[9][15][22] - 长三角新能源智能网联大会聚焦全固态电池、电驱技术、车路云协同等创新[25][26] - 服务机器人、智慧农业、磁吸附机器人等垂直场景技术同步展示[14][19] 参展企业与资源 - 参展商包括天创机器人、帕西尼、速腾聚创等技术创新企业,以及普华资本、复星创富等投资机构[6][7][19] - 提供商贸配对服务,优先对接采购需求与供应链资源[30][31] - 官方组织EMC标准修订、圆桌论坛等产学研活动,推动行业协作[19][20]
贝叶斯推断与具身智能的联系探索:迈向开放物理世界的具身AI系统
具身智能之心· 2025-07-31 08:04
核心观点与背景 - 贝叶斯统计与具身智能存在深层次概念联系,具身智能理论认为认知能力源于智能体与环境的实时传感器交互,需要在不确定性下进行持续推理,贝叶斯统计为此提供了概率框架 [3] - 尽管存在概念联系,贝叶斯原则在当今具身智能系统中并未广泛应用,研究通过搜索和学习两个关键视角分析这一现象 [3] 搜索与学习:现代AI的两个基础主题 - 搜索和学习是驱动AI重大突破的通用方法,搜索指探索大量可能解决方案的算法,学习涉及通过数据训练模型提高任务执行能力 [4] - 研究人员设计的系统早期可能成功但性能会达到瓶颈,而基于可扩展通用方法构建的系统能随计算资源增加持续改进 [4] 当前具身智能的常见实践 - 主流具身智能方法建立在AI基础模型最新进展上,如预训练的大型语言模型和视觉-语言模型,这些模型通过大规模数据驱动学习提供丰富先验知识 [5] - 基础模型本身不足以满足具身智能系统所有要求,其编码的先验知识是静态和粗粒度的,难以指导机器人在动态环境中执行精确动作 [6] 贝叶斯与具身智能之间的深层联系 - 贝叶斯主义将概率解释为主观信念的量化,强调通过证据动态更新知识,具身智能认为智能是从身体、环境和大脑持续互动中涌现的现象 [8] - 贝叶斯统计为处理具身智能中的不确定性提供严格概率框架,具身智能的核心计算过程可解释和建模为贝叶斯推断形式 [8] 贝叶斯方法如何塑造具身智能的未来 - 现代具身智能系统采用数据驱动、假设轻量的方法,能与计算和大规模数据集扩展保持一致 [10] - 具身智能系统在开放物理环境中运行时,所有封闭世界设置中获得的知识和技能可被视为先验知识,需持续适应行为,这种适应性行为需要不确定性下的持续推理 [12] - 贝叶斯方法对结构化模型假设的依赖可以放松,提高现实场景中的灵活性和泛化能力 [13]
PI联合创始人,机器人大神!详解VLA+强化学习,催生更强大的系统
具身智能之心· 2025-07-30 14:03
机器人基础模型发展 - 首个机器人基础模型RT-2基于语言模型开发,通过视觉问答形式实现机器人控制,将电机指令编码为问题答案[7][8] - RT-2基于PaLI-X和PaLM-E预训练视觉语言模型构建,能处理基础语言指令[10] - 跨具身数据集RT-X整合34个实验室数据,覆盖22种机器人类型,通用模型性能比专用模型高50%,分布外指令处理能力提升3倍[12][13] 模型架构迭代 - 第一代VLA模型采用离散Token生成动作,第二代升级为连续动作分布,支持扩散模型生成多步动作片段[19] - 第二代VLA模型π0基于30亿参数Polyglot-LLM开发,增加动作专家模块,输入1-3张图像+语言指令,输出50时间步高维动作[22][24] - π0.5新增分层推理能力,可分解长期任务(如打扫卧室)为子步骤执行,移动操作数据仅占训练集3%但能泛化至新场景[36][38][40] 应用与性能表现 - π0完成复杂任务如折叠盒子(成功率66%)和衣物,具备抗干扰恢复能力[26][29][33] - π0.5在未训练过的真实厨房环境中执行叠毛巾、清洁等任务[41] - 模型组合多任务流程,例如从烘干机取衣→搬运→折叠的全流程操作[34] 未来技术方向 - 当前模型依赖模仿学习,未来将通过强化学习优化任务成功率与鲁棒性[44][45] - 强化学习采用RLPD算法,结合稀疏奖励和人工干预提升效率[49][53] - RLDG方法尝试将专家策略知识蒸馏至VLA,已实现连接器插入等复杂任务泛化[59] - 行业需解决VLA与强化学习的端到端训练流程整合问题[60]
准备扩大具身团队了,合伙人招募来啦......
具身智能之心· 2025-07-30 14:03
行业发展趋势 - 具身智能领域发展迅速 多家明星公司准备上市 [1] - 技术孤立和闭塞不利于产业发展 鼓励行业积极交流 [1] - 公司期望汇聚全行业人才 推动行业进步 [1] 项目合作计划 - 在北京 上海 深圳 广州 杭州 武汉建立项目研发团队 [3] - 每个城市招募10名具身领域学术与工程人才 需2年以上相关经验 [4] - 承接横向 纵向项目及企业咨询 可兼职参与 [3] 教育研发与咨询 - 开展具身教育在线课程 企业咨询和辅导业务 [5] - 招募方向包括大模型 多模态 强化学习 机器人运动规划等12个技术领域 [5] - 要求博士及以上学历 工业界需2年以上研发经验 [6] 人才待遇 - 提供大比例分红和全行业资源共享 [7] - 支持兼职或全职工作模式 [7] 联系方式 - 通过扫码咨询负责人 需备注"具身智能之心+老师咨询" [8]
具身智能之心求职交流群来啦!!!
具身智能之心· 2025-07-30 14:03
具身智能之心求职与行业交流群成立了! 微信扫码添加小助理邀请进群,备注昵称+具身求职; 应广大粉丝的要求,我们开始正式运营具身相关的求职社群了。社群内部主要讨论相关具身产业、公司、产品 研发、求职与跳槽相关内容。如果您想结交更多同行业的朋友,第一时间了解产业。欢迎加入我们! ...
具身领域LLM结合强化学习与世界模型工作汇总
具身智能之心· 2025-07-30 08:02
具身智能领域最新研究进展 1 UniSim通用现实世界交互模拟器 - 通过生成式建模整合多源数据(图像/机器人/导航数据)实现高层级指令和低层级控制的视觉结果模拟 [3] - 应用场景覆盖游戏/电影内容生成和具身智能体纯模拟训练(零样本迁移至现实)[3] - 实验证明可同时训练视觉语言策略和强化学习策略 [3] 2 因果世界模型与鲁棒智能体 - 首次证实最优智能体必须学习真实因果模型以实现跨领域泛化 [5] - 研究结论对迁移学习和因果推断领域产生深远影响 [5] 3 MAMBA元强化学习框架 - 结合模型方法与元强化学习技术实现15倍样本效率提升 [8] - 在高维任务场景验证有效性,推动现实世界泛化能力突破 [8] 4 EMMA多模态具身智能体 - 通过文本世界LLM指导视觉世界VLM训练(DAgger-DPO算法)[10] - ALFWorld基准测试成功率提升20%-70% [10] 5 Text2Reward自动奖励生成 - 基于LLM生成可执行密集奖励代码(无需真实数据)[13] - 17项操作任务中13项超越专家编写奖励 [14] 6 在线持续学习智能体 - 提出Behavior-IL/Environment-IL框架解决现实场景持续学习问题 [17] - CAMA机制无需任务边界信息即实现参数更新 [18] 7 AMAGO情境强化学习 - 通过并行化Transformer训练解决长期记忆和元学习挑战 [21] - 可攻克开放世界多指令完成难题 [21] 8 LLM世界模型构建 - 创新性采用PDDL构建显式世界模型(支持40+动作生成)[22] - 在Household领域成功求解48项复杂规划任务 [23]
室内环境具身智能语义建图研究综述:进展、挑战与未来方向
具身智能之心· 2025-07-30 08:02
语义建图综述核心观点 - 全面回顾室内导航中语义建图方法 涵盖传统方法到深度学习最新进展 [4] - 提出基于地图结构和语义编码的分类框架 帮助研究者系统比较不同方法 [4] - 识别当前领域三大挑战:高内存需求 计算效率低下 开放词汇表支持不足 [4] 研究方法与背景 - 智能体需构建结合几何与语义信息的内部表示 语义地图是实现复杂任务的基础 [6] - 语义地图在自动驾驶 救援机器人等领域具有基础性作用 传统技术侧重几何精度而现代研究聚焦语义丰富性 [6] - 现有综述多关注下游应用 本文首次系统梳理地图表示本身的技术演进 [6] 分类框架 - 按地图结构分为空间网格 拓扑图 密集几何图和混合图四类 [7] - 按语义编码分为显式特征(物体类别标签)与隐式特征(学习到的嵌入表示) [7] - 该框架揭示不同表示在可扩展性 泛化能力等方面的权衡关系 [7] 地图技术演进 空间网格地图 - 三维矩阵结构存储密集语义信息 适用于室内导航但内存消耗大 [34][36] - 典型方法包括CMP使用ResNet特征投影 MapNet采用LSTM聚合 [38] 拓扑地图 - 图结构表示关键地标 内存高效但缺乏几何细节 [40][42] - NTS通过在线更新节点 LM-Nav利用CLIP特征实现开放词汇查询 [45] 密集几何地图 - 点云地图直接关联三维点与语义标签 保真度高但计算成本大 [51] - 神经场将场景编码为连续函数 实现紧凑表示但训练资源密集 [52][59] 语义编码技术 显式编码 - 存储具体语义标签(如"床"类别) 可解释性强但受限于预定义词汇表 [63][65] - 应用案例包括障碍物避碰(占用网格)和物体导航(Mask R-CNN检测) [64] 隐式编码 - 封闭词汇表使用ResNet等提取特征 开放词汇表借助CLIP实现零样本识别 [69][72] - VLMap实现像素级特征投影 ConceptGraphs支持自然语言查询 [73] 评估体系 - 外在评估依赖下游任务指标(导航成功率 操作精度) [77][82] - 内在评估直接测量地图质量(交并比 语义一致性) 但缺乏标准化框架 [84][99] 未来研究方向 - 开发开放词汇表 任务无关的通用地图表示 [100] - 优化动态环境下的实时更新与轨迹预测能力 [103] - 建立混合地图结构平衡几何精度与语义关系 [104] - 制定跨场景的统一评估指标体系 [105][108]
中科院自动化所!视觉-触觉-语言-动作模型方案与数据集制作分享
具身智能之心· 2025-07-30 08:02
视觉-触觉-语言-动作模型(VTLA)技术突破 - 提出VTLA框架 通过跨模态语言对齐融合视觉与触觉输入 在接触密集型任务中生成鲁棒策略 [2] - 构建低成本多模态数据集 包含专为指尖插入任务设计的视觉-触觉-动作-指令对 [2] - 引入直接偏好优化(DPO) 为VTLA提供类回归监督 弥合分类预测与连续机器人任务间的差距 [2] VTLA性能表现 - 在未知孔型上成功率超过90% 显著优于传统模仿学习方法(如扩散策略)及现有多模态基线(TLA/VLA) [2] - 通过真实世界孔轴装配实验验证卓越的仿真到现实(Sim2Real)迁移能力 [2] 相关技术资源 - 论文标题《VTLA: Vision-Tactile-Language-Action Model with Preference Learning for Insertion Manipulation》发布于arXiv [3] - 知识星球「具身智能之心」提供完整技术细节 QA及未公开彩蛋 包含VR-Robo BridgeVLA等机器人领域前沿方案 [4]