具身智能之心 - 财报，业绩电话会，研报，新闻 - Reportify

具身智能之心

搜索文档

VLA+强化学习，会催生更强大的系统！

具身智能之心· 2025-07-31 08:04

机器人基础模型发展 - RT-2作为首个机器人VLA模型，通过将机器人控制问题构建为视觉问答任务实现基础功能，基于PaLI-X和PaLM-E预训练模型开发[5][7] - RT-X跨具身数据集整合34个实验室、22种机器人数据，通用模型性能比单一场景专业模型平均提升50%，分布外指令处理能力提升3倍[10][11] - 第二代VLA模型采用连续动作分布设计（如扩散模型/流匹配模型），支持高频率精细控制，动作生成跨度达50个时间步[15][17][19] PI公司技术迭代 - π0模型基于30亿参数Polyglot-LLM开发，集成动作专家模块，输入包含1-3张图像+语言指令，可控制多样化机器人形态[18][19] - π0训练数据集达10,000小时，融合RT-X数据后实现复杂任务微调，如折叠盒子（成功率66%）和衣物（抗干扰恢复能力突出）[21][23][26] - π0.5版本新增分层推理架构，支持长期任务（如卧室清洁），仅3%移动操作数据但实现真实场景迁移应用[28][30][32] 技术融合方向 - 当前VLA模型依赖模仿学习，未来将通过强化学习（RLPD算法）优化任务成功率与鲁棒性，采用稀疏奖励+人工干预机制[35][39][43] - RLDG方法尝试将强化学习专家数据整合至VLA，已实现连接器插入等技能泛化，但端到端训练流程仍需突破[45][46] - 视觉编码器+图像分类奖励机制提升强化学习效率，动态任务如煎蛋翻面、家具组装验证技术互补潜力[42][43]

买来的足式机器人，调了好久不work......

具身智能之心· 2025-07-31 08:04

足式机器人开发挑战 - 初学者开发足式机器人面临巨大困难，需实现爬楼梯、跑步、跳舞等高难度动作，但缺乏系统指导导致难以入门[1] - 复杂地形（石子路、坑洼路面）要求机器人具备稳定动作执行能力，僵硬驱动难以行走超过20米[1] - 完整开发流程需掌握运动学、动力学、多传感器融合、强化学习等8项核心技术，学习门槛高[1] 足式机器人行业价值 - 足式机器人（四足/双足）被视为机器人领域里程碑，能仿生应对复杂地形突破平坦环境限制[2] - 资本高度关注，在巡检、安防、救援等场景有广阔应用前景，企业正高薪争夺相关人才[2] - 当前是进入领域最佳时机，但缺乏系统学习路径导致学习者易踩坑放弃[2] 课程技术体系 - 国内首门覆盖四足到双足的全栈算法课程，包含基础运动控制、高级强化学习、Sim2Real迁移三大模块[2][3] - 核心技术包含：关节负载分析（运动学）、IMU/视觉多模态融合、双足动态平衡控制、PPO/SAC算法应用[3] - 前沿技术整合：波士顿动力跳跃算法解析、域随机化策略、RMA等提升仿真到现实的迁移成功率[4][7] 实战训练设计 - 仿真平台覆盖Isaac Gym/Gazebo/MuJoCo，实现行走/跳跃/攀爬等多任务切换训练[3][9] - 硬件部署涉及Unitree、DeepRobotics等主流平台，包含噪声注入、物理参数抖动等鲁棒性增强手段[7][11] - 大作业设置复杂地形跑酷、人机协作等场景，要求学员完成从设计到性能评估的全流程[7][16] 目标人群与能力培养 - 面向AI从业者、机器人专业学生、转行者三类人群，需具备Python/PyTorch及线性代数基础[16] - 培养能力包含：全栈技术掌握（运动控制到强化学习）、四足/双足系统思维、1-2年等效项目经验[16] - 课程形式为离线视频+代码+线上答疑，配套源码与行业案例，有效期1年[17]

多传感器融合

足式机器人

多传感器融合

足式机器人

WAIC2025之后！上海具身智能机器人产业大会来啦~

具身智能之心· 2025-07-31 08:04

具身智能技术发展 - 具身智能技术突破感知与行动壁垒，机械臂在无序环境中自主作业，智能体在复杂场景中理解并执行指令，实现人机自然协作[2] - 技术从实验室走向工业应用，颠覆人机交互范式，重塑产业场景[2] - 2025中国具身智能机器人产业大会将展示技术突破与商业化路径，覆盖全产业链创新应用[5] 行业大会与展览 - 2025中国具身智能机器人产业大会暨展览会将于8月13-15日在上海新国际博览中心举办[2] - 活动包括高峰论坛、产品展示、产学研投对接，聚焦技术变现与生态合作[2][5][9] - 参展企业涵盖机器人、传感器、电机、资本等产业链上下游，如Tesla、KEPLER、CRRC、RoboSense等[6][7] 核心议题与演讲 - 主论坛议题包括国家战略、工业转型、量产技术、智能感知等，演讲嘉宾来自工信部、连界、均普机器人等[12] - 分论坛涉及汽车科技、EMC标准、充电网络等，如"具身智能×汽车科技"探讨产业生态与资本对接[9][20][22] - 技术专题覆盖灵巧手、导航、视触觉传感等前沿方向，企业如灵巧智能、纬钛科技分享解决方案[12][19] 产业融合与创新 - 具身智能与汽车科技深度融合，探讨自动驾驶、线控制动、电池系统等跨界应用[9][15][22] - 长三角新能源智能网联大会聚焦全固态电池、电驱技术、车路云协同等创新[25][26] - 服务机器人、智慧农业、磁吸附机器人等垂直场景技术同步展示[14][19] 参展企业与资源 - 参展商包括天创机器人、帕西尼、速腾聚创等技术创新企业，以及普华资本、复星创富等投资机构[6][7][19] - 提供商贸配对服务，优先对接采购需求与供应链资源[30][31] - 官方组织EMC标准修订、圆桌论坛等产学研活动，推动行业协作[19][20]

新能源汽车

具身智能机器人

新能源汽车

具身智能机器人

贝叶斯推断与具身智能的联系探索：迈向开放物理世界的具身AI系统

具身智能之心· 2025-07-31 08:04

核心观点与背景 - 贝叶斯统计与具身智能存在深层次概念联系，具身智能理论认为认知能力源于智能体与环境的实时传感器交互，需要在不确定性下进行持续推理，贝叶斯统计为此提供了概率框架 [3] - 尽管存在概念联系，贝叶斯原则在当今具身智能系统中并未广泛应用，研究通过搜索和学习两个关键视角分析这一现象 [3] 搜索与学习：现代AI的两个基础主题 - 搜索和学习是驱动AI重大突破的通用方法，搜索指探索大量可能解决方案的算法，学习涉及通过数据训练模型提高任务执行能力 [4] - 研究人员设计的系统早期可能成功但性能会达到瓶颈，而基于可扩展通用方法构建的系统能随计算资源增加持续改进 [4] 当前具身智能的常见实践 - 主流具身智能方法建立在AI基础模型最新进展上，如预训练的大型语言模型和视觉-语言模型，这些模型通过大规模数据驱动学习提供丰富先验知识 [5] - 基础模型本身不足以满足具身智能系统所有要求，其编码的先验知识是静态和粗粒度的，难以指导机器人在动态环境中执行精确动作 [6] 贝叶斯与具身智能之间的深层联系 - 贝叶斯主义将概率解释为主观信念的量化，强调通过证据动态更新知识，具身智能认为智能是从身体、环境和大脑持续互动中涌现的现象 [8] - 贝叶斯统计为处理具身智能中的不确定性提供严格概率框架，具身智能的核心计算过程可解释和建模为贝叶斯推断形式 [8] 贝叶斯方法如何塑造具身智能的未来 - 现代具身智能系统采用数据驱动、假设轻量的方法，能与计算和大规模数据集扩展保持一致 [10] - 具身智能系统在开放物理环境中运行时，所有封闭世界设置中获得的知识和技能可被视为先验知识，需持续适应行为，这种适应性行为需要不确定性下的持续推理 [12] - 贝叶斯方法对结构化模型假设的依赖可以放松，提高现实场景中的灵活性和泛化能力 [13]

贝叶斯推断

搜索和学习

大型语言模型

视觉 - 语言模型

贝叶斯推断

搜索和学习

大型语言模型

视觉 - 语言模型

PI联合创始人，机器人大神！详解VLA+强化学习，催生更强大的系统

具身智能之心· 2025-07-30 14:03

机器人基础模型发展 - 首个机器人基础模型RT-2基于语言模型开发，通过视觉问答形式实现机器人控制，将电机指令编码为问题答案[7][8] - RT-2基于PaLI-X和PaLM-E预训练视觉语言模型构建，能处理基础语言指令[10] - 跨具身数据集RT-X整合34个实验室数据，覆盖22种机器人类型，通用模型性能比专用模型高50%，分布外指令处理能力提升3倍[12][13] 模型架构迭代 - 第一代VLA模型采用离散Token生成动作，第二代升级为连续动作分布，支持扩散模型生成多步动作片段[19] - 第二代VLA模型π0基于30亿参数Polyglot-LLM开发，增加动作专家模块，输入1-3张图像+语言指令，输出50时间步高维动作[22][24] - π0.5新增分层推理能力，可分解长期任务（如打扫卧室）为子步骤执行，移动操作数据仅占训练集3%但能泛化至新场景[36][38][40] 应用与性能表现 - π0完成复杂任务如折叠盒子（成功率66%）和衣物，具备抗干扰恢复能力[26][29][33] - π0.5在未训练过的真实厨房环境中执行叠毛巾、清洁等任务[41] - 模型组合多任务流程，例如从烘干机取衣→搬运→折叠的全流程操作[34] 未来技术方向 - 当前模型依赖模仿学习，未来将通过强化学习优化任务成功率与鲁棒性[44][45] - 强化学习采用RLPD算法，结合稀疏奖励和人工干预提升效率[49][53] - RLDG方法尝试将专家策略知识蒸馏至VLA，已实现连接器插入等复杂任务泛化[59] - 行业需解决VLA与强化学习的端到端训练流程整合问题[60]

准备扩大具身团队了，合伙人招募来啦......

具身智能之心· 2025-07-30 14:03

行业发展趋势 - 具身智能领域发展迅速多家明星公司准备上市 [1] - 技术孤立和闭塞不利于产业发展鼓励行业积极交流 [1] - 公司期望汇聚全行业人才推动行业进步 [1] 项目合作计划 - 在北京上海深圳广州杭州武汉建立项目研发团队 [3] - 每个城市招募10名具身领域学术与工程人才需2年以上相关经验 [4] - 承接横向纵向项目及企业咨询可兼职参与 [3] 教育研发与咨询 - 开展具身教育在线课程企业咨询和辅导业务 [5] - 招募方向包括大模型多模态强化学习机器人运动规划等12个技术领域 [5] - 要求博士及以上学历工业界需2年以上研发经验 [6] 人才待遇 - 提供大比例分红和全行业资源共享 [7] - 支持兼职或全职工作模式 [7] 联系方式 - 通过扫码咨询负责人需备注"具身智能之心+老师咨询" [8]

具身教育在线课程

具身教育在线课程

具身智能之心求职交流群来啦！！！

具身智能之心· 2025-07-30 14:03

具身智能之心求职与行业交流群成立了！微信扫码添加小助理邀请进群，备注昵称+具身求职；应广大粉丝的要求，我们开始正式运营具身相关的求职社群了。社群内部主要讨论相关具身产业、公司、产品研发、求职与跳槽相关内容。如果您想结交更多同行业的朋友，第一时间了解产业。欢迎加入我们！ ...

具身领域LLM结合强化学习与世界模型工作汇总

具身智能之心· 2025-07-30 08:02

具身智能领域最新研究进展 1 UniSim通用现实世界交互模拟器 - 通过生成式建模整合多源数据（图像/机器人/导航数据）实现高层级指令和低层级控制的视觉结果模拟 [3] - 应用场景覆盖游戏/电影内容生成和具身智能体纯模拟训练（零样本迁移至现实）[3] - 实验证明可同时训练视觉语言策略和强化学习策略 [3] 2 因果世界模型与鲁棒智能体 - 首次证实最优智能体必须学习真实因果模型以实现跨领域泛化 [5] - 研究结论对迁移学习和因果推断领域产生深远影响 [5] 3 MAMBA元强化学习框架 - 结合模型方法与元强化学习技术实现15倍样本效率提升 [8] - 在高维任务场景验证有效性，推动现实世界泛化能力突破 [8] 4 EMMA多模态具身智能体 - 通过文本世界LLM指导视觉世界VLM训练（DAgger-DPO算法）[10] - ALFWorld基准测试成功率提升20%-70% [10] 5 Text2Reward自动奖励生成 - 基于LLM生成可执行密集奖励代码（无需真实数据）[13] - 17项操作任务中13项超越专家编写奖励 [14] 6 在线持续学习智能体 - 提出Behavior-IL/Environment-IL框架解决现实场景持续学习问题 [17] - CAMA机制无需任务边界信息即实现参数更新 [18] 7 AMAGO情境强化学习 - 通过并行化Transformer训练解决长期记忆和元学习挑战 [21] - 可攻克开放世界多指令完成难题 [21] 8 LLM世界模型构建 - 创新性采用PDDL构建显式世界模型（支持40+动作生成）[22] - 在Household领域成功求解48项复杂规划任务 [23]

现实世界交互模拟器

Artificial Intelligence

现实世界交互模拟器

Artificial Intelligence

室内环境具身智能语义建图研究综述：进展、挑战与未来方向

具身智能之心· 2025-07-30 08:02

语义建图综述核心观点 - 全面回顾室内导航中语义建图方法涵盖传统方法到深度学习最新进展 [4] - 提出基于地图结构和语义编码的分类框架帮助研究者系统比较不同方法 [4] - 识别当前领域三大挑战：高内存需求计算效率低下开放词汇表支持不足 [4] 研究方法与背景 - 智能体需构建结合几何与语义信息的内部表示语义地图是实现复杂任务的基础 [6] - 语义地图在自动驾驶救援机器人等领域具有基础性作用传统技术侧重几何精度而现代研究聚焦语义丰富性 [6] - 现有综述多关注下游应用本文首次系统梳理地图表示本身的技术演进 [6] 分类框架 - 按地图结构分为空间网格拓扑图密集几何图和混合图四类 [7] - 按语义编码分为显式特征（物体类别标签）与隐式特征（学习到的嵌入表示） [7] - 该框架揭示不同表示在可扩展性泛化能力等方面的权衡关系 [7] 地图技术演进空间网格地图 - 三维矩阵结构存储密集语义信息适用于室内导航但内存消耗大 [34][36] - 典型方法包括CMP使用ResNet特征投影 MapNet采用LSTM聚合 [38] 拓扑地图 - 图结构表示关键地标内存高效但缺乏几何细节 [40][42] - NTS通过在线更新节点 LM-Nav利用CLIP特征实现开放词汇查询 [45] 密集几何地图 - 点云地图直接关联三维点与语义标签保真度高但计算成本大 [51] - 神经场将场景编码为连续函数实现紧凑表示但训练资源密集 [52][59] 语义编码技术显式编码 - 存储具体语义标签（如"床"类别）可解释性强但受限于预定义词汇表 [63][65] - 应用案例包括障碍物避碰（占用网格）和物体导航（Mask R-CNN检测） [64] 隐式编码 - 封闭词汇表使用ResNet等提取特征开放词汇表借助CLIP实现零样本识别 [69][72] - VLMap实现像素级特征投影 ConceptGraphs支持自然语言查询 [73] 评估体系 - 外在评估依赖下游任务指标（导航成功率操作精度） [77][82] - 内在评估直接测量地图质量（交并比语义一致性）但缺乏标准化框架 [84][99] 未来研究方向 - 开发开放词汇表任务无关的通用地图表示 [100] - 优化动态环境下的实时更新与轨迹预测能力 [103] - 建立混合地图结构平衡几何精度与语义关系 [104] - 制定跨场景的统一评估指标体系 [105][108]

中科院自动化所！视觉-触觉-语言-动作模型方案与数据集制作分享

具身智能之心· 2025-07-30 08:02

视觉-触觉-语言-动作模型（VTLA）技术突破 - 提出VTLA框架通过跨模态语言对齐融合视觉与触觉输入在接触密集型任务中生成鲁棒策略 [2] - 构建低成本多模态数据集包含专为指尖插入任务设计的视觉-触觉-动作-指令对 [2] - 引入直接偏好优化（DPO）为VTLA提供类回归监督弥合分类预测与连续机器人任务间的差距 [2] VTLA性能表现 - 在未知孔型上成功率超过90% 显著优于传统模仿学习方法（如扩散策略）及现有多模态基线（TLA/VLA） [2] - 通过真实世界孔轴装配实验验证卓越的仿真到现实（Sim2Real）迁移能力 [2] 相关技术资源 - 论文标题《VTLA: Vision-Tactile-Language-Action Model with Preference Learning for Insertion Manipulation》发布于arXiv [3] - 知识星球「具身智能之心」提供完整技术细节 QA及未公开彩蛋包含VR-Robo BridgeVLA等机器人领域前沿方案 [4]

视觉-触觉-语言-动作模型（VTLA）

视觉语言模型（VLM）

直接偏好优化（DPO）

仿真到现实（Sim2Real）迁移

视觉-触觉-语言-动作模型（VTLA）

视觉语言模型（VLM）

直接偏好优化（DPO）

仿真到现实（Sim2Real）迁移