具身智能之心 - 财报，业绩电话会，研报，新闻 - Reportify

具身智能之心

搜索文档

许多自驾和传统机器人公司，已经开始成立具身实验室了......

具身智能之心· 2025-09-06 00:03

行业趋势与公司动态 - 自动驾驶公司、主机厂、新势力、传统机器人公司、传统臂商等各类企业正积极筹建具身团队和业务线[1] - 自动驾驶公司和主机厂主要目标是解决工厂智能化需求，通过机器人在固定场景下完成制造、搬运等任务以降低人力成本[1] - 传统机器人公司（如扫地机器人公司）希望通过添加机械臂和集成大模型来升级产品功能，实现更智能的服务和交互[3] - 传统臂商致力于推动机械臂的智能化升级，使其适配更泛化和多样化的应用场景[3] - 行业存在明显的人才缺口，许多公司面临具身岗位招聘困难，缺乏有经验的领军人物[3] 技术社区生态 - "具身智能之心知识星球"是国内首个具身全栈技术社区，目前拥有近2000名成员，目标未来2年内达到近万人规模[5] - 社区已形成产业、学术、求职、问答交流等多领域闭环，与近200家具身公司和机构建立合作关系[3][5] - 社区提供视频、图文、学习路线、问答、求职交流等综合服务，涵盖30+技术路线和40+开源项目[5][15] - 社区成员来自斯坦福大学、清华大学、优必选、小米等国内外知名高校和头部企业[15] - 社区建立了与多家具身公司的岗位内推机制，提供简历直推服务[6] 技术研究领域 - 重点研究方向包括VLA模型（视觉-语言-动作）、VLN模型（视觉语言导航）、多传感器融合感知、具身世界模型等[6] - 具体技术专题涵盖BridgeVLA（CVPR冠军方案，真机性能提升32%）、Spec-VLA（首个VLA模型推测解码框架）等突破性成果[6] - 社区汇总了60+具身智能相关数据集和行业主流仿真平台，提供强化学习、多模态大模型等完整学习路线[15][35] - 研究热点包括VLA+RL融合方法、sim2real技术、分层决策框架等前沿课题[5][6] 资源整合与知识体系 - 社区系统整理了机器人导航、动力学、运动学等基础理论的PDF书籍资源[25] - 汇总了国内外具身智能高校实验室和公司信息，覆盖教育、工业、医疗等应用方向[18][20] - 提供零部件品牌汇总（芯片、激光雷达、相机等）和开源项目汇总，助力快速上手实践[27][29] - 针对ToF与3D相机、数据采集方案、触觉感知等细分领域提供专业技术资料和应用指南[31][33][49]

扫地机器人

扫地机器人

从复刻魔术开始，RoboMirage打开了机器人仿真的新世界

具身智能之心· 2025-09-05 08:45

具身智能行业数据挑战与仿真平台重要性 - 具身智能发展需要海量高质量交互数据但现实数据采集成本极高单台机械臂硬件部署需数万元且难以规模化[2] - 仿真环境成为重要解决方案能以更低成本更高效率实现无限次试错快速积累大规模交互经验[2] - 行业对仿真数据提出更高要求：需更高物理精度保证与现实世界贴合度更丰富交互类型覆盖复杂场景更强扩展性与稳定性满足科研与产业需求[2] RoboMirage仿真平台核心特性 - 全物体类型兼容的可扩展接触建模框架支持刚体/可形变体/多关节结构等多样接触具备强耦合仿真能力并允许用户自定义扩展[4] - 高精度多体动力学仿真能力支持无穿透且时间一致的接触力仿真可捕捉动静摩擦等微观动力学细节精度远超传统模拟器[5] - 工业级稳定算法保障依托隐式积分和凸优化方法确保仿真稳定性彻底解决穿模问题满足装配/抓取等工业任务可靠性要求[6] - Pythonic设计使接口友好易用方便开发者快速集成与定制[7] - 采用GPU驱动异构加速技术利用大规模并行计算实现工业级精度下的高性能快速仿真显著优于传统有限元分析[8] 平台在复杂场景中的仿真能力验证 - 成功复刻明日环魔术模拟金属环与柔性绳索间复杂接触缠绕稳定处理摩擦滑动与刚柔体耦合[10] - 实现橡皮筋穿越魔术仿真精准模拟弹性体缠绕/拉伸/形变过程中的粘滞阻尼/张力变化/自碰撞特性[12] - 完成洗扑克牌仿真维持多张纸牌极小时间步交错插入时的接触连续性防止穿透[14] - 模拟抽桌布魔术高精度捕捉布料瞬时滑动及移除瞬间物体的摩擦惯性响应兼顾非平衡动态与稳定性[16] 多源数据生态与Sim-to-Real路径 - 公司数据生态包含仿真生成样本/互联网语料/技术文档/真机实验多模态传感数据等多源信息[18] - 高精度仿真基座与多源数据体系协同有效缩小仿真与现实差距加速算法向现实环境稳健迁移[18] - 实现迄今最复杂具身操作任务——家具拼装模型可读取说明书后自主完成多部件检测/插拔/旋转配合及多步骤任务分解[20][21] - 拼装过程采用自适应路径规划和接触力调控策略通过实时力反馈动态调整操作即便遭拆解干扰也能自动恢复状态[21][23] 技术前景与行业影响 - 高精度仿真与多源数据协同为高复杂度具身操作任务提供稳定性与精确度建立现实应用技术基座[25] - 持续突破仿真精度/泛化能力与真实交互边界使机器人能在更开放场景自主感知/推理/执行任务[26] - 该技术路线将加速具身智能从实验室到现实世界的跨越催生全新人机协作模式[26]

从近1000篇工作中，看具身智能的技术发展路线！

具身智能之心· 2025-09-05 08:45

机器人操作技术演进 - 机器人操作从机械编程向具身智能演进从简单夹爪发展到多指灵巧手[5] - 灵巧操作依赖数据采集与技能学习框架包括模拟人类演示和遥操作三种数据采集方式以及模仿学习与强化学习两种学习框架[5] - 面临三大关键挑战涉及复杂被操作对象和多样操作类型[5][8] - 核心技术方向包括灵巧操作多指手人工智能赋能机器人数据采集模仿学习和强化学习[6] 具身导航与物理模拟器 - 导航与操作是具身智能核心能力现实训练存在高成本问题 Sim-to-Real迁移受域差距制约[9] - 物理模拟器分为室内型室外型和通用型包括Habitat AI2-THOR CARLA AirSim ThreeDWorld和Isaac Sim等[14][15] - 导航从显式记忆转向隐式记忆操作从强化学习拓展至模仿学习扩散策略及VLA模型[15] - 操作任务按复杂程度和自由度递增硬件演进涵盖多种类型[13] 具身多模态大模型发展 - 具身多模态大模型可弥合感知认知与动作鸿沟基础构成包括具身智能体大语言模型大视觉模型和视觉语言模型等[16][19] - 核心任务涵盖具身感知导航交互和仿真感知分GPT与非GPT模型导航分通用与专用模型交互分短长视域动作策略[19] - 数据集包括Open X-Embodiment和HM3D等面临跨模态对齐难计算资源消耗大领域泛化性弱等技术挑战[19] 具身仿真与研究任务 - 具身AI模拟器存在真实感可扩展性和交互性问题研究任务面临长轨迹记忆设计等多重挑战[20][24] - 视觉探索通过运动或感知构建环境内部模型方法分好奇心驱动覆盖最大化和重建驱动核心数据集为Matterport3D和Gibson V1[24] - 视觉导航含点导航物体导航带先验导航和视觉语言导航评估指标以成功率和路径长度加权成功率为主[24] 强化学习在视觉领域应用 - 强化学习在大语言模型中成效显著近年拓展至视觉多模态领域面临高维视觉输入等挑战[25] - 基础理论涵盖RLHF DPO和RLVR三大对齐范式以及PPO和GRPO两种策略优化算法[26] - 核心研究方向包括多模态大语言模型视觉生成统一模型和视觉语言动作模型[28] 遥操作与人形机器人 - 人形机器人遥操作可结合人类认知与机器人物理能力适配人类环境与危险场景如核救援和空间探索[29] - 系统架构含人类状态测量运动重定向机器人控制和多模态反馈支持单向或双向遥操作[32] - 应用包括远程存在和危险作业等挑战集中在非专家操作门槛动态环境适应和长延迟稳定性[35] 视觉语言动作模型进展 - VLA模型从跨模态学习架构演化至融合视觉语言模型和动作规划器的通用智能体涵盖80多个近三年发布的模型[33] - 按架构范式分类提出基于任务复杂度模态多样性和数据集规模的新型评估标准涉及102个VLA模型和26个基础数据集[36] - 发展历程分萌芽探索和快速发展三阶段从模型架构训练数据预训练方法后训练方法和模型评估五个维度剖析现状[38] - 横向整合VLA建模实践提出单体模型与分层模型的分类体系探索强化学习融合等前沿方向[41]

视觉-语言-动作模型（VLA）

具身多模态大模型

视觉-语言-动作模型（VLA）

具身多模态大模型

美的团队分享！在七个工作中找到推理到执行，构建通用灵巧VLA模型的钥匙

具身智能之心· 2025-09-05 08:45

核心观点 - 构建持续进化且通用的视觉-语言-动作模型通过多模态基座模型建立感知与动作联合框架扩展至复杂场景与灵巧操作任务应对柔性物体与精细操作挑战提升通用灵巧能力 [6] - 深度融合视觉语言模型的开放世界理解与逻辑能力融入大模型先验与语义推理增强在未知任务中的高层规划与泛化能力 [6] 技术模型发展 - DexVLA模型通过插入扩散专家实现通用机器人控制 [5] - ChatVLA-2模型具备开放世界具身推理能力基于预训练知识 [5] - ChatVLA模型统一多模态理解与机器人控制 [5] - Diffusion-VLA模型通过自生成推理实现可泛化可解释的机器人基础架构 [5] - CoA-VLA模型通过视觉-文本赋能链提升视觉-语言-动作模型性能 [5] - PointVLA模型将三维世界信息注入视觉-语言-动作框架 [5] - TinyVLA模型致力于快速数据高效的机器人操作视觉-语言-动作架构 [5] 能力拓展方向 - 构建VLA基座模型作为技术基础架构 [7] - 拓展VLA模型能力边界至更复杂应用场景 [8] - 提升VLA模型泛化能力以适应未知任务环境 [8] - Spec-VLA框架专为推理加速设计在保持精度同时提升速度 [10] 应用场景深化 - 灵巧手设计成为打通手-眼-脑感知闭环的关键技术 [10] - 跨实体世界模型助力小样本机器人学习 [10] - 应对柔性物体与精细操作等挑战性任务 [6] - 从开放世界语义推理延伸至真实环境动作执行 [6]

视觉-语言模型

视觉 - 语言 - 动作(VLA)模型

视觉-语言模型

视觉 - 语言 - 动作(VLA)模型

具身智能之心遥操作技术交流群来了！

具身智能之心· 2025-09-05 08:45

行业交流平台 - 具身智能领域的心遥操作技术方向建立专业交流群促进相关从业人员互动 [1] - 交流群面向该技术方向的同学开放旨在推动行业知识共享与合作 [1] - 通过添加指定微信账号并备注昵称机构及遥操加群信息可优先获得入群资格 [2]

遥操作技术

遥操作技术

昨天具身领域发生了一件大事，对学术界和工业都利好.......

具身智能之心· 2025-09-04 12:00

宇树科技IPO计划 - 宇树科技预计在2025年10月至12月之间向证券交易所提交IPO申报文件 [1] - IPO被视为公司里程碑事件，并对具身机器人行业及更广泛领域具有积极意义 [1] 具身智能行业前景 - 具身智能领域得到市场和资本认可，行业处于上升期 [1][3] - 该领域许多问题尚未完全解决，是研究和职业发展的良好方向 [3] - 宇树科技IPO有望带动后续IPO活动，扩大市场想象空间，并促进上下游产业发展 [1] 行业社区与资源 - 存在一个近2000名成员的国内最大具身社区 [7] - 行业平台提供学习教程、科研平台及论文辅导等活动 [3][9]

具身机器人

具身智能论文辅导

具身机器人

具身智能论文辅导

具身智能之心遥操作技术交流群来了！

具身智能之心· 2025-09-04 12:00

行业交流社群 - 建立具身智能领域遥操作技术的交流群，旨在促进相关方向从业者或研究人员的沟通 [1] - 社群通过特定渠道（微信）进行组织和管理，加入需提供昵称、所属机构及关注领域（遥操作）等信息 [2]

遥操作技术

遥操作技术

早鸟优惠即将截止！3个月搞透具身大脑+小脑算法

具身智能之心· 2025-09-04 09:04

具身智能行业概述 - 具身智能强调智能体与物理环境的交互与适应聚焦智能体在物理世界中感知环境理解任务执行动作并反馈学习的能力 [1] - 大脑负责思考感知主导语义理解和任务规划小脑负责执行高精度的运动执行 [1] 国内外产业布局 - 近2年具身明星团队陆续创业成立星海图银河通用逐际动力等公司推动具身本体和大小脑技术进步 [3] - 华为2024年底启动全球具身智能产业创新中心与乐聚机器人大族机器人等企业合作建设具身智能大脑小脑等关键技术 [5] - 京东自2025年5月以来连续投资智元机器人千寻智能逐际动力等多家公司强化物流科技与家庭服务场景效率与服务能力 [5] - 腾讯蚂蚁集团小米等科技巨头积极通过战略投资与合作布局加快构建具身智能产业生态 [5] - 国外Tesla/Figure AI在工业与物流机器人应用上持续推进美国投资机构积极支持Wayve Apptronik等公司落地自动驾驶与仓储机器人 [5] - 国内企业以产业链投资与综合平台驱动具身智能落地国外科技巨头侧重基础模型模拟环境与类人机器人原型研发 [5] 技术演进阶段 - 第一阶段技术研究聚焦抓取位姿检测通过点云或图像预测末端执行器姿态实现静态物体抓取但缺乏任务上下文和动作序列建模 [6] - 第二阶段进入行为克隆阶段机器人借助专家演示数据学习从感知到控制的端到端映射具备模仿人类完成复杂任务能力 [6] - 第三阶段2023年兴起Diffusion Policy方法通过扩散模型生成整个动作轨迹提升策略稳定性与泛化能力 [6] - 2024年进入Vision-Language-Action模型阶段融合视觉感知语言理解与动作生成模块支持零样本或小样本快速泛化 [7] - 第四阶段2025年探索VLA模型与强化学习世界模型触觉感知等模块融合弥补当前VLA模型局限 [9] - VLA+强化学习提升机器人在长时任务中的试错能力与自我改进能力 [11] - VLA+世界模型引入环境动态预测使机器人具备想象未来的能力 [11] - VLA+触觉信息拓展从看到看+触多模态融合的具身感知边界 [12] - 技术演进从低层感知到中层策略再到高层理解逐步迈向通用任务和开放环境的智能体时代 [14] 应用与产品落地 - 技术发展造就人形机器人机械臂四足机器人等产品落地服务于工业家居餐饮医疗康复等领域 [14] - 相关产品和融资络绎不绝岗位呈现爆发式增长 [14] 工程与系统能力需求 - 具身智能从论文走向部署对工程能力提出更高要求 [17] - 需在Mujoco IsaacGym Pybullet等平台完成策略训练与仿真测试 [17] - 需训练并部署Diffusion Policy VLA 力触融合的VLA模型 [17] - 需实现强化学习在VLA后训练上的应用支持机器人反馈微调 [17] - 需实现从世界建模预测到策略学习到物理执行的一体化具身智能架构 [17]

通用人工智能（AGI）

具身大脑+小脑算法课程

人形机器人

通用人工智能（AGI）

具身大脑+小脑算法课程

人形机器人

RoboMemory：专为物理具身系统中的终身学习而设计

具身智能之心· 2025-09-04 09:04

文章核心观点 - RoboMemory是一个类脑启发的多记忆框架专为物理具身系统中的终身学习而设计旨在攻克现实环境中的四大核心挑战：持续学习能力多模块记忆延迟任务关联性捕捉以及闭环规划中的死循环规避 [2] - 该框架整合了四个核心模块：信息预处理系统（类丘脑功能）终身具身记忆系统（类海马体功能）闭环规划模块（类前额叶功能）及低层级执行器（类小脑功能）以此实现长期规划与增量式学习 [2] - 作为框架中枢的终身具身记忆系统通过空间记忆时序记忆情景记忆与语义记忆四大子模块的并行更新与检索机制有效化解了复杂记忆架构中的推理速度瓶颈 [2] 技术框架特点 - 采用动态知识图谱与一致性架构设计显著提升了记忆连贯性与可扩展性 [2] - 综合了时间空间语义自传体记忆等与人脑相同的记忆类别并部署在真实的具身环境下 [4] - 专为动态真实环境中的持续学习能力而设计帮助具身Agent获得终身学习能力 [4] 应用场景与价值 - 针对具身Agent在真实环境中的痛点设计重点解决物理具身系统的实际应用问题 [2][6] - 通过多记忆框架提升具身Agent在闭环规划中的决策能力避免死循环问题 [2] - 将记忆系统应用在具身Agent领域填补了该方向的研究空白 [4] 研究背景 - 由香港中文大学(深圳)在读本科生与深圳市未来智联网络研究院研究助理联合开发 [2][6] - 论文已发布于arXiv平台论文编号为arXiv:2508.01415 [3] - 项目详情可通过https://sp4595.github.io/robomemory/ 获取 [2]

多记忆框架

多记忆框架

Galaxea 团队推出：大规模高质量开放世界数据集与G0双系统VLA模型

具身智能之心· 2025-09-04 09:04

核心观点 - Galaxea开放世界数据集是首个在真实人类生活与工作环境中采集的大规模机器人行为数据集解决现有数据集场景单一、本体不一致、标注粗糙的问题 [3][5] - G0双系统框架通过视觉语言模型进行多模态规划并与视觉-语言-动作模型协同实现细粒度执行在桌面操作、少样本学习和长程移动操作等基准测试中表现优异 [3][5] - 三阶段课程训练策略包括跨实体预训练、单实体预训练和任务特定后训练单实体预训练阶段与Galaxea数据集的结合对实现强劲性能具有关键作用 [3][35][39] Galaxea开放世界数据集 - 数据采集通过统一机器人本体Galaxea R1 Lite移动双臂机器人进行具备23个自由度搭载头部立体RGB相机与手腕RGB-D相机负载能力达5kg [3] - 在11个物理站点的50个独特场景中采集涵盖住宅、零售、餐饮、办公四大核心场景住宅场景占比最高达50.8% 办公场景占33.2% [6][12] - 总计500小时数据、10万条演示轨迹覆盖150类任务、1600种物体、58种操作技能并以2Hz频率标注细分子任务指令 [8] - 操作中"仅手臂""躯干+手臂""全身协同"的动作占比均衡技能分布呈长尾特征既包含高频基础动作也包含特殊技能 [11] - 相较于BridgeData V2、Open-X-Embodiment等主流数据集具有完全开放世界场景优势数据采集无预设脚本还原人类真实生活中的任务场景 [15][17] G0双系统框架设计 - 设计灵感来自Kahneman的"双系统理论" System 2负责规划 System 1负责反应两者异步运行 G0-VLM以15Hz规划 G0-VLA以200Hz控制 [19] - G0-VLM接收人类高层指令并分解为可执行的子任务序列 G0-VLA接收子任务指令、实时视觉观察与机器人本体状态生成连续动作序列实现闭环控制 [21] - 采用三阶段训练策略：阶段1跨本体预训练使用1000小时Open-X-Embodiment数据、500小时Galaxea数据集和200小时内部未标注数据 [27] - 阶段2单一本体预训练使用Galaxea数据集的完整标注数据阶段3任务特定后训练每个任务仅用最多100条高质量轨迹 [28][29] 性能评估结果 - G0-Full模型表现最优平均任务进度得分最高在"拾取-放置"类任务中优势显著 [39] - 单一本体预训练不可或缺 G0-Stage2在语言跟随、动作一致性、全身控制上表现优于G0-Stage1 数据量400小时性能优于200小时 [39] - 在少样本迁移场景中 G0-Stage2系列模型任务进度得分显著高于G0-Scratch与G0-Stage1 跨本体预训练无优势 [40] - G0-VLM准确率领先主流VLM模型50%以上在整理床铺上准确率达78.2% 桌面整理达83.3% [42][47] - G0-Stage2显著提升本体控制能力在"走向床铺""躯干抬起抓被子"等技能上得分远超G0-Stage1与基线模型 [46]

视觉-语言-动作（VLA）模型

Galaxea Open-World Dataset

G0双系统VLA模型

Galaxea R1 Lite移动双臂机器人

视觉-语言-动作（VLA）模型

Galaxea Open-World Dataset

G0双系统VLA模型

Galaxea R1 Lite移动双臂机器人