具身智能之心
搜索文档
全球灵巧手盘点以及新趋势猜想!
具身智能之心· 2025-12-23 08:03
文章核心观点 文章基于对全球灵巧手产品的盘点,分析了当前的技术现状并预测了未来发展的五大趋势,核心观点认为灵巧手技术正朝着微型化、感知融合、场景垂直化、低成本化及全身协同的方向演进 [2] 全球灵巧手产品盘点 - 文章将灵巧手分为两大类:人形原生手(7款)和独立手(14款) [2] - 盘点的产品包括但不限于:Phoenix Hand 3.2、Figure-03、Neo Gamma、Tesla Optimus Hand、ALLEX、Sharpawave、Clone Hand、Dexterous Hand、RH56E2、Agile Hand、DexHand V2.3、Kyber Labs、Wuji Hand、XHAND1、Surge Hand、ORCA Hand、Ability Hand、Aero Hand Open、Artus Lite等 [12][13][15][18][19] 未来技术发展趋势 趋势一:驱动与结构微型化 - 技术发展的核心趋势是微型化,特别是全直驱与高自由度的微型化突破 [2] - 当前电机体积制约了人形机器人手臂的空间适配,而Wuji Hand的刷屏显示出微型直驱电机集成化的重要性 [3] 趋势二:感知技术多模态融合 - 感知技术正从单一触觉向多模态智能融合升级 [4] - 多模态感知的学习效率被认为超过视觉-语言大模型,多模态数据对于优化灵巧手感知至关重要 [5] 趋势三:场景化垂直细分 - 灵巧手将从通用走向针对特定场景的深度定制 [6] - 例如,有公司计划打造专注于厨房场景的通用机器人,从洗碗功能起步,这代表了吃掉垂直细分市场的策略,应用方向包括家庭服务、工业装配和医疗康复等 [7] 趋势四:低成本与规模化普及 - 未来趋势是通过开源和量产硬件普及来实现低成本规模化 [8] - 硬件可靠性仍是巨大挑战,在相关讨论中,硬件瓶颈与算法瓶颈的讨论更为深入 [9] 趋势五:全身运动协同深化 - 人形原生手将从单独的手部控制升级为与全身运动深度协同 [10] - 这种协同类似于人通过俯身来拾取物品,能减少手部负载压力并提升复杂场景下的操作稳定性 [11]
这款机械臂丝滑跑出了pi0与pi0.5,支持Lerobot框架~
具身智能之心· 2025-12-23 08:03
产品发布与技术适配 - Imeta-Y1轻量级机械臂已成功适配Lerobot平台,实现了夹取方块并精准放入胶带圈的流畅操作,配套代码将正式开源 [2] - 该产品此前已打通pi0与pi0.5任务,此次适配旨在帮助算法快速落地实战 [2] 产品定位与目标用户 - Imeta-Y1是一款面向具身智能科研领域打造的轻量级、高性价比机械臂 [5] - 产品专为新手和科研初学者设计,目标用户包括学生、教育工作者及刚踏入机器人领域的开发者,旨在帮助其低成本、高效率地完成算法验证与项目开发 [5] 核心产品优势 - 提供全流程开源工具链与代码示例,覆盖从数据采集、模型训练到推理部署的全过程,目前开放了ACT算法示例 [6][20][39] - 支持Python和C++双语言接口,兼容ROS1与ROS2,并提供URDF模型,可实现仿真与真机的无缝切换 [6][7][20][21] - 提供24小时快速售后响应服务,保障学习与开发过程 [7][22] - 产品融合高精度运动控制、低功耗设计与开放软硬件架构,支持从仿真到真机的无缝联调 [9] - 其紧凑型结构与模块化接口,尤其适用于嵌入式AI与机器人学习平台的开发与应用推广 [10] - 后期将陆续升级更新VLA、VA相关的源码,新老客户均可享受升级 [22] 机械臂本体详细参数 - 本体重量为4.2KG,额定负载为3KG,拥有6个自由度 [11][22] - 工作半径为612.5mm,重复定位精度为±0.1mm [11][22] - 供电电压为24V,控制器为PC,主要材质为铝合金 [11][22] - 通讯方式采用CAN,外部接口为电源+CAN XT30 2+2,支持轨迹跟踪、示教及API控制 [11][22] - 各关节运动范围与最大速度:J1轴为-165°至165°,速度180°/s;J2轴为-180°至0°,速度180°/s;J3轴为-0°至180°,速度180°/s;J4轴为-95°至86°,速度220°/s;J5轴为-90°至90°,速度220°/s;J6轴为-150°至150°,速度220°/s [11][24] 末端执行器参数 - 提供了多款末端执行器(夹爪),重量分别为631g、671g和704g [13][14][16] - 行程均为0~80mm,定位精度为±0.5mm,外部接口为电源+CAN XT30 2+2 [13][14][16] - 其中一款夹爪尺寸为100 x 60 x 100mm,行程为0~90mm,重复定位精度为±0.1mm [24] 仿真与开发支持 - 提供URDF模型,支持Gazebo等主流仿真环境与真机实时联动,用户可在仿真中验证算法后一键部署至物理设备,降低开发风险与调试成本 [20][25] - 提供完整的开源软件开发工具包(SDK),包含驱动程序、API接口、示例代码与文档,支持Python、C++等语言 [32][33] - 工具链支持视觉、力控等多模态数据融合,并兼容TensorFlow、PyTorch等主流框架 [20][39] 性能测试与部署 - 产品经过严格的硬件测试,包括精度校准、耐久性、负载性能与稳定性验证 [42] - 展示了算法推理时间,例如在示例中,单次推理时间在29.94毫秒至36.19毫秒之间 [41] - 支持单臂数据采集与具身算法部署 [43] 销售与售后信息 - 产品交付周期为1-2周,提供快速响应的售后和生态服务 [51] - 非人为损坏情况下,产品质保期为半年,质保期后售后按市场价收费 [52] - 批量采购享有更多优惠,并支持基于本产品的项目开发与教学培训 [22] 常见问题解答 - 当前销售价格为单臂配置,非主从臂 [53] - 运行SDK和MoveIt等对电脑配置要求不高,但运行VLA模型需要GPU,已适配的ALOHA ACT算法在NVIDIA 4060显卡上即可进行训练和推理 [53] - 目前已适配的相机包括Intel Realsense D435系列和奥比中光DCW2 [53] - 用户可自行微调所有开源模型,目前产品开源适配的模型有Lerobot和ACT,未来将逐步适配并开源Robotwin、pi0等 [53] - 产品不支持无理由退货或测试,除非产品本身存在质量问题 [53]
AAAI 2026重磅!原力无限攻克具身智能“泛化”顽疾,定义因果AI新范式
具身智能之心· 2025-12-23 08:03
行业核心挑战 - 机器人实现广泛应用的关键在于其“泛化能力”,即适应新环境、新任务的能力[1] - 当前行业的核心痛点是“分布外泛化”问题,即机器人在训练场景外表现不佳,成为具身智能落地的最大障碍[3][4] - 传统AI与强化学习模型的问题在于只学会了表面的“相关性”,而未能掌握事物背后的“因果性”,导致其容易受到环境噪音(如背景颜色、光照变化)的干扰,无法举一反三[2][5][7] 技术核心突破 - 原力无限与多所大学联合完成的研究《DSAP: Enhancing Generalization in Goal-Conditioned Reinforcement Learning》被顶级人工智能会议AAAI 2026收录,标志着因果推理技术被成功引入具身智能领域[2] - 研究首次提出基于“因果图”的结构感知代理框架,该框架强制AI区分“状态无关变量”(如背景颜色、光照)和“状态相关变量”(如物体形状、位置),从而构建结构化的因果世界观[9][10] - 通过引入“解耦结构感知代理”,算法在数学层面切断了环境噪音对决策干扰的“虚假关联”,使AI决策专注于核心因果因素[12][13] - 算法学习到的因果结构与真实物理规律高度一致,证明其具备了结构化认知能力[15] - 在Alchemy和机械臂操作等复杂任务的验证中,搭载DSAP算法的智能体在面临全新环境配置时表现出惊人的稳定性[16][18] - 在视觉背景剧烈变化的测试中,DSAP的成功率显著优于GoFar、CORL等现有最先进算法[19] - 在多种分布外测试设置下,DSAP算法的平均回报率显著高于其他基准算法,展现出强大的泛化稳定性[21] - 这证明引入因果机制后,机器人开始具备初步的逻辑推理能力,而不仅是像素级的模式匹配[22] 公司战略与产学研协同 - 该顶会论文是产学研深度融合的典范,原力无限不仅提供了关键场景认知,也验证了其核心技术战略的前瞻性[24][25] - 公司研究团队致力于构建具有“因果世界模型”能力的超级大脑,DSAP所探讨的“因果泛化”是公司Hyper-VLA大模型进化的必经之路[25] - 通过与香港大学、澳门大学、武汉大学等顶尖学术力量合作,公司构筑了开放、前沿的科研生态系统[25] - “高校理论创新+企业场景验证”的模式加速了前沿算法的验证周期,使公司的技术底座始终保持在学术界最前沿[25]
今年大概率产了n篇VLA+RL工作吧?!
具身智能之心· 2025-12-22 18:23
行业技术趋势:VLA与强化学习的融合 - 当前视觉-语言-动作模型在真实世界开放分布场景中表现脆弱,仅依赖模仿学习缺乏失败恢复、自主探索与闭环纠错能力[2] - 强化学习被证明能显著提升VLA模型的泛化能力,实验显示在分布外任务上的性能提升可达42.6%[2] - 2024至2025年间,VLA+RL的研究方向产出大量论文,成为行业活跃领域,技术框架也在逐步完善[2] 代表性研究方法与框架 - **世界模型与在线方案**:基于世界模型的在线系统是活跃方向,如NORA-1.5模型利用世界模型和基于动作的偏好奖励进行训练[2][5] - **离线强化学习**:离线RL方法被广泛用于VLA模型的后期训练,以平衡信号与方差,并实现高效微调,例如CO-RFT方法[5] - **工具与框架**:RLinf等工具框架正在完善,支持的方法越来越多,为VLA+RL训练提供统一高效的平台[2][11] 近期重要研究成果(2025年) - **NORA-1.5**:一种通过世界模型和基于动作的偏好奖励学习的VLA模型[5][6] - **Pi0.6**:推测结合了强化学习技术,取得了惊艳效果[2] - **GR-RL与WholebodyVLA**:近期工作显示出显著效果[2] - **WMPO**:基于世界模型的VLA策略优化方法[8][9] - **RobustVLA**:专注于鲁棒性的VLA强化学习后期训练方法[8][9] - **DeepThinkVLA**:通过增强推理能力来提升VLA模型[8][9] - **Self-Improving VLA**:通过残差RL进行数据生成以实现自我改进的VLA模型[8][9] 技术细分方向 - **后期训练与微调**:多种方法专注于VLA模型的强化学习微调,如VLA-RFT在世界模拟器中使用已验证奖励进行微调[10][11] - **策略优化与泛化**:研究探索RL如何提升VLA泛化能力,并有实证研究[13][14] - **安全与对齐**:研究开始关注VLA模型的安全对齐问题,例如SafeVLA通过约束学习实现安全对齐[16][18] - **数据生成与蒸馏**:通过强化学习进行策略蒸馏和数据生成,以创建通用且强大的机器人策略[17][18]
复杂空间推理新SOTA,性能提升55%!中山大学新作SpatialDreamer
具身智能之心· 2025-12-22 09:22
文章核心观点 - 由MBZUAI与中山大学的研究团队提出的SpatialDreamer框架,通过模拟人类主动探索、心理想象和空间推理的闭环过程,显著提升了多模态大语言模型在复杂空间任务上的性能,为人工智能空间智能的发展开辟了新路径 [1][4][14] 技术框架与核心流程 - SpatialDreamer是一个基于强化学习的框架,旨在通过主动探索、视觉想象与证据融合的闭环过程,赋予MLLMs类人的空间心理模拟能力 [4] - 其闭环推理流程包含三个步骤:1) 探索:推理出最优的自我中心动作(如「前进0.75米」或「左转45度」);2) 想象:调用世界模型生成执行动作后的新视角图像;3) 推理:整合所有累积的视觉证据,生成最终答案 [6] - 该过程使模型从「被动观察」转向「主动目标导向的想象」,实现了在内部三维环境中自主决定行动与推理 [7] 关键技术创新 - 为解决长序列推理任务中奖励稀疏的问题,研究团队提出了GeoPO策略优化方法,该方法包含:1) 树状采样结构,支持回溯与多路径探索;2) 多级奖励设计,融合任务级与步级奖励;3) 几何惩罚机制,对冗余或冲突动作施加惩罚系数(如0.9),以鼓励高效轨迹生成 [8] - GeoPO在提升模型性能的同时,也显著加快了训练收敛速度 [9] - 为引导模型学习「思考-想象-回答」的模式,构建了SpatialDreamer-SFT数据集,包括单轮推理数据以及通过「错误注入 → 自我纠正 → 重建推理链」构建的反思式推理数据 [11] 实验结果与性能表现 - 在SAT基准测试中,SpatialDreamer在真实与合成图像中均达到SOTA,平均准确率分别达93.9%与92.5% [13] - 在MindCube-Tiny基准测试中,整体准确率达到84.9%,较基线模型Qwen2.5-VL-7B提升超过55% [13] - 在VSI-Bench基准测试中,在物体计数、相对方向、路径规划等任务中全面领先,平均准确率达62.2% [13]
超越π0.5,MiVLA通过人机相互模仿预训练,破解 VLA 模型泛化与数据瓶颈
具身智能之心· 2025-12-22 09:22
文章核心观点 - 由同济大学、电子科技大学等团队提出的MiVLA模型,通过“人机相互模仿预训练”范式,首次实现了无需真实机器人数据,仅融合模拟机器人数据与人类视频数据进行训练,就能在机器人视觉-语言-动作模型领域取得超越现有顶尖模型的泛化能力,为通用机器人策略学习提供了低成本、高可扩展的新路径 [2][19] 当前VLA模型训练的困境与MiVLA的解决方案 - 当前VLA模型训练面临双重困境:依赖真实机器人数据受限于高昂的采集成本、有限的场景与机器人形态覆盖,导致数据规模难以扩大;依赖单一模拟数据或人类数据则分别受限于“模拟-现实鸿沟”和人机形态差异导致的动作知识迁移难题 [3] - 现有方案无法同时解决“数据稀缺”与“跨模态迁移”的核心矛盾,而优质的VLA预训练需要“数据规模、行为保真、跨模态适配”三者的统一 [3] - MiVLA模型通过“人机双向动作映射消除形态鸿沟,相互模仿预训练融合双源数据优势”,构建了兼顾通用性与实用性的VLA模型 [3] MiVLA模型的核心设计特性 - **核心特性1:双向人机动作空间映射**:通过选取人类拇指指节姿态与机器人末端执行器姿态作为核心参考点,结合逆运动学或解剖学先验,实现人类与机器人动作坐标系的双向精准转换,并将人机专属关节空间与通用末端执行器空间统一对齐 [7] - **核心特性2:人机相互模仿预训练**:采用“预测-模仿”双任务预训练范式,模型从单一模态数据中学习双模态动作知识,利用L2损失函数同时优化“模态内动作预测”与“跨模态动作模仿”,实现了模拟机器人数据的操控多样性与人类视频数据的行为保真度的优势互补 [8][9] - **核心特性3:扩散Transformer架构**:采用“多模态编码器+扩散解码器”的统一架构,通过流匹配迭代去噪生成连续动作序列,兼顾多模态信息融合与连续动作生成精度,支持长序列任务的精准控制 [8] - **核心特性4:轻量化高效训练**:预训练仅需4块A100 GPU,批量大小为128,使用约900小时混合数据(模拟机器人+人类视频)的训练效果,即可比肩需要10000+小时真实机器人数据训练的π系列模型 [8][9] 关键实验结果 - **模拟环境性能领先**:在RoboTwin-2.0基准的20项代表性任务中,MiVLA在Easy模式下的平均成功率为69%,在Hard模式(含域随机化)下为66%,大幅超越ACT、H-RDT等基线模型 [9][10] - **真实机器人跨形态泛化能力突出**:在3类异构机器人(单臂PiPER、单臂ARX-5、双足+双臂LocoMan)的真实任务测试中,MiVLA以中等规模混合数据实现了平均55%的成功率,比肩使用大规模真实数据预训练的基线模型 [11][13] - **对未知形态的适配性**:在双足+双臂复合机器人LocoMan上,MiVLA成功完成了长序列双臂协同任务,而所有基线模型均未见过此全新架构,证明了其强大的跨模态泛化能力 [13] - **数据效率与泛化能力**:仅需20条演示数据,MiVLA即可实现对未知位置、物体的有效适配,全量训练后平均泛化成功率达54% [15][17] 核心组件有效性与未来方向 - **消融实验验证核心组件**:实验表明,完整的人机相互模仿预训练是性能提升的关键,仅使用人类数据预训练或单向模仿,性能均不及双向模仿的完整模型 [14] - **未来优化方向**:计划融合视觉语言模型的语义推理能力以提升对抽象指令和未知物体的适配性;扩展融入触觉、声音等多模态数据以强化复杂物理交互的控制精度;扩大数据覆盖范围至高精度灵巧任务及更多人形机器人形态,以提升通用化水平 [18]
自变量王潜:具身智能是物理世界的独立基础模型|MEET2026
具身智能之心· 2025-12-22 09:22
文章核心观点 - 具身智能模型应被视为一个独立于、平行于语言模型和多模态模型的全新基础模型,是专门为物理世界构建的智能底座 [1][7][60] 物理世界与虚拟世界的本质差异 - 物理世界充满连续性、随机性、不完全可观测性以及大量与力、接触和时序强相关的过程,而虚拟世界(语言/多模态模型所面对)是高度可复现、低随机性的符号世界 [2][10] - 物理事件具有高度随机性,例如用相同的角度和力度推一个杯子,十次可能停在十个不同的地方,这在虚拟世界中几乎不会发生 [10][11][12] - 现有的以语言和视觉为中心的模型架构、训练方法和数据能力,难以精确刻画物理世界的高度随机性现象 [12][16] 现有技术范式的局限性与新模型必要性 - 沿用以语言和视觉为中心的建模范式存在结构性错位,语言和视觉并非描述动作和物理过程的理想工具 [3][16] - 语言只能描述长序列(如10秒以上)事件,难以描述精细操作(如炒菜)[16] - 图像精度优于语言,但仍面临工具使用、遮挡等问题,大量涉及力和接触的过程无法靠语言和图像描述 [18][19] - 因此需要“另起炉灶”,重新训练一个专门供物理世界使用的基础模型,而非仅在现有模型上做微调 [20] 模型架构与学习范式的转变 - 感知和决策层面需要转变思路,人类在物理世界中的学习方式(如Active Perception, Interactive Perception)与虚拟世界中的静态统计学习范式有根本不同 [24][27][28][29] - 物理世界学习通过带有时序、因果和空间信息的连续观察流,以及与环境的主动互动实现,这应是多模态模型未来的重要发展方向 [27][28][29] - 坚持静态、固定的数据学习方式,无法实现人类般高效、节省数据和算力的学习效果 [30] 具身智能基础模型的潜力与影响 - 以十年为周期看,具身智能基础模型有可能反过来吞噬现有多模态模型的生存空间 [12][31] - 构建统一的基础模型应是完全端到端的,这已成为行业共识 [12][32] - 需要设计专门考虑端侧部署和推理的模型架构,以解决推理速度等权衡问题,而非沿用旧架构 [33] - 具身智能模型应是一个集成了语言能力、世界模型能力、视频生成能力和三维重现能力的统一模型 [39][40] 数据与Scaling Law - 数据的Scaling Law在机器人领域被认为是最困难的事情之一 [46] - 现实世界的数据应是最主要的来源,训练应分阶段(预训练、后训练),并发现了第三个Scaling Law:在推理时通过思维链等方式拓展模型能力 [48] - 物理世界适合持续学习范式,即端侧实时更新数据,进行体验式学习,这本质优于集中式批次训练,但带来体系架构、系统和硬件上的新挑战 [51][52] 软硬一体与AI定义硬件 - 需要让AI定义硬件,而非先制造完美硬件再适配AI模型 [53] - 公司坚持软硬一体同步发展,已实现两款全自研轮式底盘人形机器人及高自由度灵巧手,并开始市场销售 [54] - 实现了跨本体泛化,例如从夹爪模型迁移到20个自由度(15个主动自由度)的灵巧手,仅需非常少量样本,表明模型已学会基础物理规律和动作模式 [36] - 在高度复杂任务上,实现了超过人类遥操作训练速度的1倍速实时控制,并维持高准确率 [33][34] - 公司自研的WALL-OSS是领先的开源物理世界基础模型,具备VLA模型控制机器人、良好泛化、智能跟随及构建长序列思维链解决复杂问题的能力 [41][44] 具身智能的宏观重要性 - 普遍观点低估了具身智能的发展和影响,认为语言、数学、代码等领域比具身智能有本质重要性,但此观点存在隐藏假设 [54] - 创造超越人类的AGI/ASI所需的一切资源(算力、芯片、电力、能源、数据)都来自物理世界 [54] - 当前物理世界未出现指数级增长的核心卡点是“人手的劳动”,几乎所有商品和服务都无法脱离这一步 [57][58] - 若具身智能实现,万事万物可遵循类似芯片摩尔定律的发展规律,从而带来更多资源以创造更聪明的ASI,走向真正的通用智能未来 [59]
这个近3000人的具身社区近期又分享了很多内容~
具身智能之心· 2025-12-22 09:22
行业动态与趋势 - 融资方面,下半年本体零部件公司融资金额增大、公司数量增多,除明星公司外,许多创业公司带着订单来融资 [2] - 量产方面,多家公司试点逐步推进,头部人形机器人开始探索工业级产品的部署 [2] - 产品设计方面,机械臂产品逐渐收敛,移动操作和人形机器人在结构和尺寸上持续创新,各公司均在压低成本,供应链管理能力成为后期关键竞争力 [2] - 模型泛化方面,基于强化学习的优化思路使模型泛化能力增强,相关工具箱完善,真机部署逐渐便利 [3] - 部署方面,地瓜机器人推出S600助力边缘侧部署,Thor开始应用于人形机器人和移动操作,2000T以上算力逐渐成为参考配置 [4] 社区资源与活动 - 社区提供持续的直播分享,包括圆桌论坛,内容涵盖本体、数据、算法,探讨行业动态与待解决问题 [8][9] - 社区整理了完整的技术路线,为入门者提供技术栈和学习路径 [13] - 社区为已从事相关研究的成员提供有价值的产业体系和项目方案 [15][16] - 社区与多家具身公司建立岗位内推机制,可第一时间将简历送达目标公司 [18] - 社区邀请了数十位活跃在一线产业界和工业界的具身领域嘉宾,可为成员答疑解惑 [18] - 社区汇总了近40+开源项目、近60+具身智能相关数据集、行业主流具身仿真平台以及各类技术学习路线 [19] - 社区汇总了具身智能多个研究方向的国内外知名实验室,供成员读研、申博、博后参考 [21][22] - 社区汇总了国内外各类具身相关机器人公司,涉及教育、宠物、工业、救援、物流、交互、医疗等方向 [24] - 社区汇总了大模型、人形机器人等行业相关的研报,帮助了解行业发展与工业落地情况 [25] - 社区汇总了机器人导航、概率机器人、动力学与运动学、路径规划、视觉控制等多个方向的PDF书籍 [27][28] - 社区汇总了机器人行业知名的零部件制造厂商,涉及芯片、激光雷达、相机、IMU、底盘等 [29] - 社区汇总了机器人仿真、抓取、控制、具身交互、感知等多个领域的开源项目 [30] - 社区汇总了国内外知名ToF厂家、相关产品、技术手册、综述等内容 [31] - 社区汇总了遥操方案、动作捕捉、AR等数据采集方案,以及具身感知、触觉感知、导航、大模型等多个领域的开源数据集 [32][34] - 社区汇总了通用机器人仿真平台和真实场景仿真平台 [35] - 社区汇总了基于LLM的强化学习、可解释强化学习、深度强化学习主流方案,以及VLA+RL相关工作 [35][46] - 社区针对主动视觉感知、3D视觉感知定位、视觉语言导航、触觉感知等多个任务进行了汇总 [36] - 社区汇总了具身智能与环境交互相关工作,涉及抓取、检测、视觉语言模型、具身问答等 [38][39] - 社区针对视觉语言导航、规划等应用内容进行了详细汇总,关注自动驾驶与机器人应用 [41] - 社区汇总了触觉感知最新综述、传感器应用、多模态算法集成、数据集等内容 [42] - 社区汇总了大量多模态大模型理解相关内容,包括Image/Video/Audio/3D+Text到Text等 [43] - 社区汇总了大量多模态大模型生成相关内容,包括Image/Video/Audio+Text到Image/Video/Audio+Text等 [44] - 社区汇总了扩散模型设计、Diffusion Policy具体任务应用、Diffusion Generation等内容 [47] - 社区针对大模型部署框架、轻量化方法进行了汇总 [48] - 社区针对机械臂抓取、任务数据表示、位姿估计、策略学习多个部分展开了汇总 [50] - 社区对开源的双足与四足机器人项目、仿真、源码、硬件等部分进行了详细汇总 [50] - 社区针对移动+执行硬件方案进行了汇总 [51] 社区概况与成员 - 社区是国内首个具身全栈社区,旨在提供技术交流平台,交流学术和工程问题 [18] - 社区成员近3000名,来自国内外知名高校实验室和具身相关机器人头部公司 [18][56] - 高校和科研机构成员包括斯坦福大学、加州大学、清华大学、西湖大学、上海交大、上海人工智能实验室、港科大、港大、南洋理工、新加坡国立、ETH、南京大学等 [18] - 公司成员包括智元机器人、有鹿机器人、云深处、优必选、傅里叶机器人、开普勒机器人、小米、星海图、银河通用、星尘智能、逐际动力等 [18] - 社区与近200家具身公司与机构有交流 [56]
和我们一起创造价值!具身智能之心招募编辑、运营和销售的同学啦(实习 or 全职)
具身智能之心· 2025-12-21 18:05
公司业务与平台定位 - 公司运营一个名为“具身智能之心”的技术创作平台 专注于具身智能领域 [2] - 平台核心业务是为行业输出前沿技术、课程、行业概况、融资、产品、政策等内容 [2] - 平台目前正处于业务上升期 正在招募新成员以共同创造价值 [2] 人才招聘需求 - 公司正在面向粉丝招募编辑、运营、销售岗位 提供全职和实习机会 [2] - 编辑岗位负责公众号内容创作与编辑 要求具备专业基础和内容创作经验 [2] - 销售岗位负责课程、硬件等产品的销售推广 要求具备销售基础并了解具身用户需求与市场 [3] - 运营岗位负责公众号、小红书、社群运营以提升粉丝粘性和关注度 要求具备运营能力并了解自媒体平台玩法 [4] - 实习岗位中除编辑岗外均要求线下办公 [2]
机器人学习现状!Physical Intelligence内部员工分享(从数采到VLA再到RL)
具身智能之心· 2025-12-21 00:03
文章核心观点 - 截至2025年12月,机器人学习领域的主流技术栈是基于人类专家演示的纯粹行为克隆系统,但其存在分布外状态、误差累积、速度上限等固有局限 [5] - 为提升行为克隆策略的鲁棒性,行业普遍采用DAgger风格的方法,通过迭代收集失败恢复数据来修正策略,但该过程高度依赖人工、耗时且难以规模化 [26][29][31] - 强化学习被视为实现机器人自我改进的理想路径,但由于无法像大语言模型那样从同一状态无限探索,且缺乏强大的基础策略,在真实机器人应用中尚未成功 [40][41][54] - 未来突破的关键在于发展能够高质量模拟通用开放世界交互的“世界模型”,并结合专家示范与真实机器人运行数据,以实现超人性能 [58][73] 现代机器人学习技术栈剖析 - **数据收集方案**:主要依赖三种方式获取人类演示数据 [7] - **主从控制方案**:如GELLO、ALOHA,使用控制器直接远程操控机器人,数据运动学可行但采集速度比人类徒手慢可达10倍,且规模化成本高 [8][9][10] - **智能演示手套**:如通用操作接口,人类手持设备完成任务,通过SLAM和逆运动学重建状态与动作,部署成本更低但会引入严重的域差距和运动学可行性问题 [11][12][18] - **直接人类示范**:利用YouTube或工厂工人佩戴摄像头记录的数据,规模巨大且多样,但存在巨大的状态与动作重建差距,且轨迹往往在运动学上不可行 [12][13][19] 行为克隆系统的核心挑战与应对 - **根本难题**:行为克隆策略在执行时会因环境微小变化、任务不确定性及动作预测误差的递归累积而逐渐偏离,进入训练分布之外的状态 [16][17][23] - **关键应对方法**:采用DAgger方法,通过迭代收集策略在失败状态下的恢复数据,并将这些数据纳入训练,以将策略“拉回”到已知分布 [25][26] - **DAgger的实施痛点**: - 是一个高度迭代、依赖人工判断的繁琐过程,需要与各种失败模式“打地鼠” [29][31] - 通常在预训练好的基础策略上进行,但更新基础模型会清空之前迭代形成的“手感” [32] - 随着策略变鲁棒,评估其性能所需的时间急剧增加,离线指标与真实性能相关性弱 [33][34] 当前技术的能力边界与尝试 - **速度瓶颈**:行为克隆策略的最理想执行速度无法超过人类示范本身,尝试对速度进行条件化建模或高频执行均效果有限或带来新问题 [36][37][47] - **强化学习的应用困境**: - **与大语言模型的差异**:机器人无法从同一物理状态无限次执行探索,也缺乏一个非零成功率的基础策略,使得在线强化学习不可行 [45][46][54] - **仿真中的强化学习**:受限于仿真器与真实世界的巨大差距,除运动控制等特定任务外,在操作任务中收效有限 [56][57] - **真实世界中的强化学习**:核心障碍是无法回答反事实问题,即比较同一状态下不同动作的后果,需要依赖难以学习的Q/V函数或世界模型来“想象” [63][65][70] - **近期进展示例**:Physical Intelligence发布的pi*0.6方法使用优势加权回归变体,相比纯行为克隆仅有小幅提升,且许多任务仍依赖人工DAgger数据 [71] 对未来发展的预测与行业建议 - **技术发展预测**: - 2年内:视觉语言动作模型将被视频模型骨干取代 [73] - 10年内:世界模型将能很好模拟通用开放世界交互,策略可通过在世界模型中“抽取”获得 [73] - 接近专家级的示范数据对微调世界模型仍至关重要,但实现超人性能仍需真实机器人运行数据 [73] - **创业与商业建议**: - 构建能有效降低痛点的软硬件一体人类示范系统是可靠且有价值的路径 [74] - 数据标注是高度商品化的人力成本套利业务,预训练数据售卖需证明能提升模型性能,且并非所有机器人数据都有用 [75] - 评估是模型改进的关键闭环,必须在公司内部完成,无法外包 [73] - 在具身AGI领域,不可能存在通用的“一统天下”的数据平台 [73]