Workflow
具身智能之心
icon
搜索文档
今年的VLA+RL的工作正在排队等着录用......
具身智能之心· 2025-12-24 08:25
行业技术趋势:VLA与强化学习(RL)的深度融合 - 当前视觉-语言-动作模型在真实世界应用中面临挑战,仅依赖模仿学习的VLA在分布外场景中表现脆弱,缺乏失败恢复、自主探索与闭环纠错能力 [2] - 强化学习被证明能显著提升VLA模型的泛化能力,实验显示其在分布外任务上的性能提升可达42.6% [2] - 2024至2025年间,VLA+RL的研究方向产出大量论文,成为行业活跃领域,技术框架也在逐步完善 [2] 代表性研究方向与工作 - **世界模型与在线方案**:基于世界模型的在线系统是活跃方向,例如NORA-1.5模型利用世界模型和基于动作的偏好奖励进行训练 [2][5] - **离线强化学习优化**:多个工作专注于通过离线RL对VLA进行后训练,以平衡信号与方差,并提升效率,例如CO-RFT采用分块离线强化学习进行高效微调 [5] - **策略优化与泛化增强**:研究通过强化学习放大机器人视觉-语言操作能力,并探索RL为VLA泛化带来的实际效益,有工作对此进行了实证研究 [5][13] 关键工具与框架发展 - **RLinf框架**:由行业专家推动的Rlinf工具,支持的方法越来越多,为VLA+RL训练提供了一个统一且高效的框架 [2][11] - **多样化训练方法**:行业出现了多种微调与后训练方法,包括使用世界模型作为虚拟环境、基于反射的任务适应、以及结合人类在环的双行动者微调等 [8][10][12] 近期(2025年)重要研究成果列举 - **2025年11月**:发布了NORA-1.5、pi0.6、WMPO、RobustVLA、World-Env等多篇重要论文,涉及世界模型策略优化、鲁棒性后训练等方向 [5][6][8][9] - **2025年10月**:推出了DeepThinkVLA以增强模型推理能力,以及多个基于流匹配策略的强化学习微调工作 [9][10][11] - **2025年9月**:研究包括自改进的具身基础模型、VLA-Critic模型用于机器人现实世界强化学习,以及简单的VLA-RL扩展训练 [11][12] - **2025年5月至6月**:工作聚焦于强化学习恢复压缩模型、轨迹组策略优化,并实证研究RL对VLA泛化的作用 [13][14] - **2025年1月至3月**:研究方向包括通过在线RL改进VLA、大规模RL微调实现卓越的机器人策略,以及VLA的安全对齐 [16][17][18]
深度解析世界模型嵌入具身系统的三大技术范式
具身智能之心· 2025-12-24 08:25
文章核心观点 - 一篇关于具身智能领域世界模型架构集成的综述文章,首次从架构集成视角将现有研究划分为三大范式,旨在解决传统反应式系统缺乏预测和泛化能力的问题 [1][3][8][13] 世界模型的价值与引入背景 - 传统具身指令跟随系统将语言、感知和动作视为分离组件,纯反应式方法面临缺乏前瞻性和泛化性差两大瓶颈 [8][13] - 世界模型源于人类认知科学,其核心思想是构建能预测未来的内部模型,为智能体带来样本效率提升、长程推理能力、安全性增强及主动规划能力 [8] 架构融合的分类框架 - 根据世界模型与策略模型之间的耦合强度,提出了一个包含两个独立维度的分类框架 [11] - **梯度流动**:策略优化目标的梯度能否直接反向传播以更新世界模型参数 [14] - **信息依赖**:策略输出动作时是否显式依赖于世界模型预测的未来状态 [14] - 基于这两个维度,将相关工作分为耦合强度由弱到强的三大范式:模块化架构、顺序架构和统一架构 [11][12] 范式一:模块化架构 - 关键词为独立、互操作、弱耦合,世界模型和策略作为两个独立单元,无梯度流动,策略不依赖未来状态 [16] - 世界模型作为世界模拟器,关注动作与状态间的因果变化,让智能体能在内部根据动作预演未来 [16] 范式二:顺序架构 - 关键词为分层、意图生成、中等耦合,先由世界模型预测未来状态,策略再基于该状态预测动作 [17] - 梯度传递分为两个阶段,世界模型作为决策生成器,核心任务是生成一个有价值的未来目标状态,从而简化后续控制问题 [17][18] 范式三:统一架构 - 关键词为端到端、联合优化、强耦合,将世界模型和策略集成到一个端到端网络中 [19] - 两者融合为统一大网络,在同一个损失目标下训练,使网络能在同一条计算路径中预测未来状态并输出合适动作,无需显式区分模拟与决策步骤 [19][20][21] 未来研究方向 - **世界模型的表征空间选择与耦合**:未来趋势是融合视觉空间与状态空间,通过统一潜变量平衡表达能力与推理效率 [23] - **结构化意图的生成与表达**:世界模型应生成可解释的未来结构,并与语言和符号推理结合,以显式刻画任务分解、物体关系与因果依赖 [23] - **指导具身智能的脆弱性**:需引入可达性判别、可行性过滤等机制以降低失效风险,并权衡解释性与最优性 [24] - **统一的世界-策略模型构建范式**:需探索如何将大规模预训练模型以最小代价转化为统一决策系统,关键难点在于状态空间对齐和表示粒度选择 [24]
单卡训练1亿高斯点,重建25平方公里城市:3DGS内存墙被CPU「外挂」打破了
具身智能之心· 2025-12-24 08:25
文章核心观点 - 纽约大学研究团队提出名为CLM的系统,通过将3D高斯泼溅训练中占用显存最多的参数转移到CPU内存,使单张消费级显卡也能训练上亿规模的高斯点模型,显著降低了城市级3D重建的硬件门槛[3] 3DGS的规模应用瓶颈 - 3D高斯泼溅在应用于城市街区等复杂场景时,GPU显存成为最直接且难解决的瓶颈[5] - 一个高精度3DGS模型通常包含数千万乃至上亿个高斯点,每个点包含数十个参数,训练还需保存梯度和优化器状态[5] - 即便是24GB显存的RTX 4090,也只能容纳约一两千万个高斯点的完整训练状态,远不足以覆盖城市级场景[5] - 此前扩展规模的方法不理想:多GPU并行训练成本高昂,或通过压缩等方式减少高斯数量但牺牲重建质量[6] CLM系统的设计原理 - 研究发现,在3DGS训练的每一次视角渲染中,真正参与计算的高斯点只占整个场景的极小一部分,单帧图像通常只会访问不到1%的高斯点[7] - 设计思路是不再将所有高斯参数常驻显存,而是在需要时按视角动态加载[8] - 系统通过三项关键机制实现CPU-GPU协同[9] - **机制一:属性分割**:将每个高斯点的59个参数分为两类,用于视锥剔除的“关键属性”(位置、旋转、缩放,共10个浮点数)永久保存在GPU显存,仅占单个高斯内存占用的不到20%;其余约80%的“非关键属性”卸载到CPU内存,需要时才加载[10][11] - **机制二:预渲染视锥剔除与选择性加载**:在渲染前显式计算当前视角中可见的高斯点索引,仅从CPU内存加载这些可见点的完整参数,减少了GPU对不可见高斯的无效计算和内存占用[12] - **机制三:优化数据传输**:通过微批次流水线将参数加载与GPU计算重叠以隐藏通信延迟;利用缓存机制避免反复加载相同数据;通过智能调度(建模为旅行商问题)寻找高斯点重用率最高的视角排列以最大化缓存命中[15][16][17] CLM系统的性能与效果 - **规模突破**:在“MatrixCity BigCity”数据集上,传统GPU-only方法在RTX 4090上最多训练1530万个高斯点,而CLM成功训练了1.022亿个高斯点,模型规模扩大了6.7倍,比仅使用卸载功能时大2.2倍[18] - **速度可控**:凭借重叠计算设计,CLM在RTX 4090上的训练吞吐量能达到增强型基线吞吐量的55%至90%;在RTX 2080 Ti上,吞吐量甚至能达到基线的86%至97%[23] - **通用性强**:该方案与具体后端渲染引擎无关,并可扩展至其他splatting算法[21] 产业意义与应用前景 - CLM是一项直接面向真实部署瓶颈的系统工程研究,核心贡献在于首次系统性地将CPU内存和计算资源纳入了3DGS训练的资源分配体系[22] - 为学术界和工业界进行超大规模场景重建提供了一种不依赖多GPU集群的高性价比可行路径[22] - 随着数字孪生、大规模地图重建等应用需求增长,能在现实硬件条件下稳定扩展规模对相关工作开展非常有利[22] - 展示了通过软硬件协同、重新组织既有计算资源,在不增加专用硬件投入的情况下推进3DGS实用化的可能方向[22]
MIT团队提出OpenTouch:首次实现真实场景下视觉、触觉、手部姿态的同步建模
具身智能之心· 2025-12-24 08:25
文章核心观点 - MIT、杜克大学等联合团队提出的OPENTOUCH框架,通过“硬件感知系统 - 大规模数据采集 - 多模态基准测试”的三层技术体系,首次实现了真实场景下视觉、触觉、手部姿态的同步建模,为具身学习与机器人操纵提供了全新范式 [3][4] 技术背景与挑战 - 现有计算机视觉与机器人技术长期依赖单一视觉模态,难以捕捉接触力、材质属性等关键信息 [3] - 真实世界触觉感知面临四大核心挑战:模态信息缺失、野生环境适应性差、多模态同步难题、标注效率低下 [6][7][8][9] 方案设计:三层技术闭环 第一层:硬件感知系统 - 设计了轻量化、高鲁棒性的硬件套件,以实现野生环境下的高精度多模态采集 [12] - **全手触觉传感手套**:基于柔性印刷电路技术,集成16×16电极网格与压阻薄膜,形成169个触觉传感点,均匀覆盖手掌与手指,成本低且可批量生产 [12] - **手部姿态追踪手套**:采用Rokoko Smartglove专业动捕设备,通过IMU与EMF传感器融合,以30Hz频率输出7个6DOF姿态数据,旋转精度达±1° [12] 第二层:大规模数据采集 - 构建了覆盖真实生活场景的大规模多模态数据集 [13] - **第一视角视觉采集**:利用Meta Project Aria智能眼镜,同步采集1408×1408分辨率RGB视频、眼动追踪、音频与IMU数据,视场角110° [15] - **多模态时间同步**:通过终端视觉触发信号实现跨设备校准,将视频、触觉、姿态数据的时间延迟控制在2ms内 [15] - **多样化采集场景**:在14个日常环境中,让参与者自由操纵800+类物体,采集5.1小时同步数据,其中3小时为高密度标注的接触-rich交互片段 [15] - **智能标注流水线**:采用GPT-5自动化标注加人工验证机制,生成物体名称、类别、环境、动作、抓握类型、自然语言描述6类标签,标注准确率达90% [15] - **多模态数据维度**:数据集包含RGB视频、全手触觉压力图、3D手部姿态、眼动轨迹、音频等多源数据,支持跨模态关联分析 [15] 第三层:基准测试体系 - 基于数据集构建了两大核心基准任务:跨模态检索任务与触觉模式分类任务 [15][16] - **跨模态检索任务**:包括视频↔触觉、姿态↔触觉、多模态→单模态三类子任务,要求模型学习共享表征空间 [16] - **触觉模式分类任务**:分为手部动作识别与抓握类型分类,验证触觉信号对交互意图与接触方式的判别能力 [16] - **评估指标与基线**:采用Recall@1/5/10、平均精度均值评估检索性能,分类任务使用准确率指标,基线模型包括CCA、PLSCA线性方法与CLIP-style对比学习框架 [16] 性能验证结果 跨模态任务性能突破 - 在核心基准测试中,多模态融合模型显著优于单模态与线性基线 [20] - **跨模态检索**:视频+姿态→触觉检索的mAP达26.86%,较CCA线性方法提升5倍以上;触觉单独检索姿态的Recall@1达7.15%,远超随机猜测的0.07% [21] - **分类任务**:触觉+视觉融合的抓握类型分类准确率达68.09%,触觉单独分类准确率达60.23% [21] - **定性结果**:模型能精准匹配相似接触模式,即使视觉上存在遮挡或物体透明,触觉信号仍能提供关键线索 [21] 关键因素消融分析 - **时间窗口长度**:20帧窗口的检索性能最优,较5帧窗口的Recall@1提升47%,证明长时程时序动态对接触模式识别的重要性 [24] - **触觉编码器设计**:轻量化CNN编码器在所有任务中优于ResNet-18,mAP最高提升10.49%,说明触觉信号的稀疏结构化特性更适合紧凑编码器 [24] 真实场景应用拓展 - 在Ego4D野生视频数据集上的零样本检索实验中,OPENTOUCH模型能从输入视频中检索到语义相似的触觉序列,证明其泛化能力 [26] - 给定人类操纵物体的视频查询,模型返回的触觉信号与真实接触模式高度一致 [28] - 该应用可将大规模视觉视频数据集与触觉信息关联,为机器人操纵提供丰富的接触力先验知识 [28] 技术局限与未来方向 - **触觉维度局限**:当前仅捕捉法向压力,未涵盖剪切力、温度、振动等触觉子模态 [29] - **硬件耐用性**:FPC传感器在反复弯曲与汗液侵蚀下可能出现线路断裂,需优化封装工艺 [29] - **标注精细化**:部分遮挡或低光照场景下的标注准确率仍有提升空间 [29] - **跨模态融合深度**:未来可探索transformer架构实现模态间的细粒度交互,进一步提升性能 [29] 总结与行业影响 - OPENTOUCH的核心贡献在于建立了“感知硬件 - 数据标注 - 基准测试”的完整技术链路 [28] - 通过低-cost同步硬件破解真实场景采集难题,通过AI辅助标注解决大规模数据构建瓶颈,通过跨模态基准揭示触觉与视觉、姿态的互补关系 [28] - 其5.1小时多模态数据、硬件设计方案与开源代码,为计算机视觉、机器人学、神经科学等领域提供了统一研究平台,推动多模态具身学习从实验室走向真实世界,加速通用自主机器人的落地进程 [28]
“智汇众力 共擎新元” 机器人租赁平台“擎天租”重磅发布
具身智能之心· 2025-12-23 17:33
擎天租平台发布会与行业生态共建 - 擎天租平台于12月22日在上海正式发布,旨在构建机器人租赁产业生态,推动行业向标准化、规模化转型,打造多方共赢的新租赁生态 [1] - 平台由擎天租(上海)科技有限公司主办,并得到浦东新区政府领导出席支持,标志着行业从零散服务走向生态化布局的变革 [1][3] 平台战略与目标 - 公司提出“擎天租1234战略计划”,目标到2026年实现连接10家以上本体厂家、200家以上金牌服务租赁商、3000名以上内容创作者以及服务40万家以上租赁客户 [5] - 平台的终极信念是“以智能机器创造无限生产力”,让机器人服务渗透千行百业,将前沿科技转化为驱动社会进步的动能 [5] 平台创新模式与核心功能 - 平台核心创新是将高门槛的机器人使用转化为类似共享充电宝的便捷租赁模式,以解决运营成本高、合作链路复杂、内容同质化等行业痛点 [6] - 平台联通用户端、商家端和创作者,提供内容运营与经营支持,用户可在线下单,商家可便捷入驻管理订单,创作者可对接智元灵创平台进行内容创新 [6] 服务网络与增长策略 - 平台已建立覆盖全国的租赁节点,触达50个核心城市,拥有600家以上服务商构成本地化网络,以及1000台以上设备完善产品矩阵 [8] - 预计到2026年,平台将渗透200个以上城市,构建“擎天网络”以实现全国性交付能力 [8] - 平台将推出用户增长与商家激励政策,包括用户端红包、积分优惠,以及商家端“擎天伙伴计划”提供首季度0成本护航、全域流量支持等服务 [8] 行业合作与生态支持 - 发布会汇集了包括海底捞、浙江硅基方舟、广州火花机器人等多家行业代表,分享了机器人在服务体验、内容生态、行业共创及保险助力等方面的实践与展望 [9][10] - 浦东国资作为平台的天使投资方与战略合作伙伴,为擎天租及其生态企业提供了位于张江的办公与创新社区空间,全方位助力平台发展 [12] 行业影响与未来展望 - 平台的发布标志着具身智能行业向生态化、服务化的租赁模式深度演进,为整个机器人租赁赛道注入强劲信心 [13] - 未来,公司将持续完善租赁服务体系,携手各方共建健康、可持续的行业生态,共同开拓智能机器人租赁的广阔蓝海 [13]
首个长程「VLA-World Model」一体化模型!ManualVLA解锁长程精细操作任务
具身智能之心· 2025-12-23 11:34
文章核心观点 - 北京大学、香港中文大学与至简动力团队提出了一种名为ManualVLA的新型“生成-理解-动作”一体化模型,旨在解决现有视觉-语言-动作模型在需要明确目标终态的长时序任务中难以兼顾高层规划与精细操控的挑战 [2][5] - 该模型摒弃了传统分层级联方案,构建了全新的Mixture-of-Transformers通用基础模型架构,通过“规划专家”生成多模态操作说明书,并结合显式与隐式“思维链”推理来指导“动作专家”执行,实现了理解与生成的高度统一 [5] - 实验结果表明,ManualVLA在现实场景任务中的平均成功率相较于分层结构的最新基线方法提升约32%,验证了其统一范式的有效性 [5] 研究背景与挑战 - 当前VLA模型在需要精确定义最终目标状态的长周期任务中面临核心难题:必须执行精确操作以严格对齐预定义的最终场景,并有效集成长周期规划与细粒度控制,同时保持对多样化现实世界环境的泛化能力 [7] - 现有的分层方法依赖人工制作说明书或人类演示视频,在泛化到未见过的最终目标状态方面存在局限性,难以在系统复杂度、部署成本和泛化性之间取得平衡 [9] ManualVLA方法陈述 - ManualVLA的核心思想是让模型学会自己生成说明书,再按说明书执行动作 [12] - 在推理阶段,系统接收自然语言指令、当前场景图像和最终目标图像,由“规划专家”生成包含文字描述、像素级坐标和子目标图像的多模态手册,将长时序任务拆解为一系列可控的短阶段 [12] - 模型架构基于Janus-Pro 1B拓展到MoT架构,集成了“规划专家”和“动作专家” [15] - ManualCoT思维链机制通过显式与隐式两条路径影响动作生成:显式路径将目标位置以visual prompt形式叠加在图像上;隐式路径将手册生成时的内部特征通过注意力掩码传递给动作专家 [16][19][20] - 规划专家采用基于VQ的视觉分词器对子目标图像进行离散化建模;动作专家采用基于扩散去噪的方法进行动作建模,并使用SigLIP-large从384×384输入图像中提取高维语义特征 [19] 真机、模拟器、泛化性实验 - **真机实验**:在Franka双臂平台上测试了2D乐高组装、3D乐高组装和物体重新排列三个长周期任务 [23] - 规划专家在300个未见过的测试样本上生成了高质量的中间图像,例如2D乐高组装的PSNR达29.01,物体重新排列的FID分数为24.46,2D乐高组装的MAE分数为3.23 [23][27] - ManualVLA在所有三个任务中均取得了最高成功率,相比最强的分层基线,最终任务完成率提高了15%到30%,平均成功率高出32% [28] - **仿真实验**:在RLBench的10个仿真任务上取得了70%的平均成功率,超越了SOTA方法π0的63% [31][32] - **消融与泛化实验**:证明说明书中所有模态信息和隐式CoT推理对于解决长周期任务不可或缺,且模型在未见过的背景、物体形状和光照变化下表现出鲁棒的泛化能力 [33][36]
VLA+RL技术交流群来啦~
具身智能之心· 2025-12-23 11:34
行业技术动态 - 行业正在积极组建围绕视觉语言动作模型的技术交流社群,社群关注方向包括VLA模型本身、VLA与强化学习的结合以及模型的轻量化与部署 [1]
看了这么多开源项目,推荐复现这几个VLA方法~
具身智能之心· 2025-12-23 11:34
行业技术趋势与人才需求 - 视觉语言动作模型是当前具身智能领域最急需的技术方向之一 这一点在大量职位需求和论文产出上得到体现 [1] - 行业面临的核心挑战在于VLA模型难以调试 数据采集过程复杂且耗时 导致研发效率低下 [2][3] - 近两年来 VLA技术发展迅速 从ACT到OpenVLA、GR00T 再到π0、π0.5、π0.6等新方法层出不穷 性能持续提升 基于强化学习的优化方案使模型表现更佳 [5] 技术研发与落地瓶颈 - 具身智能领域高度依赖硬件本体 算法效果与真机实验强相关 仅靠仿真难以保证泛化性能 许多公司坚持采用真机数据路线 [3] - 从数据采集、模型训练优化到最终部署的全流程打通对初学者而言非常困难 部分从业者甚至花费半年时间仍难以入门并取得良好效果 [8] - 在模型训练环节 仿真和Sim2Real技术至关重要 特别是在真机数据不足时 训练技巧是关键 不同算法难度差异大 例如ACT相对简单易出效果 而π0和π0.5等模型则对细节和技巧要求极高 难以训练成功 [11] - 模型部署面临参数量大的挑战 即使是2B规模的模型 在边缘芯片上部署也有很大难度 因此量化、蒸馏等轻量化操作必不可少 [12] 主流技术方案与开源生态 - 行业内已有如LeRobot等开源技术框架 非常适合入门学习 [5] - 开源机器人本体种类多样 能满足不同研究需求 例如SO-100机械臂、OpenArm双臂操作系统以及XLeRobot移动操作平台等 [6] - 数据采集主要基于模仿学习和强化学习 模仿学习的方法包括遥操作、VR和全身动作捕捉 在机械臂结合VLA的领域 前两种方法更为常用 [10] 专业培训与能力建设 - 为应对技术快速更新和学习困难 业内推出了面向实战的VLA系统课程 课程内容全面覆盖机械臂硬件、数据采集、VLA算法、评测、仿真、模型部署、世界模型融合、真机实验及产业分析 [13][17] - 该课程是目前内容最完整的具身智能课程之一 采用软硬结合的方式 购买课程者将获赠一套包含示教臂和执行臂的SO-100机械臂硬件 [18][29] - 课程面向多类人群 包括正在求职的学生、需要进阶的VLA从业者、从事研究的博硕士生 以及希望从传统计算机视觉、机器人或自动驾驶领域转型至具身智能的人员 [33][36] - 完成课程学习后 学员预期能掌握真机调试与数据采集 掌握各类VLA算法在真机上的部署 对模型量化有深入了解 并对产业落地有清晰认识 简历项目经验可达到1-2年以上算法工程师水平 [36][39]
机器人学习现状!PI团队内部员工分享(从数采到VLA再到RL)
具身智能之心· 2025-12-23 08:03
文章核心观点 - 截至2025年12月,机器人学习领域的主流系统几乎全部基于行为克隆技术,其核心是通过监督学习模仿人类专家的演示数据[5] - 当前的行为克隆系统面临分布外状态、误差累积、数据收集瓶颈以及无法自我提升等根本性挑战,导致其在实际应用中并不好用[39][40] - 尽管强化学习在理论上能克服行为克隆的局限,但在真实机器人场景中,由于无法从同一状态反复执行、缺乏强基础策略以及仿真与现实差距等问题,其应用仍面临巨大障碍[53][55][62] - 未来的发展路径可能依赖于高质量世界模型的构建,以及持续改进的人类示范数据收集系统,但实现通用、鲁棒且高效的机器人学习仍需长期研究[71][73] 现代机器人学习技术栈剖析 - **数据来源**:当前行为克隆系统的数据主要来自三种方式:主从控制方案、智能演示手套以及直接的人类示范视频[7] - **主从控制方案**:通过人类操作主臂直接控制从臂机器人,其优点是能记录全套传感器数据且动作在运动学上可行,但缺点是操作速度比人类徒手慢得多,可达10倍[8][9] - **智能演示手套**:人类手持配备简化传感器的设备进行操作,通过SLAM和逆运动学重建状态与动作,优点是更易上手、示教更快、部署成本更低,但存在严重的域差距和运动学可行性问题[10][11][18] - **直接人类示范**:来源广泛,如YouTube视频或工厂工人佩戴摄像头记录,数据规模巨大且产生于完整人类速度,但存在巨大的状态与动作重建差距,且轨迹往往在运动学上不可行[12][13][19] 行为克隆的核心挑战与应对 - **分布外状态问题**:由于真实世界与训练数据的微小差异、任务本身的不确定性与多模态性,以及动作预测误差的递归累积,策略在实际执行时会逐渐偏离训练分布[16][17][21] - **DAgger方法**:为解决OOD问题,不能仅用专家数据训练,必须引入DAgger风格的方法,即收集策略在失败状态下的恢复数据,训练模型学会从错误中恢复[26] - **DAgger的实践**:构建DAgger数据是一个高度迭代、耗时且需要大量人工判断的“艺术”过程,通常在预训练好的基础策略上进行,旨在提升策略的鲁棒性[29][30][32] - **DAgger的局限**:虽然能提高平均任务完成速度和鲁棒性,但无法提升策略在最理想情况下的执行速度,且随着策略变鲁棒,评估其性能所需的时间会急剧增加[37][33] 超越行为克隆:强化学习的困境 - **理论优势**:强化学习能实现自我提升、自主探索并从糟糕状态中脱困,达到甚至超过人类水平的执行速度,是理想的替代方案[40][45] - **与LLM强化学习的差异**:大语言模型的强化学习成功依赖于能从完全相同的状态无限次执行,且拥有非常强的基础策略,这两个条件在真实机器人领域均不具备[46][47][53] - **仿真中的强化学习**:在仿真器中训练可避免物理限制,但仿真器是现实世界的糟糕仿制品,存在物理简化、视觉差距等问题,导致严重的sim-to-real差距,策略迁移后表现糟糕[55][56] - **真实世界中的强化学习**:直接学习策略的真实执行数据面临核心障碍,即无法回答“反事实”问题,必须依赖仿真或学习高质量的世界模型/Q函数来想象不同动作的结果,但这仍是开放研究难题[62][64][68] 未来预测与创业建议 - **技术预测**:未来2年内,视觉语言动作模型将被视频模型骨干取代;10年内,能很好模拟通用开放世界交互的世界模型将出现,策略可通过从世界模型中抽取获得;传统仿真引擎将作为数据生成器,但核心是端到端学习的[71] - **数据的重要性**:接近专家级的示范数据对微调世界模型至关重要,而真实机器人的执行数据仍是实现超人级性能所必需的[76] - **创业方向建议**:构建软硬件一体的人类示范系统是确定可靠的方向,能有效降低数据收集痛点并证明能产出高质量策略的公司将成为极具吸引力的合作伙伴或收购对象[73] - **应避免的创业方向**:数据标注是高度商品化的人力套利业务;预训练数据销售是苦生意且需证明有效性;评估必须内部完成,无法外包;通用的机器人数据平台不可能出现[76]
全球灵巧手盘点以及新趋势猜想!
具身智能之心· 2025-12-23 08:03
文章核心观点 文章基于对全球灵巧手产品的盘点,分析了当前的技术现状并预测了未来发展的五大趋势,核心观点认为灵巧手技术正朝着微型化、感知融合、场景垂直化、低成本化及全身协同的方向演进 [2] 全球灵巧手产品盘点 - 文章将灵巧手分为两大类:人形原生手(7款)和独立手(14款) [2] - 盘点的产品包括但不限于:Phoenix Hand 3.2、Figure-03、Neo Gamma、Tesla Optimus Hand、ALLEX、Sharpawave、Clone Hand、Dexterous Hand、RH56E2、Agile Hand、DexHand V2.3、Kyber Labs、Wuji Hand、XHAND1、Surge Hand、ORCA Hand、Ability Hand、Aero Hand Open、Artus Lite等 [12][13][15][18][19] 未来技术发展趋势 趋势一:驱动与结构微型化 - 技术发展的核心趋势是微型化,特别是全直驱与高自由度的微型化突破 [2] - 当前电机体积制约了人形机器人手臂的空间适配,而Wuji Hand的刷屏显示出微型直驱电机集成化的重要性 [3] 趋势二:感知技术多模态融合 - 感知技术正从单一触觉向多模态智能融合升级 [4] - 多模态感知的学习效率被认为超过视觉-语言大模型,多模态数据对于优化灵巧手感知至关重要 [5] 趋势三:场景化垂直细分 - 灵巧手将从通用走向针对特定场景的深度定制 [6] - 例如,有公司计划打造专注于厨房场景的通用机器人,从洗碗功能起步,这代表了吃掉垂直细分市场的策略,应用方向包括家庭服务、工业装配和医疗康复等 [7] 趋势四:低成本与规模化普及 - 未来趋势是通过开源和量产硬件普及来实现低成本规模化 [8] - 硬件可靠性仍是巨大挑战,在相关讨论中,硬件瓶颈与算法瓶颈的讨论更为深入 [9] 趋势五:全身运动协同深化 - 人形原生手将从单独的手部控制升级为与全身运动深度协同 [10] - 这种协同类似于人通过俯身来拾取物品,能减少手部负载压力并提升复杂场景下的操作稳定性 [11]