具身智能之心
搜索文档
单卡训练1亿高斯点,重建25平方公里城市:3DGS内存墙被CPU「外挂」打破了
具身智能之心· 2025-12-24 08:25
文章核心观点 - 纽约大学研究团队提出名为CLM的系统,通过将3D高斯泼溅训练中占用显存最多的参数转移到CPU内存,使单张消费级显卡也能训练上亿规模的高斯点模型,显著降低了城市级3D重建的硬件门槛[3] 3DGS的规模应用瓶颈 - 3D高斯泼溅在应用于城市街区等复杂场景时,GPU显存成为最直接且难解决的瓶颈[5] - 一个高精度3DGS模型通常包含数千万乃至上亿个高斯点,每个点包含数十个参数,训练还需保存梯度和优化器状态[5] - 即便是24GB显存的RTX 4090,也只能容纳约一两千万个高斯点的完整训练状态,远不足以覆盖城市级场景[5] - 此前扩展规模的方法不理想:多GPU并行训练成本高昂,或通过压缩等方式减少高斯数量但牺牲重建质量[6] CLM系统的设计原理 - 研究发现,在3DGS训练的每一次视角渲染中,真正参与计算的高斯点只占整个场景的极小一部分,单帧图像通常只会访问不到1%的高斯点[7] - 设计思路是不再将所有高斯参数常驻显存,而是在需要时按视角动态加载[8] - 系统通过三项关键机制实现CPU-GPU协同[9] - **机制一:属性分割**:将每个高斯点的59个参数分为两类,用于视锥剔除的“关键属性”(位置、旋转、缩放,共10个浮点数)永久保存在GPU显存,仅占单个高斯内存占用的不到20%;其余约80%的“非关键属性”卸载到CPU内存,需要时才加载[10][11] - **机制二:预渲染视锥剔除与选择性加载**:在渲染前显式计算当前视角中可见的高斯点索引,仅从CPU内存加载这些可见点的完整参数,减少了GPU对不可见高斯的无效计算和内存占用[12] - **机制三:优化数据传输**:通过微批次流水线将参数加载与GPU计算重叠以隐藏通信延迟;利用缓存机制避免反复加载相同数据;通过智能调度(建模为旅行商问题)寻找高斯点重用率最高的视角排列以最大化缓存命中[15][16][17] CLM系统的性能与效果 - **规模突破**:在“MatrixCity BigCity”数据集上,传统GPU-only方法在RTX 4090上最多训练1530万个高斯点,而CLM成功训练了1.022亿个高斯点,模型规模扩大了6.7倍,比仅使用卸载功能时大2.2倍[18] - **速度可控**:凭借重叠计算设计,CLM在RTX 4090上的训练吞吐量能达到增强型基线吞吐量的55%至90%;在RTX 2080 Ti上,吞吐量甚至能达到基线的86%至97%[23] - **通用性强**:该方案与具体后端渲染引擎无关,并可扩展至其他splatting算法[21] 产业意义与应用前景 - CLM是一项直接面向真实部署瓶颈的系统工程研究,核心贡献在于首次系统性地将CPU内存和计算资源纳入了3DGS训练的资源分配体系[22] - 为学术界和工业界进行超大规模场景重建提供了一种不依赖多GPU集群的高性价比可行路径[22] - 随着数字孪生、大规模地图重建等应用需求增长,能在现实硬件条件下稳定扩展规模对相关工作开展非常有利[22] - 展示了通过软硬件协同、重新组织既有计算资源,在不增加专用硬件投入的情况下推进3DGS实用化的可能方向[22]
“智汇众力 共擎新元” 机器人租赁平台“擎天租”重磅发布
具身智能之心· 2025-12-23 17:33
擎天租平台发布会与行业生态共建 - 擎天租平台于12月22日在上海正式发布,旨在构建机器人租赁产业生态,推动行业向标准化、规模化转型,打造多方共赢的新租赁生态 [1] - 平台由擎天租(上海)科技有限公司主办,并得到浦东新区政府领导出席支持,标志着行业从零散服务走向生态化布局的变革 [1][3] 平台战略与目标 - 公司提出“擎天租1234战略计划”,目标到2026年实现连接10家以上本体厂家、200家以上金牌服务租赁商、3000名以上内容创作者以及服务40万家以上租赁客户 [5] - 平台的终极信念是“以智能机器创造无限生产力”,让机器人服务渗透千行百业,将前沿科技转化为驱动社会进步的动能 [5] 平台创新模式与核心功能 - 平台核心创新是将高门槛的机器人使用转化为类似共享充电宝的便捷租赁模式,以解决运营成本高、合作链路复杂、内容同质化等行业痛点 [6] - 平台联通用户端、商家端和创作者,提供内容运营与经营支持,用户可在线下单,商家可便捷入驻管理订单,创作者可对接智元灵创平台进行内容创新 [6] 服务网络与增长策略 - 平台已建立覆盖全国的租赁节点,触达50个核心城市,拥有600家以上服务商构成本地化网络,以及1000台以上设备完善产品矩阵 [8] - 预计到2026年,平台将渗透200个以上城市,构建“擎天网络”以实现全国性交付能力 [8] - 平台将推出用户增长与商家激励政策,包括用户端红包、积分优惠,以及商家端“擎天伙伴计划”提供首季度0成本护航、全域流量支持等服务 [8] 行业合作与生态支持 - 发布会汇集了包括海底捞、浙江硅基方舟、广州火花机器人等多家行业代表,分享了机器人在服务体验、内容生态、行业共创及保险助力等方面的实践与展望 [9][10] - 浦东国资作为平台的天使投资方与战略合作伙伴,为擎天租及其生态企业提供了位于张江的办公与创新社区空间,全方位助力平台发展 [12] 行业影响与未来展望 - 平台的发布标志着具身智能行业向生态化、服务化的租赁模式深度演进,为整个机器人租赁赛道注入强劲信心 [13] - 未来,公司将持续完善租赁服务体系,携手各方共建健康、可持续的行业生态,共同开拓智能机器人租赁的广阔蓝海 [13]
首个长程「VLA-World Model」一体化模型!ManualVLA解锁长程精细操作任务
具身智能之心· 2025-12-23 11:34
文章核心观点 - 北京大学、香港中文大学与至简动力团队提出了一种名为ManualVLA的新型“生成-理解-动作”一体化模型,旨在解决现有视觉-语言-动作模型在需要明确目标终态的长时序任务中难以兼顾高层规划与精细操控的挑战 [2][5] - 该模型摒弃了传统分层级联方案,构建了全新的Mixture-of-Transformers通用基础模型架构,通过“规划专家”生成多模态操作说明书,并结合显式与隐式“思维链”推理来指导“动作专家”执行,实现了理解与生成的高度统一 [5] - 实验结果表明,ManualVLA在现实场景任务中的平均成功率相较于分层结构的最新基线方法提升约32%,验证了其统一范式的有效性 [5] 研究背景与挑战 - 当前VLA模型在需要精确定义最终目标状态的长周期任务中面临核心难题:必须执行精确操作以严格对齐预定义的最终场景,并有效集成长周期规划与细粒度控制,同时保持对多样化现实世界环境的泛化能力 [7] - 现有的分层方法依赖人工制作说明书或人类演示视频,在泛化到未见过的最终目标状态方面存在局限性,难以在系统复杂度、部署成本和泛化性之间取得平衡 [9] ManualVLA方法陈述 - ManualVLA的核心思想是让模型学会自己生成说明书,再按说明书执行动作 [12] - 在推理阶段,系统接收自然语言指令、当前场景图像和最终目标图像,由“规划专家”生成包含文字描述、像素级坐标和子目标图像的多模态手册,将长时序任务拆解为一系列可控的短阶段 [12] - 模型架构基于Janus-Pro 1B拓展到MoT架构,集成了“规划专家”和“动作专家” [15] - ManualCoT思维链机制通过显式与隐式两条路径影响动作生成:显式路径将目标位置以visual prompt形式叠加在图像上;隐式路径将手册生成时的内部特征通过注意力掩码传递给动作专家 [16][19][20] - 规划专家采用基于VQ的视觉分词器对子目标图像进行离散化建模;动作专家采用基于扩散去噪的方法进行动作建模,并使用SigLIP-large从384×384输入图像中提取高维语义特征 [19] 真机、模拟器、泛化性实验 - **真机实验**:在Franka双臂平台上测试了2D乐高组装、3D乐高组装和物体重新排列三个长周期任务 [23] - 规划专家在300个未见过的测试样本上生成了高质量的中间图像,例如2D乐高组装的PSNR达29.01,物体重新排列的FID分数为24.46,2D乐高组装的MAE分数为3.23 [23][27] - ManualVLA在所有三个任务中均取得了最高成功率,相比最强的分层基线,最终任务完成率提高了15%到30%,平均成功率高出32% [28] - **仿真实验**:在RLBench的10个仿真任务上取得了70%的平均成功率,超越了SOTA方法π0的63% [31][32] - **消融与泛化实验**:证明说明书中所有模态信息和隐式CoT推理对于解决长周期任务不可或缺,且模型在未见过的背景、物体形状和光照变化下表现出鲁棒的泛化能力 [33][36]
VLA+RL技术交流群来啦~
具身智能之心· 2025-12-23 11:34
行业技术动态 - 行业正在积极组建围绕视觉语言动作模型的技术交流社群,社群关注方向包括VLA模型本身、VLA与强化学习的结合以及模型的轻量化与部署 [1]
看了这么多开源项目,推荐复现这几个VLA方法~
具身智能之心· 2025-12-23 11:34
行业技术趋势与人才需求 - 视觉语言动作模型是当前具身智能领域最急需的技术方向之一 这一点在大量职位需求和论文产出上得到体现 [1] - 行业面临的核心挑战在于VLA模型难以调试 数据采集过程复杂且耗时 导致研发效率低下 [2][3] - 近两年来 VLA技术发展迅速 从ACT到OpenVLA、GR00T 再到π0、π0.5、π0.6等新方法层出不穷 性能持续提升 基于强化学习的优化方案使模型表现更佳 [5] 技术研发与落地瓶颈 - 具身智能领域高度依赖硬件本体 算法效果与真机实验强相关 仅靠仿真难以保证泛化性能 许多公司坚持采用真机数据路线 [3] - 从数据采集、模型训练优化到最终部署的全流程打通对初学者而言非常困难 部分从业者甚至花费半年时间仍难以入门并取得良好效果 [8] - 在模型训练环节 仿真和Sim2Real技术至关重要 特别是在真机数据不足时 训练技巧是关键 不同算法难度差异大 例如ACT相对简单易出效果 而π0和π0.5等模型则对细节和技巧要求极高 难以训练成功 [11] - 模型部署面临参数量大的挑战 即使是2B规模的模型 在边缘芯片上部署也有很大难度 因此量化、蒸馏等轻量化操作必不可少 [12] 主流技术方案与开源生态 - 行业内已有如LeRobot等开源技术框架 非常适合入门学习 [5] - 开源机器人本体种类多样 能满足不同研究需求 例如SO-100机械臂、OpenArm双臂操作系统以及XLeRobot移动操作平台等 [6] - 数据采集主要基于模仿学习和强化学习 模仿学习的方法包括遥操作、VR和全身动作捕捉 在机械臂结合VLA的领域 前两种方法更为常用 [10] 专业培训与能力建设 - 为应对技术快速更新和学习困难 业内推出了面向实战的VLA系统课程 课程内容全面覆盖机械臂硬件、数据采集、VLA算法、评测、仿真、模型部署、世界模型融合、真机实验及产业分析 [13][17] - 该课程是目前内容最完整的具身智能课程之一 采用软硬结合的方式 购买课程者将获赠一套包含示教臂和执行臂的SO-100机械臂硬件 [18][29] - 课程面向多类人群 包括正在求职的学生、需要进阶的VLA从业者、从事研究的博硕士生 以及希望从传统计算机视觉、机器人或自动驾驶领域转型至具身智能的人员 [33][36] - 完成课程学习后 学员预期能掌握真机调试与数据采集 掌握各类VLA算法在真机上的部署 对模型量化有深入了解 并对产业落地有清晰认识 简历项目经验可达到1-2年以上算法工程师水平 [36][39]
机器人学习现状!PI团队内部员工分享(从数采到VLA再到RL)
具身智能之心· 2025-12-23 08:03
文章核心观点 - 截至2025年12月,机器人学习领域的主流系统几乎全部基于行为克隆技术,其核心是通过监督学习模仿人类专家的演示数据[5] - 当前的行为克隆系统面临分布外状态、误差累积、数据收集瓶颈以及无法自我提升等根本性挑战,导致其在实际应用中并不好用[39][40] - 尽管强化学习在理论上能克服行为克隆的局限,但在真实机器人场景中,由于无法从同一状态反复执行、缺乏强基础策略以及仿真与现实差距等问题,其应用仍面临巨大障碍[53][55][62] - 未来的发展路径可能依赖于高质量世界模型的构建,以及持续改进的人类示范数据收集系统,但实现通用、鲁棒且高效的机器人学习仍需长期研究[71][73] 现代机器人学习技术栈剖析 - **数据来源**:当前行为克隆系统的数据主要来自三种方式:主从控制方案、智能演示手套以及直接的人类示范视频[7] - **主从控制方案**:通过人类操作主臂直接控制从臂机器人,其优点是能记录全套传感器数据且动作在运动学上可行,但缺点是操作速度比人类徒手慢得多,可达10倍[8][9] - **智能演示手套**:人类手持配备简化传感器的设备进行操作,通过SLAM和逆运动学重建状态与动作,优点是更易上手、示教更快、部署成本更低,但存在严重的域差距和运动学可行性问题[10][11][18] - **直接人类示范**:来源广泛,如YouTube视频或工厂工人佩戴摄像头记录,数据规模巨大且产生于完整人类速度,但存在巨大的状态与动作重建差距,且轨迹往往在运动学上不可行[12][13][19] 行为克隆的核心挑战与应对 - **分布外状态问题**:由于真实世界与训练数据的微小差异、任务本身的不确定性与多模态性,以及动作预测误差的递归累积,策略在实际执行时会逐渐偏离训练分布[16][17][21] - **DAgger方法**:为解决OOD问题,不能仅用专家数据训练,必须引入DAgger风格的方法,即收集策略在失败状态下的恢复数据,训练模型学会从错误中恢复[26] - **DAgger的实践**:构建DAgger数据是一个高度迭代、耗时且需要大量人工判断的“艺术”过程,通常在预训练好的基础策略上进行,旨在提升策略的鲁棒性[29][30][32] - **DAgger的局限**:虽然能提高平均任务完成速度和鲁棒性,但无法提升策略在最理想情况下的执行速度,且随着策略变鲁棒,评估其性能所需的时间会急剧增加[37][33] 超越行为克隆:强化学习的困境 - **理论优势**:强化学习能实现自我提升、自主探索并从糟糕状态中脱困,达到甚至超过人类水平的执行速度,是理想的替代方案[40][45] - **与LLM强化学习的差异**:大语言模型的强化学习成功依赖于能从完全相同的状态无限次执行,且拥有非常强的基础策略,这两个条件在真实机器人领域均不具备[46][47][53] - **仿真中的强化学习**:在仿真器中训练可避免物理限制,但仿真器是现实世界的糟糕仿制品,存在物理简化、视觉差距等问题,导致严重的sim-to-real差距,策略迁移后表现糟糕[55][56] - **真实世界中的强化学习**:直接学习策略的真实执行数据面临核心障碍,即无法回答“反事实”问题,必须依赖仿真或学习高质量的世界模型/Q函数来想象不同动作的结果,但这仍是开放研究难题[62][64][68] 未来预测与创业建议 - **技术预测**:未来2年内,视觉语言动作模型将被视频模型骨干取代;10年内,能很好模拟通用开放世界交互的世界模型将出现,策略可通过从世界模型中抽取获得;传统仿真引擎将作为数据生成器,但核心是端到端学习的[71] - **数据的重要性**:接近专家级的示范数据对微调世界模型至关重要,而真实机器人的执行数据仍是实现超人级性能所必需的[76] - **创业方向建议**:构建软硬件一体的人类示范系统是确定可靠的方向,能有效降低数据收集痛点并证明能产出高质量策略的公司将成为极具吸引力的合作伙伴或收购对象[73] - **应避免的创业方向**:数据标注是高度商品化的人力套利业务;预训练数据销售是苦生意且需证明有效性;评估必须内部完成,无法外包;通用的机器人数据平台不可能出现[76]
全球灵巧手盘点以及新趋势猜想!
具身智能之心· 2025-12-23 08:03
文章核心观点 文章基于对全球灵巧手产品的盘点,分析了当前的技术现状并预测了未来发展的五大趋势,核心观点认为灵巧手技术正朝着微型化、感知融合、场景垂直化、低成本化及全身协同的方向演进 [2] 全球灵巧手产品盘点 - 文章将灵巧手分为两大类:人形原生手(7款)和独立手(14款) [2] - 盘点的产品包括但不限于:Phoenix Hand 3.2、Figure-03、Neo Gamma、Tesla Optimus Hand、ALLEX、Sharpawave、Clone Hand、Dexterous Hand、RH56E2、Agile Hand、DexHand V2.3、Kyber Labs、Wuji Hand、XHAND1、Surge Hand、ORCA Hand、Ability Hand、Aero Hand Open、Artus Lite等 [12][13][15][18][19] 未来技术发展趋势 趋势一:驱动与结构微型化 - 技术发展的核心趋势是微型化,特别是全直驱与高自由度的微型化突破 [2] - 当前电机体积制约了人形机器人手臂的空间适配,而Wuji Hand的刷屏显示出微型直驱电机集成化的重要性 [3] 趋势二:感知技术多模态融合 - 感知技术正从单一触觉向多模态智能融合升级 [4] - 多模态感知的学习效率被认为超过视觉-语言大模型,多模态数据对于优化灵巧手感知至关重要 [5] 趋势三:场景化垂直细分 - 灵巧手将从通用走向针对特定场景的深度定制 [6] - 例如,有公司计划打造专注于厨房场景的通用机器人,从洗碗功能起步,这代表了吃掉垂直细分市场的策略,应用方向包括家庭服务、工业装配和医疗康复等 [7] 趋势四:低成本与规模化普及 - 未来趋势是通过开源和量产硬件普及来实现低成本规模化 [8] - 硬件可靠性仍是巨大挑战,在相关讨论中,硬件瓶颈与算法瓶颈的讨论更为深入 [9] 趋势五:全身运动协同深化 - 人形原生手将从单独的手部控制升级为与全身运动深度协同 [10] - 这种协同类似于人通过俯身来拾取物品,能减少手部负载压力并提升复杂场景下的操作稳定性 [11]
这款机械臂丝滑跑出了pi0与pi0.5,支持Lerobot框架~
具身智能之心· 2025-12-23 08:03
产品发布与技术适配 - Imeta-Y1轻量级机械臂已成功适配Lerobot平台,实现了夹取方块并精准放入胶带圈的流畅操作,配套代码将正式开源 [2] - 该产品此前已打通pi0与pi0.5任务,此次适配旨在帮助算法快速落地实战 [2] 产品定位与目标用户 - Imeta-Y1是一款面向具身智能科研领域打造的轻量级、高性价比机械臂 [5] - 产品专为新手和科研初学者设计,目标用户包括学生、教育工作者及刚踏入机器人领域的开发者,旨在帮助其低成本、高效率地完成算法验证与项目开发 [5] 核心产品优势 - 提供全流程开源工具链与代码示例,覆盖从数据采集、模型训练到推理部署的全过程,目前开放了ACT算法示例 [6][20][39] - 支持Python和C++双语言接口,兼容ROS1与ROS2,并提供URDF模型,可实现仿真与真机的无缝切换 [6][7][20][21] - 提供24小时快速售后响应服务,保障学习与开发过程 [7][22] - 产品融合高精度运动控制、低功耗设计与开放软硬件架构,支持从仿真到真机的无缝联调 [9] - 其紧凑型结构与模块化接口,尤其适用于嵌入式AI与机器人学习平台的开发与应用推广 [10] - 后期将陆续升级更新VLA、VA相关的源码,新老客户均可享受升级 [22] 机械臂本体详细参数 - 本体重量为4.2KG,额定负载为3KG,拥有6个自由度 [11][22] - 工作半径为612.5mm,重复定位精度为±0.1mm [11][22] - 供电电压为24V,控制器为PC,主要材质为铝合金 [11][22] - 通讯方式采用CAN,外部接口为电源+CAN XT30 2+2,支持轨迹跟踪、示教及API控制 [11][22] - 各关节运动范围与最大速度:J1轴为-165°至165°,速度180°/s;J2轴为-180°至0°,速度180°/s;J3轴为-0°至180°,速度180°/s;J4轴为-95°至86°,速度220°/s;J5轴为-90°至90°,速度220°/s;J6轴为-150°至150°,速度220°/s [11][24] 末端执行器参数 - 提供了多款末端执行器(夹爪),重量分别为631g、671g和704g [13][14][16] - 行程均为0~80mm,定位精度为±0.5mm,外部接口为电源+CAN XT30 2+2 [13][14][16] - 其中一款夹爪尺寸为100 x 60 x 100mm,行程为0~90mm,重复定位精度为±0.1mm [24] 仿真与开发支持 - 提供URDF模型,支持Gazebo等主流仿真环境与真机实时联动,用户可在仿真中验证算法后一键部署至物理设备,降低开发风险与调试成本 [20][25] - 提供完整的开源软件开发工具包(SDK),包含驱动程序、API接口、示例代码与文档,支持Python、C++等语言 [32][33] - 工具链支持视觉、力控等多模态数据融合,并兼容TensorFlow、PyTorch等主流框架 [20][39] 性能测试与部署 - 产品经过严格的硬件测试,包括精度校准、耐久性、负载性能与稳定性验证 [42] - 展示了算法推理时间,例如在示例中,单次推理时间在29.94毫秒至36.19毫秒之间 [41] - 支持单臂数据采集与具身算法部署 [43] 销售与售后信息 - 产品交付周期为1-2周,提供快速响应的售后和生态服务 [51] - 非人为损坏情况下,产品质保期为半年,质保期后售后按市场价收费 [52] - 批量采购享有更多优惠,并支持基于本产品的项目开发与教学培训 [22] 常见问题解答 - 当前销售价格为单臂配置,非主从臂 [53] - 运行SDK和MoveIt等对电脑配置要求不高,但运行VLA模型需要GPU,已适配的ALOHA ACT算法在NVIDIA 4060显卡上即可进行训练和推理 [53] - 目前已适配的相机包括Intel Realsense D435系列和奥比中光DCW2 [53] - 用户可自行微调所有开源模型,目前产品开源适配的模型有Lerobot和ACT,未来将逐步适配并开源Robotwin、pi0等 [53] - 产品不支持无理由退货或测试,除非产品本身存在质量问题 [53]
AAAI 2026重磅!原力无限攻克具身智能“泛化”顽疾,定义因果AI新范式
具身智能之心· 2025-12-23 08:03
行业核心挑战 - 机器人实现广泛应用的关键在于其“泛化能力”,即适应新环境、新任务的能力[1] - 当前行业的核心痛点是“分布外泛化”问题,即机器人在训练场景外表现不佳,成为具身智能落地的最大障碍[3][4] - 传统AI与强化学习模型的问题在于只学会了表面的“相关性”,而未能掌握事物背后的“因果性”,导致其容易受到环境噪音(如背景颜色、光照变化)的干扰,无法举一反三[2][5][7] 技术核心突破 - 原力无限与多所大学联合完成的研究《DSAP: Enhancing Generalization in Goal-Conditioned Reinforcement Learning》被顶级人工智能会议AAAI 2026收录,标志着因果推理技术被成功引入具身智能领域[2] - 研究首次提出基于“因果图”的结构感知代理框架,该框架强制AI区分“状态无关变量”(如背景颜色、光照)和“状态相关变量”(如物体形状、位置),从而构建结构化的因果世界观[9][10] - 通过引入“解耦结构感知代理”,算法在数学层面切断了环境噪音对决策干扰的“虚假关联”,使AI决策专注于核心因果因素[12][13] - 算法学习到的因果结构与真实物理规律高度一致,证明其具备了结构化认知能力[15] - 在Alchemy和机械臂操作等复杂任务的验证中,搭载DSAP算法的智能体在面临全新环境配置时表现出惊人的稳定性[16][18] - 在视觉背景剧烈变化的测试中,DSAP的成功率显著优于GoFar、CORL等现有最先进算法[19] - 在多种分布外测试设置下,DSAP算法的平均回报率显著高于其他基准算法,展现出强大的泛化稳定性[21] - 这证明引入因果机制后,机器人开始具备初步的逻辑推理能力,而不仅是像素级的模式匹配[22] 公司战略与产学研协同 - 该顶会论文是产学研深度融合的典范,原力无限不仅提供了关键场景认知,也验证了其核心技术战略的前瞻性[24][25] - 公司研究团队致力于构建具有“因果世界模型”能力的超级大脑,DSAP所探讨的“因果泛化”是公司Hyper-VLA大模型进化的必经之路[25] - 通过与香港大学、澳门大学、武汉大学等顶尖学术力量合作,公司构筑了开放、前沿的科研生态系统[25] - “高校理论创新+企业场景验证”的模式加速了前沿算法的验证周期,使公司的技术底座始终保持在学术界最前沿[25]
今年大概率产了n篇VLA+RL工作吧?!
具身智能之心· 2025-12-22 18:23
行业技术趋势:VLA与强化学习的融合 - 当前视觉-语言-动作模型在真实世界开放分布场景中表现脆弱,仅依赖模仿学习缺乏失败恢复、自主探索与闭环纠错能力[2] - 强化学习被证明能显著提升VLA模型的泛化能力,实验显示在分布外任务上的性能提升可达42.6%[2] - 2024至2025年间,VLA+RL的研究方向产出大量论文,成为行业活跃领域,技术框架也在逐步完善[2] 代表性研究方法与框架 - **世界模型与在线方案**:基于世界模型的在线系统是活跃方向,如NORA-1.5模型利用世界模型和基于动作的偏好奖励进行训练[2][5] - **离线强化学习**:离线RL方法被广泛用于VLA模型的后期训练,以平衡信号与方差,并实现高效微调,例如CO-RFT方法[5] - **工具与框架**:RLinf等工具框架正在完善,支持的方法越来越多,为VLA+RL训练提供统一高效的平台[2][11] 近期重要研究成果(2025年) - **NORA-1.5**:一种通过世界模型和基于动作的偏好奖励学习的VLA模型[5][6] - **Pi0.6**:推测结合了强化学习技术,取得了惊艳效果[2] - **GR-RL与WholebodyVLA**:近期工作显示出显著效果[2] - **WMPO**:基于世界模型的VLA策略优化方法[8][9] - **RobustVLA**:专注于鲁棒性的VLA强化学习后期训练方法[8][9] - **DeepThinkVLA**:通过增强推理能力来提升VLA模型[8][9] - **Self-Improving VLA**:通过残差RL进行数据生成以实现自我改进的VLA模型[8][9] 技术细分方向 - **后期训练与微调**:多种方法专注于VLA模型的强化学习微调,如VLA-RFT在世界模拟器中使用已验证奖励进行微调[10][11] - **策略优化与泛化**:研究探索RL如何提升VLA泛化能力,并有实证研究[13][14] - **安全与对齐**:研究开始关注VLA模型的安全对齐问题,例如SafeVLA通过约束学习实现安全对齐[16][18] - **数据生成与蒸馏**:通过强化学习进行策略蒸馏和数据生成,以创建通用且强大的机器人策略[17][18]