Workflow
VLA+RL
icon
搜索文档
具身智能之心招募VLA+RL方向的合作伙伴~
具身智能之心· 2025-11-17 18:01
需是VLA+RL的研究方向,学术界我们希望是博士及以上(包含在读),手握相关方向的顶会。工业界希 望您有一定的实战经验和真机调试经验。 待遇说明 具身智能之心是国内首个具身全栈技术交流社区,聚集了大量VLA和RL相关方向的同学。 最近收到社区内很多同学关于VLA和RL相关内容的咨询,也希望具身智能之心能够有更深入的讲解。在 此,我们向全平台粉丝招募1名VLA+RL方向的课程讲师,和我们一起开发这个方向的在线课程。 我们将提供高于行业平均水平的薪酬以及丰富的行业资源。 一些要求 详细内容欢迎添加微信:oooops-life咨询。 ...
招募VLA+RL方向的合伙人!
具身智能之心· 2025-11-11 11:48
招聘背景与目的 - 社区收到大量关于视觉语言动作与强化学习方向的咨询 希望进行更深入讲解[1] - 公司计划招募1名该方向的课程讲师共同开发在线课程[1] - 具身智能之心是国内首个具身全栈技术交流社区 聚集大量视觉语言动作与强化学习方向人才[3] 招聘要求 - 研究方向需为视觉语言动作与强化学习结合领域[2] - 学术界应聘者需博士及以上学历(含在读)且拥有相关顶会成果[2] - 工业界应聘者需具备实战经验与真机调试经验[2] 薪酬与资源 - 公司将提供高于行业平均水平的薪酬待遇[4] - 应聘者可获得丰富的行业资源支持[4] 咨询方式 - 详细招聘内容可通过添加指定微信号进行咨询[5]
VLA+RL正在不断拉升着具身操作的上限!
具身智能之心· 2025-11-11 08:02
文章核心观点 - VLA与RL结合的技术路线正成为提升具身操作性能的关键方向,能有效弥补预训练模型与真实任务之间的差距 [1] - RL训练通过直接优化任务完成度这一终极目标,使模型具备处理意外情况的更强鲁棒性,并学习到更平滑的轨迹及与物理世界精细对齐的能力 [1] - 开源项目RLinf通过标准化接口支持主流VLA模型及CPU/GPU模拟器,并率先实现了对π0和π0.5模型系列的强化学习微调 [2][4] 技术性能评估 - 在LIBERO任务组评估中,π0模型在空间、物体、目标和长任务上的成功率分别为96.8%、98.8%、95.8%和85.2%,平均成功率达94.2% [5] - π0.5模型表现更优,在上述四项任务上的成功率分别为98.8%、98.2%、98.0%和92.4%,平均成功率达96.9% [5] - 采用Few-shot数据集SFT结合RL方法后,Flow-SDE π0.5模型在物体任务上达到100%成功率,整体平均成功率提升20.8个百分点至97.9% [5] - Flow-Noise π0.5模型在物体任务上同样达到100%成功率,整体平均成功率提升21.2个百分点至98.3% [5] 社区资源与生态 - 具身智能之心知识星球已汇聚近2000名成员,涵盖国内外知名高校实验室及机器人头部公司 [14] - 社区汇总了40多个开源项目、60多个具身智能相关数据集及行业主流仿真平台 [15] - 技术学习路线覆盖感知、交互、强化学习、VLA、VLN、多模态大模型等20多个专业方向 [15][16] - 社区提供产业研报、零部件品牌、开源数据、仿真平台等全方位资源汇总 [23][28][30][38] 技术发展前沿 - 社区内容涵盖数据采集、灵巧手、VLA模型、多传感器融合、分层感知操作等14个技术模块 [8] - 具体技术方向包括RoboDexVLM分层架构、BridgeVLA真机性能提升32%、具身4D世界模型EnerVerse等创新成果 [8] - 强化学习与VLA结合领域汇总了基于LLM的强化学习、可解释强化学习等主流方案 [40][58] - 多模态大模型方向涵盖理解与生成两大类应用,包括Image/Video/Audio/3D等多种模态组合 [51][53]
招募VLA+RL方向的合伙人!
具身智能之心· 2025-10-31 12:00
招募背景与目的 - 公司收到大量关于视觉语言动作与强化学习方向的咨询,显示该领域存在显著的知识需求 [1] - 公司计划开发视觉语言动作与强化学习方向的在线课程,旨在进行更深入的技术讲解 [1] - 公司是国内首个具身全栈技术交流社区,已聚集大量视觉语言动作与强化学习方向的研究者 [3] 讲师资格要求 - 应聘者需专注于视觉语言动作与强化学习的研究方向 [2] - 学术界应聘者需为博士及以上学历(含在读),并拥有相关方向的顶级会议成果 [2] - 工业界应聘者需具备实战经验和真机调试经验 [2] 合作待遇与资源 - 公司将提供高于行业平均水平的薪酬 [4] - 公司将提供丰富的行业资源 [4] - 详细合作内容需通过指定微信联系方式进行咨询 [5]
VLA可以赋于强化学习更智能的场景应用......
具身智能之心· 2025-10-17 12:01
强化学习在机器人领域的应用 - 强化学习是具身智能机器人(如人形、四足机器人)实现步态控制等复杂任务的核心技术,赋予产品适应救援、测量、危险环境的能力 [3] - 机械臂的视觉语言动作模型与强化学习结合方案在学术领域越来越受欢迎,使机器人执行任务更高效顺畅 [4][9] 论文辅导课程核心信息 - 课程目标为帮助学员产出一篇符合RAL/ICRA/IROS/CoRL等顶级会议或期刊要求的论文初稿,涵盖论文IDEA确认、项目实现、实验指导、写作润色全流程 [8][10] - 课程周期为14周核心在线集中辅导加8周维护答疑,采用6人小班制,配备专属助教 [8][10][18] - 课程提供四足机器人、人形机器人、机械臂、VLA+RL四个大方向的可创新研究idea,每个题目均配备场景与基线代码 [19][30] 课程内容与产出 - 课程基于最新的Isaac Lab等仿真训练环境,提供SAC/PPO/BC/Diffusion Policy等基线代码,并涵盖sim2real/real2sim2real完整技术流程 [18][19][23] - 学员将完成从强化学习基础、仿真环境搭建到具体机器人任务训练(如复杂地形行走、灵巧操作)的系列实战,最终交付论文初稿v1.0及定量分析报告 [23][24][29] - 课程评测标准包括成功率、能耗、步态、接触冲击、鲁棒性等指标,并要求进行不少于5次随机种子的统计显著性检验流程 [19] 师资与特色 - 授课导师为来自美国顶尖高校的博士后研究员,在RSS、ICRA、IROS、RAL等顶级会议期刊有发表经验并担任审稿人 [27] - 课程特色为科研全闭环陪跑,包括每周里程碑、组会、代码/实验复盘、写作修改建议,结营后提供8周论文维护支持(补实验、改图、润色与审稿回复) [18][25][36]
各大顶会对RL和这些工作的结合很青睐~
具身智能之心· 2025-10-14 18:00
强化学习行业重要性 - 强化学习是具身智能机器人领域的核心技术,在人形机器人、四足机器人和机械臂的步态控制、高难度动作学习中发挥关键作用[2] - 强化学习与视觉语言动作模型结合在机械臂控制等学术领域越来越受欢迎,能提升机器人执行任务的效率和流畅度[3][8] - 强化学习技术被广泛应用于产品优化,例如自动驾驶等领域,显示出其跨行业的重要性[1] 行业技术应用现状 - 行业内领先公司如宇树、智元的人形机器人主要通过强化学习完成爬楼梯、爬山、跑步、跳舞、翻跟头等高难度动作训练[2] - 强化学习技术赋予机器人产品适应救援、测量、危险环境等复杂场景的能力,是迈向通用具身智能必须攻克的关键技术[2] - 基于IsaacLab等最新仿真训练环境的强化学习方案成为学术和工业界的前沿趋势[17][18] 行业人才发展挑战 - 强化学习体系庞大且内容繁杂,对研究经验要求高,初学者入门难度极大[5][9] - 缺乏完整学习体系导致研究人员容易处处踩坑,久久不能入门,最终错失发展机会[6][9] - 产出符合顶级会议期刊标准的论文需要在方法论证、实验结果、写作方式等多个模块达到高标准要求[5] 专业培训解决方案 - 针对行业痛点推出14周核心训练加8周论文维护的强化学习论文辅导课程,采用1v6小班教学模式[7][17] - 课程面向硕博生群体,提供每周直播授课、课程录播和专属助教答疑服务[7][17] - 课程设置四足、人形、机械臂三轨并行的研究方向,学员可根据需求选择特定主题[17][18] - 课程目标产出包括论文IDEA确认、项目实现、实验指导、写作润色和初稿形成,瞄准RAL/ICRA/IROS/CoRL等顶级会议期刊[7][11] 课程核心技术内容 - 基于IsaacLab/MuJoCo等最新仿真训练框架,提供SAC/PPO/BC/Diffusion Policy等基线代码[18][22] - 涵盖sim2real/real2sim2real完整技术流程,包括复杂地形鲁棒行走、外推冲击恢复、速度曲线跟踪等关键技术模块[10][22] - 包含视觉语言动作模型与强化学习结合的创新方向,支持多模态感知信息的仿人灵巧操作研究[10][25] - 提供完整的论文写作指导体系,包括结构化论文模板、统一图表体例、补充材料清单和投稿审稿回复辅导[18][24] 课程特色与优势 - 采用科研闭环模式,实现方法-工程-评测-写作-投稿-维护全流程陪跑,每周设置明确任务指标[17][31] - 即使学员没有成熟idea,也能在提供的idea与baseline上迭代出可投论文初稿[16] - 师资来自美国顶尖高校的博士后研究员,具备RSS、ICRA、IROS、RAL等顶级会议期刊的发表和审稿经验[23] - 课程配备真机部署参考代码,支持Unitree/Franka/xArm/云深处/松灵机器人等设备实机环节[26][28]
统一高效VLA+RL训练平台RLinf-VLA!
具身智能之心· 2025-10-13 08:02
核心观点 - RLinf-VLA是清华大学推出的首个面向具身智能的大规模强化学习框架,提供了一个统一、高效的平台用于视觉语言动作模型与强化学习的研究 [2] - 该框架的核心特点是“快”、“多”、“好”,系统级优化使吞吐量比基线平台提升2.27倍,支持大规模多任务训练,单个模型在130个任务中成功率高达98.11% [2] - 框架旨在解决当前VLA+RL研究中存在的算法设计分析不全面、基础设施上手难度高、算力昂贵等开发困境 [3] 系统设计 - 框架具有“统一”特性,支持LIBERO和ManiSkill两类典型仿真器,支持OpenVLA和OpenVLA-OFT两种主流模型,并支持PPO和GRPO两种强化学习算法 [5] - 框架具有“高效”特性,系统层面通过YAML文件可灵活切换3种分配模式,吞吐量提升高达2.27倍,算法层面引入了轻量化critic、轨迹长度归一化等优化设计 [5] - 针对不同仿真器的资源需求特点,框架提供了共享式、分离式、混合式三类GPU调度模式,并在混合式中支持细粒度流水设计,以优化资源调度减少GPU空闲 [6][7] - 在ManiSkill仿真器中,OpenVLA模型采用混合式细粒度流水调度模式(k=2)展现了最佳吞吐,吞吐量加速达1.61倍至1.88倍 [7][43] - 在LIBERO仿真器中,OpenVLA-OFT模型的最佳调度模式是共享式,其训练速度比基线快1.34倍至2.27倍 [44] 算法设计 - 框架定义了VLA模型输出的三个粒度:Token-level、Action-level和Chunk-level,并支持两种优势函数计算粒度和三种对数概率计算粒度 [12][14] - 在PPO算法中,基于动作级(action-level)的价值估计优于基于块级(chunk-level)的估计,且部分重置(partial resets)可显著提升采样效率 [9][17] - 在GRPO算法中,轨迹长度归一化与动作掩码是稳定训练的关键,框架还设计了过滤机制,可加速策略收敛并提升模型性能 [9][25][29] - 对于PPO算法,框架采用了轻量化的Critic模型设计,与Actor策略共享大部分参数以减少GPU资源占用 [21] 性能表现 - 在ManiSkill的25个pick&place任务中,经过训练的模型成功率相较于基础模型提升幅度在45%至70%,其中PPO算法表现更稳定,OpenVLA-OFT模型达到97.66%的成功率 [31][35] - 在LIBERO所有的130个任务中,采用GRPO算法训练的单个OpenVLA-OFT模型成功率高达98.11%,在部分任务组中成功率超过99% [40] - 在训练数据分布外的泛化能力测试中,OpenVLA模型也表现出色,成功率优于对比基线 [34][35] - 真机实验表明,在Franka机械臂上部署的OpenVLA模型展现出零样本泛化能力,其任务成功率显著优于基于SFT训练的策略 [45][46]
宇树科技王兴兴:机器人数据关注度有点太高了,最大问题在模型
21世纪经济报道· 2025-08-09 21:52
行业观点 - 未来2到5年最重要的发展方向是端到端的具身智能AI模型 [1] - 当前机器人硬件性能足够但AI能力不足是限制人形机器人大规模应用的最大瓶颈 [18] - 行业目前处于类似ChatGPT爆发前1-3年的阶段 技术路线已明确但尚未突破 [18] - 模型架构问题比数据问题更关键 当前对数据关注度过高而忽视模型优化 [20][21] - VLA+RL模型架构仍需升级 视频生成模型可能比VLA模型更具潜力 [21][22] 技术发展 - 机器人运动控制的scaling law尚未突破 每次新动作需从头训练 [23] - 分布式算力将成为重要方向 本地化部署解决延迟和成本问题 [25][26] - 具身智能的临界点将是机器人能自主完成陌生环境下的复杂任务 [19] - 最新技术已实现机器人动作随机组合和抗冲击能力 格斗动作速度提升100% [14][15] - 视频生成世界模型可能成为驱动机器人行动的有效路径 [22] 产品布局 - 四足机器人GO2集成大语言模型 全球出货量领先 [3] - 人形机器人G1低配价格9.9万元 出货量全球领先 [5] - 新款人形机器人R1价格下探至3.99万元 高度可定制化 [5] - 工业级四足机器人持续负载25-30kg 续航6小时 [6][8] - 自研3D激光雷达成本仅1000元 视场角达90×360度 [10] 市场表现 - 2023年春晚16台机器人全自动变队形表演成为科技文化符号 [11][12] - 行业上半年整体增长50-100% 需求端拉动显著 [16] - 特斯拉计划2025年量产数千台人形机器人 [17] - 全球科技巨头持续投入机器人领域 [17] - 客户预付订单促使公司2023年启动人形机器人项目 [4] 研发历程 - 2013-2016年研发投入仅1-2万元 开创低成本高性能方案 [3] - 早期反对人形机器人 因AI突破改变战略方向 [4] - 核心零部件全部自研 包括电机、减速器和传感器 [9][10] - 技术路线从固定动作序列发展到随机组合控制 [13][14] - 坚持让机器人"真正干活"的研发理念 [9][13]