Workflow
《面向实战与求职的VLA小班课》
icon
搜索文档
具身的半壁江山都在VLA了......
具身智能之心· 2025-12-16 17:25
更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 最近看到了很多HR的职位需求,list很长,但VLA算法是很"急需"。这一点,也体现在论文数量上。每天带着 很多小朋友看论文,也几乎都和VLA"挂钩"。 点击下方 卡片 ,关注" 具身智能 之心 "公众号 >> 点击进入→ 具身智能之心 技术交流群 本文只做学术分享,如有侵权,联系删文 一些团队开源了相关的技术框架,比如LeRobot,非常适合入门学习。近2年来,从ACT到OpenVLA,再到 π0、π0.5、π0.6,各类新的方法层出不穷,性能是越来越高。基于RL的优化方案,也让VLA模型越来越丝滑。 开源本体也多种多样,能够支持各类研究的需求。比如机械臂有SO-100、双臂操作有openarm、移动操作也有 XLeRobot等。 ★ ★ ★ 但VLA貌似"很伤",不好调,数据采集麻烦。这个事情,是很多同学持续在吐槽的。 不少同学说,相当多的时间"浪费"在踩坑上了。 只看论文而没有真机实验,在仿真里面做了好久,也不知道动起来啥样子。确实,具身和其它领域都有所不 同,太注重本体,即使是算法也极其依 ...
用SO-100,竟然完成这么多VLA实战......
具身智能之心· 2025-12-13 09:02
VLA很多模型就是跑不出效果..... 这一年,陆续收到很多同学的反馈。只看论文而没有真机实验,在仿真里面做了好久,也不知道动起来啥 样子。确实,具身和其它领域都有所不同,太注重本体,即使是算法也极其依赖硬件。即使有了硬件,也 不知道怎么跑出效果! 你是否有这样的疑问: 1. GR00T,PI0等模型虽已开源,但依据开源展示的代码,无法展示出很好的demo效果? 2. 训练过程像炼丹,loss明明已经训到很低,但部署到实机推理任务总是失败,难以定位原因? 3. 业界世界模型讲了一年多,不知道如何在训练和推理过程中应用? 想要把数据、VLA模型、训练优化、部署一整套任务打通,对很多初学者来说非常困难。有的同学甚至踩 了半年坑都无法真的入门,更不用说取得较好效果。特别是π0和π0.5、GR00T这类模型,无论是数据的采 集,还是模型的训练都有很多"trick"。 VLA落地的一些模块 谈落地之前,先梳理下VLA模型上机的几个前置模块,大概有以下几个部分: 11)数据采集 目前主要有基于模仿学习和强化学习的采集方法。其中,模仿学习的数据采集方式包括遥操作、VR、全身 动捕捉。而机械臂+VLA领域,更多是采用前两种。 ...
只用SO-100可以完成π0和π0.5的效果吗?
具身智能之心· 2025-12-11 17:33
文章核心观点 - 文章指出视觉语言动作模型在从理论到实际部署的落地过程中存在显著障碍 包括开源模型难以复现效果、训练与部署脱节、以及缺乏系统性的实战指导 [2][4][10] - 文章旨在推广一门名为《面向实战与求职的VLA小班课》的课程 该课程宣称是国内首个系统性解决VLA落地难题的实战课程 提供从硬件、数据采集、算法训练到真机部署的全栈教学 [10][12][15] VLA模型落地的主要挑战 - **开源模型复现困难**:GR00T、π0等模型虽已开源 但依据开源代码难以展示出良好的演示效果 [2] - **训练与部署脱节**:训练过程像炼丹 损失函数虽已降低 但部署到实体机器人进行推理时任务常失败 且原因难以定位 [2] - **世界模型应用模糊**:业界讨论世界模型已一年多 但学习者不清楚如何在训练和推理中实际应用 [2] - **全流程打通门槛高**:将数据、VLA模型、训练优化、部署整套流程打通对初学者非常困难 有人踩坑半年仍无法入门或取得好效果 [4] - **模型训练存在大量“技巧”**:特别是π0、π0.5、GR00T这类模型 在数据采集和模型训练环节存在许多未公开的细节与技巧 [4] VLA落地的关键模块与难点 - **数据采集**:主要方法包括基于模仿学习的遥操作、VR、全身动捕捉 在机械臂+VLA领域更多采用前两种 如何采集高质量数据及实现仿真到现实的转换是关键难点 [5][6] - **模型训练**:真机部署前需进行仿真调试 在真机数据不足时 使用Mujoco、Isaac Gym等框架进行仿真与Sim2Real尤为重要 [7] - **训练技巧至关重要**:如何微调模型、如何在小数据量下取得好结果是核心 许多学习者训练的模型存在机械臂运动不准、夹爪控制不好或运动误差大的问题 [7] - **算法选择影响效果**:ACT等算法相对简单易出效果 而π0和π0.5则非常难训练 对细节和技巧要求高 强化学习优化模型也极具挑战性 [7] - **模型部署与轻量化**:具身模型参数量大 即使是2B规模的模型 对边缘芯片部署挑战也很大 需通过量化、蒸馏等轻量化操作在保证性能的同时最小化参数量 [9] 课程解决方案与内容 - **课程定位**:该课程由具身智能之心平台联合业内VLA专家开发 是国内首个面向实战与求职的VLA小班课 旨在解决技术更新快、学习困难的问题 [10] - **课程内容全面**:课程涵盖机械臂硬件、数据采集、VLA算法、评测、仿真、主流VLA模型部署、VLA+世界模型、各类真机实验以及具身产业讲解 [12] - **课程硬件配套**:购买课程即赠送一套SO-100机械臂 包含示教臂和执行臂 [17] - **讲师背景**:讲师为某机器人公司VLA高级研究员 拥有5年以上机器人行业实战经验 精通具身智能全栈技术 并在顶级期刊发表学术论文10余篇 [20] 课程面向人群与要求 - **目标学员**:包括正在具身领域求职需要实战项目的同学、VLA领域需要进阶的学习者、从事具身智能研究的各学历层次学生、希望从传统CV、机器人或自动驾驶转行的人员 以及对领域感兴趣的其他人员 [22] - **硬件与基础要求**:建议推理使用RTX 3060及以上显卡 训练建议2张以上RTX 3090 Ti 也可自租云服务器 学员需具备一定的Python和PyTorch基础 [22] 课程学习收获与安排 - **学后收获**:学员将掌握真机调试与数据采集、各类VLA算法在真机上的部署、对VLA模型量化有深入了解、对具身产业落地有清晰认识 简历可获得足够项目支撑 学完可达1-2年以上算法工程师经验水平 [25] - **开课时间**:课程于2025年12月30日正式开课 共分九章 持续至2026年2月25日 [23][26]
夹钢笔、叠杯子,VLA算法实战小班课来了~
具身智能之心· 2025-12-10 08:03
具身智能与视觉语言动作模型发展现状 - 行业普遍认为具身智能领域与其他AI领域不同,其算法高度依赖硬件本体,仿真和互联网数据在泛化性能上无法保证,因此许多公司坚持“真机数据”路线 [2] - 近两年来,从ACT到OpenVLA,再到π0、π0.5、π0.6,各类新方法层出不穷,性能持续提升,基于强化学习的优化方案也让VLA模型运行越来越流畅 [2] - 开源技术框架如LeRobot,以及多样化的开源本体如机械臂SO-100、双臂操作openarm、移动操作XLeRobot等,为研究提供了支持 [2] VLA模型落地的主要挑战与模块 - 将数据、VLA模型、训练优化、部署整套流程打通对初学者而言非常困难,许多人在数据采集和模型训练上踩坑,难以入门或取得好效果,特别是π0、π0.5、GR00T等模型涉及大量技巧 [4] - 数据采集主要基于模仿学习和强化学习,模仿学习包括遥操作、VR、全身动捕捉,机械臂+VLA领域更多采用遥操作和VR,如何保证数据质量及实现sim2real是关键问题 [6][7] - 在真机部署前通常需要仿真调试,在真机数据不足时,Mujoco、Isaac Gym等仿真框架及sim2real技术尤为重要 [9] - 模型训练技巧至关重要,许多模型存在机械臂运动准但夹爪操作不佳,或运动误差大的问题,ACT相对简单易出效果,而π0、π0.5等模型训练难度高,强化学习优化也极具挑战 [9] - 模型部署前需进行“瘦身”操作,即使参数量为2B的模型,在边缘芯片部署挑战也很大,需通过量化、蒸馏等轻量化操作在保证性能的同时最小化参数量 [11] 具身智能实战课程内容与安排 - 课程由具身智能之心平台联合业内专家开发,是国内首个面向实战与求职的VLA小班课,旨在解决技术更新快、学习门槛高的问题 [12] - 课程内容全面,涵盖机械臂硬件、数据采集、VLA算法、VLA评测、仿真、主流VLA模型部署、VLA+世界模型、各类真机实验及具身产业讲解 [14] - 购买课程的学员将获赠一套SO-100机械臂,包含示教臂和执行臂 [19] - 课程讲师为某机器人公司VLA高级研究员,拥有5年以上机器人行业实战经验,精通具身智能全栈技术,并在顶级期刊发表学术论文10余篇 [22] - 课程面向具身领域求职者、VLA入门进阶者、相关领域学生、希望转行进入具身领域的人员以及对具身智能感兴趣的其他人员 [24] - 课程对硬件有建议配置:推理建议3060及以上显卡,训练建议2张以上3090ti显卡,学员也可自租云服务器资源,并要求具备一定的Python和PyTorch基础 [24] - 学员学后预期能掌握真机调试与数据采集、各类VLA算法在真机上部署、深入了解VLA模型量化、清晰认识具身产业落地,并在简历上积累足够项目经验,达到1-2年以上算法工程师水平 [27] - 课程于2025年12月30日正式开课,共分九章,持续至2026年2月25日 [25][28]
8个实战,彻底讲清VLA的各类方案
具身智能之心· 2025-12-08 09:11
具身智能与视觉语言动作模型技术现状 - 行业普遍面临视觉语言动作模型在实际硬件上难以跑出效果的挑战 [1] - 具身智能领域高度依赖硬件本体,算法与硬件紧密耦合,仿真和互联网数据在泛化性能上无法保证,许多公司坚持采用“真机数据”路线 [2] - 近2年来,算法技术快速发展,从ACT、OpenVLA到π0、π0.5、π0.6等新方法层出不穷,性能持续提升,基于强化学习的优化方案使模型运行更流畅 [4] - 开源硬件本体多样化,例如SO-100机械臂、openarm双臂操作系统、XLeRobot移动操作平台,支持各类研究需求 [4] VLA模型落地实施的核心模块与挑战 - 数据采集是首要模块,主要方法包括基于模仿学习的遥操作、VR、全身动捕捉,以及强化学习方法,在机械臂结合VLA领域更多采用遥操作和VR [7][8] - 数据采集的质量保障及real2sim2real流程是关键问题 [8] - 模型训练前通常需进行仿真调试,在真机数据不足时,Mujoco、Isaac Gym等仿真框架及sim2real技术尤为重要 [10] - 模型训练技巧至关重要,包括如何微调模型、如何在小数据量下取得良好效果,许多模型存在机械臂运动准但夹爪操作不佳或运动误差大的问题 [10] - ACT算法相对简单易出效果,而π0、π0.5、GR00T等模型训练难度高,对细节和技巧要求严格,强化学习优化模型的经验门槛高 [6][10] - 模型部署前需进行“瘦身”操作,即使参数量为2B的模型,在边缘芯片部署挑战仍大,需通过量化、蒸馏等轻量化技术最小化参数量并保证性能 [12] VLA技术学习与人才培养 - VLA技术更新快,学习曲线陡峭,许多学习者即使拥有真机硬件也不知如何入手 [13] - 行业推出了首个面向实战与求职的VLA小班课,内容涵盖机械臂硬件、数据采集、VLA算法与评测、仿真、主流VLA模型部署、VLA结合世界模型、真机实验及具身产业讲解 [14][16] - 课程为学员提供SO-100机械臂一套,包含示教臂和执行臂 [21] - 课程讲师为某机器人公司VLA高级研究员,拥有5年以上机器人行业实战经验,精通具身智能全栈技术,并在顶级期刊发表学术论文10篇以上 [25] - 课程目标人群包括:具身领域求职者、VLA入门进阶者、相关领域学生、从传统CV/机器人/自动驾驶转行者以及对具身智能感兴趣的人员 [27] - 课程对硬件有明确建议:推理建议使用RTX 3060及以上显卡,训练建议使用2张以上RTX 3090 Ti显卡,也可自租云服务器,并要求学员具备一定的Python和PyTorch基础 [27] - 完成课程后,学员将掌握真机调试与数据采集、各类VLA算法真机部署、模型量化技术,并对具身产业有清晰认识,简历项目经验可达到1-2年以上算法工程师水平 [30] - 课程计划于2025年12月30日开课,共分九章,持续至2026年2月25日 [28][31]
面向真机,搞了一套VLA算法部署+量化+世界模型实战教程
具身智能之心· 2025-12-05 08:02
具身智能与视觉语言动作模型技术现状 - 视觉语言动作模型在真实硬件上运行效果不佳,许多模型难以达到预期效果 [1] - 具身智能领域高度依赖硬件本体,算法与硬件结合紧密,仿真和互联网数据在泛化性能上无法保证 [2] - 行业内的许多公司坚持采用“真机数据”路线来确保模型性能 [2] 技术发展与开源生态 - 近两年来,视觉语言动作模型算法发展迅速,从ACT、OpenVLA到π0、π0.5、π0.6等新方法不断涌现,性能持续提升 [4] - 基于强化学习的优化方案使得视觉语言动作模型运行更加流畅 [4] - 开源技术框架(如LeRobot)和多样化的开源硬件本体(如SO-100机械臂、openarm双臂、XLeRobot移动操作平台)为研究提供了支持 [4] 技术落地面临的挑战 - 打通从数据采集、模型训练优化到部署的全流程任务对初学者极为困难,许多人长期无法有效入门或取得好效果 [6] - 特定模型如π0、π0.5、GR00T在数据采集和模型训练中存在大量未公开的技巧 [6] - 模型训练前的仿真调试至关重要,在真机数据不足时,Mujoco、Isaac Gym等仿真框架及sim2real技术尤为重要 [10] - 模型训练技巧是关键,许多模型存在机械臂运动不准、夹爪操作失败或运动误差大的问题 [10] - ACT等算法相对简单易出效果,而π0、π0.5等模型训练难度大,对细节和经验要求高,强化学习优化同样充满挑战 [11] 视觉语言动作模型落地的核心模块 - **数据采集**:主要方法包括基于模仿学习的遥操作、VR、全身动作捕捉,以及强化学习,如何采集高质量数据及实现real2sim2real是重点 [7][8] - **模型训练**:涉及仿真调试与训练技巧,特别是在真机数据不足时如何微调模型,以及如何用小数据量获得好结果 [9][10] - **模型部署**:训练后的模型需进行“瘦身”处理,因参数量大(即使是2B规模),在边缘芯片部署挑战大,需采用量化、蒸馏等轻量化技术 [12][13] 行业培训与解决方案 - 针对视觉语言动作模型技术更新快、学习难度大的痛点,出现了面向实战与求职的系统性小班课程 [14] - 课程内容全面,涵盖机械臂硬件、数据采集、算法、评测、仿真、主流模型部署、视觉语言动作模型与世界模型结合、真机实验及产业讲解 [16] - 课程提供SO-100机械臂硬件(含示教臂和执行臂)以供实践 [20] - 课程讲师为机器人公司高级研究员,拥有5年以上行业实战与产学研落地经验,精通全栈技术并在顶级期刊发表论文10余篇 [23] - 目标学员包括求职者、入门进阶者、高校学生、转行人员及爱好者,要求具备Python和PyTorch基础,并建议使用3060及以上显卡进行推理,2张以上3090ti进行训练 [24] - 课程目标为使学员掌握真机调试与数据采集、各类视觉语言动作模型算法部署、模型量化技术,并对产业有清晰认识,积累相当于1-2年经验的算法工程项目 [27] - 课程计划于2025年12月30日开课,共分九章,持续至2026年2月25日 [28]
带硬件!最全的VLA实战教程来啦
具身智能之心· 2025-12-01 11:12
VLA技术发展现状 - 具身智能领域高度依赖硬件本体,算法性能与硬件紧密相关,仿真和互联网数据在泛化性能上无法保证,许多公司坚持采用真机数据路线[2] - 近2年来VLA技术框架快速发展,从ACT到OpenVLA,再到π0、π0.5、π0.6系列,新方法层出不穷且性能持续提升,基于强化学习的优化方案使VLA模型运行更加流畅[4] - 开源硬件本体多样化,支持各类研究需求,包括SO-100机械臂、openarm双臂操作系统、XLeRobot移动操作平台等[4] VLA落地技术挑战 - 完整打通数据采集、VLA模型训练优化和部署全流程存在较大困难,初学者可能花费半年时间仍无法有效入门[6] - 数据采集主要采用模仿学习和强化学习方法,模仿学习包括遥操作、VR和全身动捕捉三种方式,机械臂领域多采用前两种,如何保证数据质量和实现real2sim2real是关键问题[8] - 模型训练需要先进行仿真调试,在真机数据不足时sim2real技术尤为重要,使用mujoco、Isaac Gym等框架,训练技巧对结果影响显著,不同算法难度差异大[10] - 部署阶段需要进行模型轻量化处理,即使2B参数规模的模型对边缘芯片也是挑战,必须通过量化、蒸馏等技术在保证性能的同时最小化参数量[12] 教育培训解决方案 - 针对VLA技术快速迭代的特点,推出了国内首个面向实战与求职的VLA小班课,涵盖机械臂硬件、数据采集、VLA算法、模型评测、仿真、部署等完整内容[14][16] - 课程配备SO-100机械臂硬件套装(包含示教臂和执行臂),由拥有5年以上机器人行业实战经验的VLA高级研究员授课,具备IEEE Trans系列顶级期刊发表经验[22][26] - 目标学员包括求职者、VLA入门进阶人员、高校学生及转行人员,要求具备Python和Pytorch基础,推荐使用3060以上显卡进行推理,2张以上3090ti进行训练[27] - 课程于2025年12月30日开课,共九章内容,学完后可掌握真机调试与数据采集、VLA算法部署、模型量化等技术,达到1-2年算法工程师经验水平[28][30][31]
首个面向求职+工业级的VLA实战教程!真机+各类VLA算法部署+量化+世界模型
具身智能之心· 2025-11-29 10:07
文章核心观点 - 视觉语言动作模型领域技术迭代迅速但实践门槛高,初学者在数据采集、模型训练与部署等环节面临显著挑战[1][6] - 行业强调真机数据的重要性,仿真与互联网数据在泛化性能上存在不足[2] - 为解决学习痛点,业内推出结合硬件与软件的全栈VLA实战课程,旨在通过真机实验提升学员的工程实践能力[14][16][19] VLA技术发展现状 - 近2年来VLA算法快速迭代,从ACT到OpenVLA,再到π0、π0.5、π0.6系列,模型性能持续提升[4] - 基于强化学习的优化方案显著改善了VLA模型的操作流畅度[4] - 开源技术框架如LeRobot降低了入门门槛,开源硬件本体如SO-100机械臂、openarm双臂、XLeRobot移动操作平台支持多样化研究需求[4] VLA落地实践的关键模块 - 数据采集主要依赖模仿学习与强化学习,模仿学习通过遥操作、VR、全身动捕捉方式实现,机械臂领域侧重前两种[7][8] - 模型训练需借助Mujoco、Isaac Gym等仿真框架进行调试,sim2real技术在真机数据不足时尤为重要[10] - 模型部署面临参数量大的挑战,即使2B规模也对边缘芯片构成压力,需通过量化、蒸馏等轻量化操作在保证性能的同时最小化参数量[12] VLA实战课程内容 - 课程涵盖机械臂硬件、数据采集、VLA算法、模型评测、仿真、主流模型部署、VLA+世界模型、真机实验及产业讲解等全栈内容[16] - 学员将获得SO-100机械臂硬件套装,课程设计面向求职者、进阶学习者、高校学生及跨行业转型人员[22][27] - 课程要求学员具备Python和PyTorch基础,推荐使用3060及以上显卡进行推理,2张以上3090ti显卡进行训练[27] - 完成课程后学员可掌握真机调试与数据采集、VLA算法部署、模型量化等技能,达到1-2年算法工程师经验水平[30]