Workflow
VLA算法
icon
搜索文档
自驾转具身!使用低成本机械臂复现pi0和pi0.5~
自动驾驶之心· 2026-01-14 08:48
行业现状与人才需求 - 视觉语言动作模型算法人才在行业内非常“急需”,尤其是在自动驾驶领域,这一点从大量职位需求和论文数量上得到体现 [2] - 自动驾驶领域的VLA与具身智能领域的VLA虽有相通之处,但底层差距很大 [2] 技术发展面临的挑战 - VLA模型在开发和优化上存在困难,表现为模型“不好调”且数据采集过程麻烦,这是从业者普遍反映的问题 [3] - 具身智能领域高度依赖硬件本体,仅通过论文研究和仿真实验难以了解算法在真实环境中的表现,与其他领域区别显著 [4] - 真实数据采集需要借助遥操、VR、全身动捕等硬件手段,许多具身智能公司坚持“真机数据”路线,因为仿真和互联网数据在泛化性能上无法保证 [5] - 真机数据采集本身存在困难,采集的数据可能不好用,且整个流程周期长,在模型优化上也面临挑战,有时效果难以调出或在真机上表现不佳 [5] - 对于初学者而言,将数据、VLA模型、训练优化、部署整套流程打通非常困难,部分从业者甚至花费半年时间“踩坑”仍难以入门或取得好效果 [8] - 对于π0、π0.5、GR00T等前沿模型,其数据采集和模型训练过程中包含许多不公开的技巧 [8] 解决方案与课程介绍 - 有机构基于SO-100机械臂和LeRobot平台,复现了ACT、GR00T、π0、π0.5等方法,旨在解决学习者缺乏真机、不知如何上手的问题 [9] - 针对VLA技术更新快、学习难度大的痛点,有平台联合领域专家推出了《面向实战与求职的VLA小班课》,提供实战教程以节省学习者“踩坑”时间 [10] - 该课程项目经验可写入简历,其中的技巧可作为面试答案,帮助学习者高效积累经验 [11] - 课程内容全面,涵盖机械臂硬件、数据采集、VLA算法与评测、仿真、主流VLA模型部署、VLA+世界模型、各类真机实验以及具身产业讲解 [13] - 该课程被描述为目前该平台最大、最完整的课程,采用软硬结合的方式 [13] - 购买课程的学员将获赠一套包含示教臂和执行臂的SO-100机械臂硬件 [14] - 课程讲师为某机器人公司VLA高级研究员,拥有5年以上机器人行业实战经验,精通具身智能全栈技术,并在顶级期刊发表过10篇以上学术论文 [17] 课程目标人群与要求 - 课程面向正在具身领域求职需要实战项目者、VLA领域需进阶者、从事具身智能研究的各学历学生、希望从传统CV/机器人/自动驾驶转行者,以及对领域感兴趣的其他人员 [21] - 课程对硬件有建议配置:推理建议使用RTX 3060及以上显卡,训练建议使用2张以上RTX 3090 Ti显卡,也可自租云服务器资源 [21] - 学员需具备一定的Python和PyTorch基础 [21] 预期学习成果 - 学员将掌握真机的调试与数据采集技能 [21] - 学员将掌握各类VLA算法在真机上的部署 [21] - 学员将对VLA模型的量化有深入了解 [21] - 学员将对具身智能产业及其落地应用有清晰认识 [21] - 学员的简历将获得足够多的项目支撑 [21] - 学员在学完后将达到具备1-2年以上经验的算法工程师水平 [21] 课程安排 - 课程定于2025年12月30日正式开课,后续章节将延续至2026年2月25日 [22]
正式开始学习!使用低成本机械臂复现pi0和pi0.5~
具身智能之心· 2026-01-06 08:32
文章核心观点 - 文章指出,视觉语言动作模型是当前具身智能领域急需的技术,但学习与实践门槛极高,存在数据采集困难、模型调优复杂、真机部署效果不佳等核心痛点[2] - 为应对上述挑战,具身智能之心平台联合专家推出了国内首个面向实战与求职的VLA小班课,旨在通过系统化、软硬结合的课程,帮助学习者快速掌握从数据到部署的全栈技能,节省“踩坑”时间,并提升求职竞争力[4][5][6] 课程内容与结构 - 课程共分九章,内容全面覆盖VLA基础、机械臂硬件、数据采集、主流模型部署、仿真环境、模型轻量化、世界模型融合、模型评测以及产业趋势分析[8][9] - 课程将详细讲解并复现ACT、GR00T N1/N1.5系列、π0/π0.5/π0-fast等主流VLA模型,涵盖环境配置、核心代码、训练推理及真机效果验证[15] - 课程包含仿真环境搭建与联动、模型量化与蒸馏实战、VLA与世界模型融合的框架详解与复现,以及主流评测基准的实战演练[15][16] 课程特色与资源 - 课程采用“软硬结合”方式,购买课程的学员将获赠一套SO-100机械臂,包含示教臂和执行臂,用于真机实践[16] - 课程基于SO-100机械臂和LeRobot平台,复现了多种主流VLA方法,以解决学习者缺乏真机、不知如何上手的问题[4] - 讲师为某机器人公司VLA高级研究员,拥有5年以上机器人行业实战经验,并在顶级期刊发表学术论文10余篇[20] 目标人群与学习要求 - 课程面向正在具身领域求职、需要实战项目的同学,VLA领域的入门进阶者,从事具身智能研究的本硕博学生,以及希望从传统CV、机器人或自动驾驶领域转行进入具身智能的人员[21][24] - 学习基础要求包括:一定的Python和PyTorch基础,建议使用RTX 3060及以上显卡进行推理,使用2张以上RTX 3090 Ti进行训练,或自租云服务器资源[24] 学习收获与安排 - 完成课程后,学员将能掌握真机调试与数据采集、各类VLA算法在真机上的部署、对VLA模型的量化有深入了解,并对具身产业落地有清晰认识,简历上可获得足够多的项目支撑[24] - 课程宣称学完可达到1-2年以上的算法工程师经验水平[25] - 课程将于2025年12月30日正式开课,按章节分阶段进行至2026年2月25日[25]
从零开始!使用低成本机械臂复现pi0和pi0.5~
具身智能之心· 2025-12-25 09:41
文章核心观点 - 具身智能领域,特别是视觉语言动作模型的学习与应用面临巨大实践挑战,包括真机数据采集困难、模型训练优化复杂、部署流程繁琐,导致初学者入门耗时且难以取得效果[2] - 为应对上述挑战,具身智能之心平台联合业内专家推出了国内首个《面向实战与求职的VLA小班课》,旨在通过系统化、实战化的课程,结合赠送的SO-100机械臂硬件,帮助学员快速掌握VLA全栈技术,节省“踩坑”时间,并积累可写入简历的项目经验[4][5][6] 课程内容与结构 - 课程共分九章,内容全面覆盖从VLA基础理论、机械臂硬件平台、数据采集处理、主流VLA模型部署与真机实战、仿真环境搭建、模型轻量化与蒸馏、VLA与世界模型融合、VLA评测到产业趋势分析的全链路知识[8][9] - 课程重点部署和详解了ACT、GR00T N1/N1.5系列、π0/π0.5/π0-fast等当前主流和前沿的VLA模型,包含环境配置、核心代码讲解、模型训练推理及真机效果展示等实战环节[15][17] - 课程包含仿真环境(如Isaac Lab)的配置、场景搭建以及与真机的联动,并设有专门的章节讲解模型量化与蒸馏技术,以SmolVLA为例进行实战分析[15] - 课程最后部分探讨VLA与世界模型融合的架构、VLA评测基准(如Libero、Robo Challenge),并对VLA技术趋势与产业落地进行分析[15][16] 课程配套与师资 - 购买课程的学员将获赠一套SO-100机械臂(包含示教臂和执行臂),用于课程的真机实践环节[16] - 课程讲师为某机器人公司VLA高级研究员,拥有超过5年机器人行业实战经验,在IEEE Trans等顶级期刊发表学术论文10余篇,具备产学研协同落地经验[20] 目标学员与学习要求 - 课程面向正在具身领域求职、需要实战项目的同学,VLA领域的入门进阶者,从事具身智能研究的本硕博学生,以及希望从传统CV、机器人或自动驾驶领域转行进入具身智能的人员[21][24] - 学习硬件建议推理使用RTX 3060及以上显卡,训练建议2张以上RTX 3090 Ti显卡,也可自租云服务器资源[24] - 学员需具备一定的Python和PyTorch基础,学成后可掌握真机调试与数据采集、各类VLA算法真机部署、VLA模型量化等技能,并对具身产业有清晰认识[22][24] - 课程宣称学完后可达到具备1-2年以上经验的算法工程师水平[25] 课程安排 - 课程于2025年12月30日正式开课,按章节分阶段进行,持续至2026年2月25日结束[25]
看了这么多开源项目,推荐复现这几个VLA方法~
具身智能之心· 2025-12-23 11:34
行业技术趋势与人才需求 - 视觉语言动作模型是当前具身智能领域最急需的技术方向之一 这一点在大量职位需求和论文产出上得到体现 [1] - 行业面临的核心挑战在于VLA模型难以调试 数据采集过程复杂且耗时 导致研发效率低下 [2][3] - 近两年来 VLA技术发展迅速 从ACT到OpenVLA、GR00T 再到π0、π0.5、π0.6等新方法层出不穷 性能持续提升 基于强化学习的优化方案使模型表现更佳 [5] 技术研发与落地瓶颈 - 具身智能领域高度依赖硬件本体 算法效果与真机实验强相关 仅靠仿真难以保证泛化性能 许多公司坚持采用真机数据路线 [3] - 从数据采集、模型训练优化到最终部署的全流程打通对初学者而言非常困难 部分从业者甚至花费半年时间仍难以入门并取得良好效果 [8] - 在模型训练环节 仿真和Sim2Real技术至关重要 特别是在真机数据不足时 训练技巧是关键 不同算法难度差异大 例如ACT相对简单易出效果 而π0和π0.5等模型则对细节和技巧要求极高 难以训练成功 [11] - 模型部署面临参数量大的挑战 即使是2B规模的模型 在边缘芯片上部署也有很大难度 因此量化、蒸馏等轻量化操作必不可少 [12] 主流技术方案与开源生态 - 行业内已有如LeRobot等开源技术框架 非常适合入门学习 [5] - 开源机器人本体种类多样 能满足不同研究需求 例如SO-100机械臂、OpenArm双臂操作系统以及XLeRobot移动操作平台等 [6] - 数据采集主要基于模仿学习和强化学习 模仿学习的方法包括遥操作、VR和全身动作捕捉 在机械臂结合VLA的领域 前两种方法更为常用 [10] 专业培训与能力建设 - 为应对技术快速更新和学习困难 业内推出了面向实战的VLA系统课程 课程内容全面覆盖机械臂硬件、数据采集、VLA算法、评测、仿真、模型部署、世界模型融合、真机实验及产业分析 [13][17] - 该课程是目前内容最完整的具身智能课程之一 采用软硬结合的方式 购买课程者将获赠一套包含示教臂和执行臂的SO-100机械臂硬件 [18][29] - 课程面向多类人群 包括正在求职的学生、需要进阶的VLA从业者、从事研究的博硕士生 以及希望从传统计算机视觉、机器人或自动驾驶领域转型至具身智能的人员 [33][36] - 完成课程学习后 学员预期能掌握真机调试与数据采集 掌握各类VLA算法在真机上的部署 对模型量化有深入了解 并对产业落地有清晰认识 简历项目经验可达到1-2年以上算法工程师水平 [36][39]
VLA工作正在呈现爆发式增长.......
具身智能之心· 2025-12-21 00:03
行业趋势与VLA技术发展现状 - 视觉语言动作模型领域正经历爆发式增长 新算法和框架不断涌现 推动模型性能更加泛化 [2] - 开源数据规模已达百万级 数据采集设备日益多元化 行业评测标准逐渐统一 预示着产业化进程可能加速 [2] - VLA作为核心模块 其应用场景将不断扩展 吸引更多下游合作伙伴和优秀人才加入 [2] VLA技术落地面临的挑战与痛点 - VLA模型调试难度大 数据采集过程复杂且耗时 成为从业者普遍面临的难题 [3][5] - 具身智能领域高度依赖硬件本体 仅依靠论文和仿真难以评估真实性能 导致学习与实践存在鸿沟 [4] - 真实数据采集依赖遥操、VR、动捕等方式 但采集的数据质量不佳 而仿真数据又存在泛化性问题 形成数据困境 [5] - 从数据采集、模型训练优化到部署的全流程打通 对初学者而言极为困难 许多人长期无法有效入门 [10] - 部分先进模型如π0、π0.5、GR00T 在数据采集和模型训练中存在大量未公开的技巧 增加了应用门槛 [11] VLA技术落地的关键模块 - **数据采集**:主要方法包括基于模仿学习的遥操作、VR、全身动捕 以及强化学习 如何获取高质量数据及实现real2sim2real是关键 [13] - **模型训练**:在真机数据不足时 仿真和sim2real技术至关重要 训练技巧直接影响效果 不同算法难度差异大 [14] - **模型部署**:大参数量模型对边缘部署构成挑战 需通过量化、蒸馏等轻量化技术压缩模型 以平衡性能与资源消耗 [15] 行业解决方案与生态建设 - 开源技术框架如LeRobot为入门学习提供了支持 近两年涌现出ACT、OpenVLA、π系列等多种新方法 性能持续提升 [7] - 开源机器人本体日益丰富 如SO-100机械臂、openarm双臂操作平台、XLeRobot移动操作平台 支持多样化研究需求 [7] - 行业内出现了面向实战的培训课程 旨在系统化解决学习难题 内容涵盖硬件、算法、仿真、部署及产业认知 [17][20]
VLA工作正在呈现爆发式增长.......
具身智能之心· 2025-12-18 17:30
行业技术发展现状与趋势 - 视觉语言动作模型算法正在爆发式增长,许多框架和工具帮助VLA模型实现更加泛化的性能 [2] - 数据和采集设备逐渐多元化,百万级的开源数据陆续开放,评测标准逐渐统一,预示着产业化可能很快到来 [2] - 作为核心模块,VLA将会覆盖更多场景应用,下游合作伙伴会越来越多,更多优秀人才将陆续加入 [2] - 近2年来,从ACT到OpenVLA,再到π0、π0.5、π0.6,各类新方法层出不穷,性能越来越高 [7] - 基于强化学习的优化方案让VLA模型性能越来越丝滑 [7] - 开源本体多种多样,能够支持各类研究需求,例如机械臂有SO-100、双臂操作有openarm、移动操作也有XLeRobot等 [7] 行业面临的挑战与痛点 - VLA模型难以调试,数据采集麻烦,对正在从事或入门该领域的从业者构成挑战 [3] - 领域过于注重硬件本体,即使是算法也极其依赖硬件,只看论文而无真机实验难以了解实际效果 [4] - 真实数据采集需要借助遥操、VR、全身动补等硬件方式,仿真和互联网数据在泛化性能上得不到保证 [5] - 许多具身公司坚持“真机数据”路线,但真机采集的数据并不好用,且一轮采集周期耗时很久 [5] - 一些算法在真机上效果不佳,难以分析原因 [9] - 将数据、VLA模型、训练优化、部署一整套任务打通,对很多初学者来说非常困难,有人踩坑半年也无法真正入门 [10] - 对于π0、π0.5、GR00T这类模型,无论是数据采集还是模型训练都存在很多“技巧” [11] - 对于更新快速的技术路线,如何有效学习VLA难倒了相当多的人,即使手上有真机也不知如何使用 [16] VLA模型落地的核心模块 - **数据采集**:目前主要有基于模仿学习和强化学习的采集方法,模仿学习包括遥操作、VR、全身动捕捉,机械臂+VLA领域更多采用前两种 [13] - **VLA的训练**:真机部署前通常需要仿真调试,在真机数据不足时,仿真和sim2real尤为重要 [14] - **VLA的训练**:模型训练技巧关键,如何微调模型、如何在小数据量下实现好结果都是挑战,许多模型存在机械臂运动准但夹爪夹不好或运动误差大的问题 [14] - **VLA的训练**:ACT算法相对简单易出效果,而π0和π0.5则很难训练,对细节和技巧要求高,强化学习优化模型也非常考验经验 [14] - **VLA模型的部署**:模型训练后需进行“瘦身”,具身模型参数量一般较大,即使2B规模对边缘芯片部署挑战也很大 [15] - **VLA模型的部署**:轻量化操作如量化、蒸馏必不可少,需在保证性能的同时最小化参数量 [15] 相关培训课程内容概述 - 课程涵盖机械臂硬件、数据采集、VLA算法、VLA评测、仿真、主流VLA模型部署、VLA+世界模型、各类真机实验、具身产业讲解等 [19] - 课程大纲共九章,包括VLA基础与概括、机械臂及训练平台、数据集获取、VLA模型部署与真机实战、仿真环境与工具链搭建、模型轻量化与蒸馏、VLA与世界模型融合架构、VLA评测及能力提升、VLA趋势与产业落地 [22][23][24][25][26][27][28] - 真机实战部分详细讲解GR00T N1/N1.5系列模型、π0/π0.5/π0-fast模型以及ACT模型的部署,包括环境配置、核心代码、训练推理和真机效果 [25][26][30] - 仿真环境部分介绍主流平台,并包含Isaac Lab环境部署、功能使用、场景搭建以及仿真与真机联动实战 [26] - 模型轻量化部分涵盖量化与蒸馏技术介绍,以及VLA模型量化蒸馏实战,包括SmolVLA实例分析 [26] - 课程面向正在具身领域求职需要实战项目的同学、VLA领域入门进阶同学、从事具身智能研究的各阶段学生、希望从传统领域转行进入具身的同学以及对领域感兴趣的其他人员 [36] - 课程对硬件有建议配置:推理建议3060及以上,训练建议2张以上3090ti,也可自租云服务器资源 [37] - 购买课程的学员将获赠一套SO-100机械臂 [29] - 课程于2025年12月30日正式开课,持续至2026年2月25日 [41]
具身的半壁江山都在VLA了......
具身智能之心· 2025-12-16 17:25
行业技术趋势与需求 - 视觉语言动作模型是当前具身智能领域最急需的算法方向之一,这一点从大量职位需求和论文产出中得到体现 [1] - 近两年来,从ACT到OpenVLA,再到π0、π0.5、π0.6,各类新方法层出不穷,性能持续提升 [5] - 基于强化学习的优化方案正使视觉语言动作模型的表现越来越流畅 [5] 技术发展面临的挑战 - 视觉语言动作模型调试困难、数据采集过程繁琐,是行业从业者普遍反映的痛点 [2] - 具身智能领域高度依赖硬件本体,仅通过仿真环境进行研究难以保证算法的泛化性能,许多公司坚持采用真机数据路线 [3] - 真实数据采集需借助遥操作、VR、全身动作捕捉等方式,过程耗时且采集到的数据往往难以直接使用 [3] - 许多初学者在尝试打通数据、模型、训练、部署全流程时遇到巨大困难,有人甚至耗费半年时间仍无法有效入门 [7] - 像π0、π0.5、GR00T这类先进模型,在数据采集和模型训练环节存在大量需要经验积累的技巧 [7] - 训练完成的模型参数量庞大,即使是2B规模的模型,在边缘芯片上的部署也面临巨大挑战,需要进行量化、蒸馏等轻量化操作 [10] 技术实施的关键模块 - **数据采集**:主要方法包括基于模仿学习的遥操作、VR、全身动捕,以及基于强化学习的方法,如何保证数据质量和实现真实到仿真再到真实的闭环是关键 [8] - **模型训练**:在真机数据不足时,仿真和仿真到真实迁移技术至关重要,Mujoco、Isaac Gym等是常用框架,不同模型的训练难度差异大,ACT相对简单易出效果,而π0、π0.5则对细节和技巧要求极高 [9] - **模型部署**:涉及模型“瘦身”,通过量化、蒸馏等技术在保证性能的同时最小化参数量,以适应边缘计算环境 [10] 开源生态与硬件支持 - 已有团队开源了如LeRobot等技术框架,非常适合入门学习 [5] - 开源硬件本体多样化,能满足不同研究需求,例如机械臂有SO-100、双臂操作有openarm、移动操作有XLeRobot等 [5] - 行业存在主流仿真平台,如Isaac Lab,用于环境配置、场景搭建以及仿真与真机的联动 [22] 行业人才培养与课程内容 - 为应对技术快速更新带来的学习挑战,业内推出了系统性的实战课程,内容涵盖机械臂硬件、数据采集、视觉语言动作算法、评测、仿真、主流模型部署、与世界模型融合、真机实验及产业分析 [16] - 课程设计软硬结合,旨在帮助学习者节省“踩坑”时间,积累可写入简历的项目经验,掌握面试所需的技巧 [14] - 课程大纲全面,共分九章,包括:视觉语言动作基础与概述、机械臂及训练平台、数据集获取、模型部署与真机、仿真环境与工具链搭建、模型轻量化与蒸馏、视觉语言动作与世界模型融合、评测及能力提升、趋势与产业落地 [18][19][20][21][22][23][24][25] - 课程包含对多种主流模型的详解与部署实战,如ACT、GR00T N1/N1.5系列、π0/π0.5/π0-fast等 [22][26] - 课程提供了具体的模型能力提升方向,包括陈述性知识能力、运动行为知识、定向数据合成等,并涉及Libero、Robo Challenge、Robo Twins等主流评测基准 [27] - 课程对产业趋势进行分析,涵盖当前技术瓶颈、未来发展方向预测,以及主流具身公司的战略布局和产业落地生态 [27]
夹钢笔、叠杯子,VLA算法实战小班课来了~
具身智能之心· 2025-12-10 08:03
具身智能与视觉语言动作模型发展现状 - 行业普遍认为具身智能领域与其他AI领域不同,其算法高度依赖硬件本体,仿真和互联网数据在泛化性能上无法保证,因此许多公司坚持“真机数据”路线 [2] - 近两年来,从ACT到OpenVLA,再到π0、π0.5、π0.6,各类新方法层出不穷,性能持续提升,基于强化学习的优化方案也让VLA模型运行越来越流畅 [2] - 开源技术框架如LeRobot,以及多样化的开源本体如机械臂SO-100、双臂操作openarm、移动操作XLeRobot等,为研究提供了支持 [2] VLA模型落地的主要挑战与模块 - 将数据、VLA模型、训练优化、部署整套流程打通对初学者而言非常困难,许多人在数据采集和模型训练上踩坑,难以入门或取得好效果,特别是π0、π0.5、GR00T等模型涉及大量技巧 [4] - 数据采集主要基于模仿学习和强化学习,模仿学习包括遥操作、VR、全身动捕捉,机械臂+VLA领域更多采用遥操作和VR,如何保证数据质量及实现sim2real是关键问题 [6][7] - 在真机部署前通常需要仿真调试,在真机数据不足时,Mujoco、Isaac Gym等仿真框架及sim2real技术尤为重要 [9] - 模型训练技巧至关重要,许多模型存在机械臂运动准但夹爪操作不佳,或运动误差大的问题,ACT相对简单易出效果,而π0、π0.5等模型训练难度高,强化学习优化也极具挑战 [9] - 模型部署前需进行“瘦身”操作,即使参数量为2B的模型,在边缘芯片部署挑战也很大,需通过量化、蒸馏等轻量化操作在保证性能的同时最小化参数量 [11] 具身智能实战课程内容与安排 - 课程由具身智能之心平台联合业内专家开发,是国内首个面向实战与求职的VLA小班课,旨在解决技术更新快、学习门槛高的问题 [12] - 课程内容全面,涵盖机械臂硬件、数据采集、VLA算法、VLA评测、仿真、主流VLA模型部署、VLA+世界模型、各类真机实验及具身产业讲解 [14] - 购买课程的学员将获赠一套SO-100机械臂,包含示教臂和执行臂 [19] - 课程讲师为某机器人公司VLA高级研究员,拥有5年以上机器人行业实战经验,精通具身智能全栈技术,并在顶级期刊发表学术论文10余篇 [22] - 课程面向具身领域求职者、VLA入门进阶者、相关领域学生、希望转行进入具身领域的人员以及对具身智能感兴趣的其他人员 [24] - 课程对硬件有建议配置:推理建议3060及以上显卡,训练建议2张以上3090ti显卡,学员也可自租云服务器资源,并要求具备一定的Python和PyTorch基础 [24] - 学员学后预期能掌握真机调试与数据采集、各类VLA算法在真机上部署、深入了解VLA模型量化、清晰认识具身产业落地,并在简历上积累足够项目经验,达到1-2年以上算法工程师水平 [27] - 课程于2025年12月30日正式开课,共分九章,持续至2026年2月25日 [25][28]
对话多个行业大佬!VLA与RL方案在真机上的部署怎么样啦?
具身智能之心· 2025-12-06 00:02
直播活动概览 - 具身智能之心公众号将举办一场主题为“VLA与RL的真机部署 如何更好落地”的线上直播 [13] - 直播时间为12月6日19:30,可通过扫描二维码免费观看 [25] - 直播将围绕VLA算法与RL落地问题展开,探讨多个具体技术话题 [3][16] 分享嘉宾背景 - **隋伟 (地瓜机器人副总裁)**:曾任职地平线,负责机器人与自动驾驶的2.5D及3D视觉算法研发,带领30人团队开发了高阶自动驾驶BEV感知方案并搭建了先进的4D标注系统,其成果已在数百万片旭日系列芯片和多个量产车型上应用,发表论文20余篇,拥有专利40多项 [4][5] - **张强 (北京人形机器人首席研究员和学术委主任)**:研究方向包括人形机器人运动控制、多模态感知及具身智能体,曾在Fourier GR-1、PNDbotics Adam及天工机器人平台担任强化学习算法核心研发,发表数十篇顶会顶刊论文 [6][7][8] - **汪天才 (原力灵机合伙人)**:原旷视科技高级研究员,是端到端自动驾驶算法PETR及多目标追踪算法MOTR的核心作者,发表顶会顶刊论文30余篇,谷歌学术引用量超6000次,PETR论文入选2022年最具影响力百篇AI论文 [9][10] - **于超 (清华深圳研究院助理教授)**:研究方向为强化学习驱动的决策智能,以第一/通讯作者发表顶级会议期刊论文50余篇,谷歌学术总引用4600余次,其NeurIPS 2022论文MAPPO引用超2000次 [11][12] 核心讨论议题 - VLA的架构和模型目前存在哪些痛点 [7][16] - 让机器人“舞得更好”的全身运动控制方案还有哪些进化空间 [7][16] - VLA与强化学习如何更好地在真机上部署,包括如何挑选硬件“板子”以及轻量化实现方法 [7][16] 后续深度内容 - 直播完整版深度内容、技术细节、QA及未公开彩蛋已独家上线知识星球「具身智能之心」 [28] - 知识星球涵盖多个深度技术解析主题,包括灵巧手设计与难题、Agent概念探讨、VLA推理加速框架Spec-VLA以及CMU的跨实体世界模型等 [28]
面向真机,搞了一套VLA算法部署+量化+世界模型实战教程
具身智能之心· 2025-12-05 08:02
具身智能与视觉语言动作模型技术现状 - 视觉语言动作模型在真实硬件上运行效果不佳,许多模型难以达到预期效果 [1] - 具身智能领域高度依赖硬件本体,算法与硬件结合紧密,仿真和互联网数据在泛化性能上无法保证 [2] - 行业内的许多公司坚持采用“真机数据”路线来确保模型性能 [2] 技术发展与开源生态 - 近两年来,视觉语言动作模型算法发展迅速,从ACT、OpenVLA到π0、π0.5、π0.6等新方法不断涌现,性能持续提升 [4] - 基于强化学习的优化方案使得视觉语言动作模型运行更加流畅 [4] - 开源技术框架(如LeRobot)和多样化的开源硬件本体(如SO-100机械臂、openarm双臂、XLeRobot移动操作平台)为研究提供了支持 [4] 技术落地面临的挑战 - 打通从数据采集、模型训练优化到部署的全流程任务对初学者极为困难,许多人长期无法有效入门或取得好效果 [6] - 特定模型如π0、π0.5、GR00T在数据采集和模型训练中存在大量未公开的技巧 [6] - 模型训练前的仿真调试至关重要,在真机数据不足时,Mujoco、Isaac Gym等仿真框架及sim2real技术尤为重要 [10] - 模型训练技巧是关键,许多模型存在机械臂运动不准、夹爪操作失败或运动误差大的问题 [10] - ACT等算法相对简单易出效果,而π0、π0.5等模型训练难度大,对细节和经验要求高,强化学习优化同样充满挑战 [11] 视觉语言动作模型落地的核心模块 - **数据采集**:主要方法包括基于模仿学习的遥操作、VR、全身动作捕捉,以及强化学习,如何采集高质量数据及实现real2sim2real是重点 [7][8] - **模型训练**:涉及仿真调试与训练技巧,特别是在真机数据不足时如何微调模型,以及如何用小数据量获得好结果 [9][10] - **模型部署**:训练后的模型需进行“瘦身”处理,因参数量大(即使是2B规模),在边缘芯片部署挑战大,需采用量化、蒸馏等轻量化技术 [12][13] 行业培训与解决方案 - 针对视觉语言动作模型技术更新快、学习难度大的痛点,出现了面向实战与求职的系统性小班课程 [14] - 课程内容全面,涵盖机械臂硬件、数据采集、算法、评测、仿真、主流模型部署、视觉语言动作模型与世界模型结合、真机实验及产业讲解 [16] - 课程提供SO-100机械臂硬件(含示教臂和执行臂)以供实践 [20] - 课程讲师为机器人公司高级研究员,拥有5年以上行业实战与产学研落地经验,精通全栈技术并在顶级期刊发表论文10余篇 [23] - 目标学员包括求职者、入门进阶者、高校学生、转行人员及爱好者,要求具备Python和PyTorch基础,并建议使用3060及以上显卡进行推理,2张以上3090ti进行训练 [24] - 课程目标为使学员掌握真机调试与数据采集、各类视觉语言动作模型算法部署、模型量化技术,并对产业有清晰认识,积累相当于1-2年经验的算法工程项目 [27] - 课程计划于2025年12月30日开课,共分九章,持续至2026年2月25日 [28]