Workflow
VLA算法
icon
搜索文档
VLA工作正在呈现爆发式增长.......
具身智能之心· 2025-12-21 00:03
点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨具身智能之心 不少同学说,相当多的时间"浪费"在踩坑上了。 确实,真实数据采集上,需要借助硬件完成,比如遥操、VR、全身动补等方式。仿真和互联网数 据,在泛化性能上依然得不到保证,很多具身公司坚持"真机数据"路线。但真机数据采的数据并不好 用,该怎么办?一轮下来又需要好久。 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 昨天看到了复旦&港大团队关于移动操作上的工作wholebodyvla。结合近期分享的很多方法,vla算法 貌似正在爆发式增长,许多框架和工具(比如RL)也帮助VLA模型实现更加泛化的性能。 数据和采集设备逐渐多元化,百万级的开源数据陆续开放,评测标准逐渐统一。这一切,表示着产业 化可能很快到来。 作为核心模块,vla与将会覆盖更多场景上的应用,下游合作伙伴会越来越多,更多优秀的人才将陆 续加入进来。 但VLA貌似"很伤",不好调,数据采集也麻烦,很多同学频频吐槽。特别是对正在从事、入门vl ...
VLA工作正在呈现爆发式增长.......
具身智能之心· 2025-12-18 17:30
点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 昨天看到了复旦&港大团队关于移动操作上的工作wholebodyvla。结合近期分享的很多方法,vla算法 貌似正在爆发式增长,许多框架和工具(比如RL)也帮助VLA模型实现更加泛化的性能。 数据和采集设备逐渐多元化,百万级的开源数据陆续开放,评测标准逐渐统一。这一切,表示着产业 化可能很快到来。 作为核心模块,vla与将会覆盖更多场景上的应用,下游合作伙伴会越来越多,更多优秀的人才将陆 续加入进来。 但VLA貌似"很伤",不好调,数据采集也麻烦,很多同学频频吐槽。特别是对正在从事、入门vla 领域的同学。 虽然觉得这个方向很有意思,但无从下手,经常踩坑 只看论文而没有真机实验,在仿真里面做了好久,也不知道动起来啥样子。确实,具身和其它领域都 有所不同,太注重本体,即使是算法也极其依赖硬件。 不少同学说,相当多的时间"浪费"在踩坑上了。 确实,真实 ...
具身的半壁江山都在VLA了......
具身智能之心· 2025-12-16 17:25
更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 最近看到了很多HR的职位需求,list很长,但VLA算法是很"急需"。这一点,也体现在论文数量上。每天带着 很多小朋友看论文,也几乎都和VLA"挂钩"。 点击下方 卡片 ,关注" 具身智能 之心 "公众号 >> 点击进入→ 具身智能之心 技术交流群 本文只做学术分享,如有侵权,联系删文 一些团队开源了相关的技术框架,比如LeRobot,非常适合入门学习。近2年来,从ACT到OpenVLA,再到 π0、π0.5、π0.6,各类新的方法层出不穷,性能是越来越高。基于RL的优化方案,也让VLA模型越来越丝滑。 开源本体也多种多样,能够支持各类研究的需求。比如机械臂有SO-100、双臂操作有openarm、移动操作也有 XLeRobot等。 ★ ★ ★ 但VLA貌似"很伤",不好调,数据采集麻烦。这个事情,是很多同学持续在吐槽的。 不少同学说,相当多的时间"浪费"在踩坑上了。 只看论文而没有真机实验,在仿真里面做了好久,也不知道动起来啥样子。确实,具身和其它领域都有所不 同,太注重本体,即使是算法也极其依 ...
夹钢笔、叠杯子,VLA算法实战小班课来了~
具身智能之心· 2025-12-10 08:03
具身智能与视觉语言动作模型发展现状 - 行业普遍认为具身智能领域与其他AI领域不同,其算法高度依赖硬件本体,仿真和互联网数据在泛化性能上无法保证,因此许多公司坚持“真机数据”路线 [2] - 近两年来,从ACT到OpenVLA,再到π0、π0.5、π0.6,各类新方法层出不穷,性能持续提升,基于强化学习的优化方案也让VLA模型运行越来越流畅 [2] - 开源技术框架如LeRobot,以及多样化的开源本体如机械臂SO-100、双臂操作openarm、移动操作XLeRobot等,为研究提供了支持 [2] VLA模型落地的主要挑战与模块 - 将数据、VLA模型、训练优化、部署整套流程打通对初学者而言非常困难,许多人在数据采集和模型训练上踩坑,难以入门或取得好效果,特别是π0、π0.5、GR00T等模型涉及大量技巧 [4] - 数据采集主要基于模仿学习和强化学习,模仿学习包括遥操作、VR、全身动捕捉,机械臂+VLA领域更多采用遥操作和VR,如何保证数据质量及实现sim2real是关键问题 [6][7] - 在真机部署前通常需要仿真调试,在真机数据不足时,Mujoco、Isaac Gym等仿真框架及sim2real技术尤为重要 [9] - 模型训练技巧至关重要,许多模型存在机械臂运动准但夹爪操作不佳,或运动误差大的问题,ACT相对简单易出效果,而π0、π0.5等模型训练难度高,强化学习优化也极具挑战 [9] - 模型部署前需进行“瘦身”操作,即使参数量为2B的模型,在边缘芯片部署挑战也很大,需通过量化、蒸馏等轻量化操作在保证性能的同时最小化参数量 [11] 具身智能实战课程内容与安排 - 课程由具身智能之心平台联合业内专家开发,是国内首个面向实战与求职的VLA小班课,旨在解决技术更新快、学习门槛高的问题 [12] - 课程内容全面,涵盖机械臂硬件、数据采集、VLA算法、VLA评测、仿真、主流VLA模型部署、VLA+世界模型、各类真机实验及具身产业讲解 [14] - 购买课程的学员将获赠一套SO-100机械臂,包含示教臂和执行臂 [19] - 课程讲师为某机器人公司VLA高级研究员,拥有5年以上机器人行业实战经验,精通具身智能全栈技术,并在顶级期刊发表学术论文10余篇 [22] - 课程面向具身领域求职者、VLA入门进阶者、相关领域学生、希望转行进入具身领域的人员以及对具身智能感兴趣的其他人员 [24] - 课程对硬件有建议配置:推理建议3060及以上显卡,训练建议2张以上3090ti显卡,学员也可自租云服务器资源,并要求具备一定的Python和PyTorch基础 [24] - 学员学后预期能掌握真机调试与数据采集、各类VLA算法在真机上部署、深入了解VLA模型量化、清晰认识具身产业落地,并在简历上积累足够项目经验,达到1-2年以上算法工程师水平 [27] - 课程于2025年12月30日正式开课,共分九章,持续至2026年2月25日 [25][28]
对话多个行业大佬!VLA与RL方案在真机上的部署怎么样啦?
具身智能之心· 2025-12-06 00:02
直播活动概览 - 具身智能之心公众号将举办一场主题为“VLA与RL的真机部署 如何更好落地”的线上直播 [13] - 直播时间为12月6日19:30,可通过扫描二维码免费观看 [25] - 直播将围绕VLA算法与RL落地问题展开,探讨多个具体技术话题 [3][16] 分享嘉宾背景 - **隋伟 (地瓜机器人副总裁)**:曾任职地平线,负责机器人与自动驾驶的2.5D及3D视觉算法研发,带领30人团队开发了高阶自动驾驶BEV感知方案并搭建了先进的4D标注系统,其成果已在数百万片旭日系列芯片和多个量产车型上应用,发表论文20余篇,拥有专利40多项 [4][5] - **张强 (北京人形机器人首席研究员和学术委主任)**:研究方向包括人形机器人运动控制、多模态感知及具身智能体,曾在Fourier GR-1、PNDbotics Adam及天工机器人平台担任强化学习算法核心研发,发表数十篇顶会顶刊论文 [6][7][8] - **汪天才 (原力灵机合伙人)**:原旷视科技高级研究员,是端到端自动驾驶算法PETR及多目标追踪算法MOTR的核心作者,发表顶会顶刊论文30余篇,谷歌学术引用量超6000次,PETR论文入选2022年最具影响力百篇AI论文 [9][10] - **于超 (清华深圳研究院助理教授)**:研究方向为强化学习驱动的决策智能,以第一/通讯作者发表顶级会议期刊论文50余篇,谷歌学术总引用4600余次,其NeurIPS 2022论文MAPPO引用超2000次 [11][12] 核心讨论议题 - VLA的架构和模型目前存在哪些痛点 [7][16] - 让机器人“舞得更好”的全身运动控制方案还有哪些进化空间 [7][16] - VLA与强化学习如何更好地在真机上部署,包括如何挑选硬件“板子”以及轻量化实现方法 [7][16] 后续深度内容 - 直播完整版深度内容、技术细节、QA及未公开彩蛋已独家上线知识星球「具身智能之心」 [28] - 知识星球涵盖多个深度技术解析主题,包括灵巧手设计与难题、Agent概念探讨、VLA推理加速框架Spec-VLA以及CMU的跨实体世界模型等 [28]
面向真机,搞了一套VLA算法部署+量化+世界模型实战教程
具身智能之心· 2025-12-05 08:02
具身智能与视觉语言动作模型技术现状 - 视觉语言动作模型在真实硬件上运行效果不佳,许多模型难以达到预期效果 [1] - 具身智能领域高度依赖硬件本体,算法与硬件结合紧密,仿真和互联网数据在泛化性能上无法保证 [2] - 行业内的许多公司坚持采用“真机数据”路线来确保模型性能 [2] 技术发展与开源生态 - 近两年来,视觉语言动作模型算法发展迅速,从ACT、OpenVLA到π0、π0.5、π0.6等新方法不断涌现,性能持续提升 [4] - 基于强化学习的优化方案使得视觉语言动作模型运行更加流畅 [4] - 开源技术框架(如LeRobot)和多样化的开源硬件本体(如SO-100机械臂、openarm双臂、XLeRobot移动操作平台)为研究提供了支持 [4] 技术落地面临的挑战 - 打通从数据采集、模型训练优化到部署的全流程任务对初学者极为困难,许多人长期无法有效入门或取得好效果 [6] - 特定模型如π0、π0.5、GR00T在数据采集和模型训练中存在大量未公开的技巧 [6] - 模型训练前的仿真调试至关重要,在真机数据不足时,Mujoco、Isaac Gym等仿真框架及sim2real技术尤为重要 [10] - 模型训练技巧是关键,许多模型存在机械臂运动不准、夹爪操作失败或运动误差大的问题 [10] - ACT等算法相对简单易出效果,而π0、π0.5等模型训练难度大,对细节和经验要求高,强化学习优化同样充满挑战 [11] 视觉语言动作模型落地的核心模块 - **数据采集**:主要方法包括基于模仿学习的遥操作、VR、全身动作捕捉,以及强化学习,如何采集高质量数据及实现real2sim2real是重点 [7][8] - **模型训练**:涉及仿真调试与训练技巧,特别是在真机数据不足时如何微调模型,以及如何用小数据量获得好结果 [9][10] - **模型部署**:训练后的模型需进行“瘦身”处理,因参数量大(即使是2B规模),在边缘芯片部署挑战大,需采用量化、蒸馏等轻量化技术 [12][13] 行业培训与解决方案 - 针对视觉语言动作模型技术更新快、学习难度大的痛点,出现了面向实战与求职的系统性小班课程 [14] - 课程内容全面,涵盖机械臂硬件、数据采集、算法、评测、仿真、主流模型部署、视觉语言动作模型与世界模型结合、真机实验及产业讲解 [16] - 课程提供SO-100机械臂硬件(含示教臂和执行臂)以供实践 [20] - 课程讲师为机器人公司高级研究员,拥有5年以上行业实战与产学研落地经验,精通全栈技术并在顶级期刊发表论文10余篇 [23] - 目标学员包括求职者、入门进阶者、高校学生、转行人员及爱好者,要求具备Python和PyTorch基础,并建议使用3060及以上显卡进行推理,2张以上3090ti进行训练 [24] - 课程目标为使学员掌握真机调试与数据采集、各类视觉语言动作模型算法部署、模型量化技术,并对产业有清晰认识,积累相当于1-2年经验的算法工程项目 [27] - 课程计划于2025年12月30日开课,共分九章,持续至2026年2月25日 [28]
VLA+RL方案的部署落地如何啦?
具身智能之心· 2025-12-01 11:12
直播活动概览 - 具身智能之心公众号举办线上直播活动,主题为“VLA与RL的真机部署 如何更好落地” [5] - 直播时间为12月6日19:30,可通过扫描二维码免费观看 [16] - 活动将围绕VLA算法与RL落地问题展开讨论 [3] 核心讨论议题 - VLA的架构和模型现存痛点分析 [8] - 提升机器人全身运动控制方案性能的进化空间探讨 [8] - VLA+RL技术如何更有效地部署到真实机器人硬件,包括硬件选型和轻量化实现方案 [8] 分享嘉宾阵容 - 隋伟:地瓜机器人算法副总裁 [9] - 张强:北京人形机器人首席研究员、学术委员会主任 [11] - 汪天才:原力灵机合伙人 [11] - 于超:清华大学博士,即将加入清华深研院任助理教授,担任主持人 [13] - Gloria:具身智能之心联创 [15] - 刘斯坦:知乎大V,全网拥有13万关注者的专业自媒体,深度流光CTO [15] 后续内容获取 - 直播完整版深度内容已独家上线知识星球「具身智能之心」,涵盖所有技术细节、QA及未公开彩蛋 [19] - 知识星球内容包含灵巧手设计与难题分析、Agent概念探讨、Spec-VLA推理加速框架、CMU跨实体世界模型等深度解析 [19]
VLA+RL方案:具身的“关键突破”,如何更好地部署落地?
具身智能之心· 2025-11-29 10:07
直播活动概览 - 活动主题为VLA与RL的真机部署及如何更好落地 [5] - 直播时间定于12月6日19:30 [16] - 活动形式为线上直播 [5] 分享嘉宾阵容 - 隋伟担任地瓜机器人算法副总裁 [9] - 张强为北京人形机器人首席研究员及学术委员会主任 [11] - 汪天才担任原力灵机合伙人 [11] - 于超为清华大学博士并将加入清华深研院任助理教授 [13] - 主持人包括Gloria(具身智能之心联创)和刘斯坦(知乎大V、深度流光CTO) [15] 核心讨论议题 - VLA的架构和模型现存痛点分析 [8] - 提升机器人全身运动控制方案的进化空间探讨 [8] - VLA+RL上真机的实践方法、硬件选型及轻量化解决方案 [8] 过往活动与深度内容 - 具身智能之心已举办多场高质量圆桌讨论涉及本体、数据、仿真等方向 [3] - 知识星球提供完整版深度内容涵盖技术细节、QA及未公开彩蛋 [19] - 深度解析主题包括灵巧手设计、Agent技术、Spec-VLA推理加速框架及跨实体世界模型等 [19]
下周六具身一场深度直播:VLA与RL的落地之问!
自动驾驶之心· 2025-11-28 08:49
直播核心主题 - 探讨视觉语言动作模型算法与强化学习落地问题 [2][3][6] 讨论议题 - 视觉语言动作模型架构和模型存在的痛点 [6] - 提升机器人全身运动控制性能的方案进化空间 [6][15] - 视觉语言动作模型结合强化学习实际上机的策略、硬件选择及轻量化方法 [6][15] 参与嘉宾 - 隋伟 地瓜机器人算法副总裁 [9] - 张妮 北京人形机器人首席研究员、学术委员会主任 [11] - 汪天才 原力灵机合伙人 [13] - 于超 清华大学博士 即将加入清华深研院任助理教授 担任主持 [15]
VLA+RL方案:具身的“关键突破”,如何更好地部署落地?
具身智能之心· 2025-11-27 12:00
直播活动概览 - 活动主题为VLA与RL的真机部署及如何更好落地 [5] - 直播时间为12月6日19:30 [17] - 活动形式为线上直播,可通过扫描二维码免费观看 [17] 核心讨论议题 - 探讨VLA的架构和模型现存痛点 [8] - 分析让机器人"舞得更好"的全身运控方案进化空间 [8] - 讨论VLA+RL如何更好上真机、如何挑选"板子"及轻量化实现方案 [8] 分享嘉宾阵容 - 隋伟担任地瓜机器人算法副总裁 [9] - 张强为北京人形机器人首席研究员、学术委员会主任 [11] - 汪天才担任原力灵机合伙人 [11] - 于超为清华大学博士,即将加入清华深研院任助理教授 [13] - 主持人包括Gloria(具身智能之心联创)和刘斯坦(知乎大V、全网13万关注者、《PyTorch自动驾驶视觉感知算法实战》作者、深度流光CTO) [15] 深度内容获取渠道 - 完整版深度内容已独家上线知识星球「具身智能之心」 [20] - 知识星球内容涵盖所有技术细节、QA及未公开彩蛋 [20] - 深度解析主题包括灵巧手的设计与难题、Agent在思想学术与工程领域的真义、Spec-VLA推测解码框架、CMU跨实体世界模型等 [20]