Workflow
TrajBooster
icon
搜索文档
从机械臂到人形,跨构型VLA如何破局?
具身智能之心· 2025-10-09 08:04
VLA-Adapter技术突破 - 机械臂视觉语言到动作范式的深刻反思,直击VLA伪规模化问题,核心目标是直接从视觉语言模型特征映射到动作空间,减少对机器人预训练数据的依赖[3] - 研究发现参数增加和机器人数据引入并未提升模型性能,关键在于忽略了视觉语言如何迁移到动作的机制探究[3] - 提出全新映射方案,在0.5B参数级别下性能超越经过大量数据预训练的更大量级骨干模型,显著降低训练成本和入门门槛[3] TrajBooster技术创新 - 首个全身人形操作VLA方案,解决双足人形全身操作任务训练数据稀缺难题,跨本体构型高效利用数据[7] - 以轨迹为中心实现跨本体数据高效利用,仅需10分钟真机遥操数据微调即可实现VLA在双足人形机器人上的全身操作[7] - 是目前业内唯一全开源的涵盖人形数据采集、跨本体数据增强、VLA模型训练及硬件部署全流程的工作[13] 研究团队与项目影响力 - 研究团队OpenHelix Team累计Github star近2k,VLA-Adapter项目两周收获700+star,HuggingFace Trend唯一在榜机器人工作[13] - 团队长期致力于推动具身智能和VLA模型前沿研究,特别是在VLA基座构建,使其更好与物理世界交互[13] - TrajBooster项目基于原OpenWBC项目,是业内唯一全开源的全流程人形机器人VLA解决方案[13]
跨形态学习来了!轮式机器人的“经验”如何轻松传给双足机器人?
机器人大讲堂· 2025-09-23 21:24
文章核心观点 - 提出TrajBooster创新框架 利用轮式机器人操作数据通过轨迹重定向技术提升双足人形机器人动作学习效率 [1] - 该方法仅需10分钟目标机器人真实数据即可实现复杂全身操控任务 显著增强机器人动作空间理解和零样本任务迁移能力 [1] - 代表解决机器人数据稀缺问题新思路 通过跨形态共享与模拟增强最大化现有数据集价值 [19] TrajBooster核心思想 - 以6D末端执行器轨迹作为与机器人形态无关的通用接口 实现跨形态教学 [2] - 整体流程为真实→模拟→真实闭环 从轮式机器人数据提取轨迹 在仿真中教双足机器人追踪 最后用真实数据微调 [2][4] - 将轮式机器人任务知识通过轨迹中介传递给双足机器人 双足机器人只需学习用自身身体执行轨迹 [4] 精准全身重定向实现 - 采用分层控制模型 上层逆运动学模块负责手臂 直接根据目标手腕位姿计算臂部关节角度 [5] - 下层分层RL策略负责腿部和平衡 包含管理者策略决策身体移动和执行者策略转化具体关节动作 [8] - 设计协调在线DAgger算法 在平衡探索与记忆同时通过梯度下降优化策略 实现更精准轨迹跟踪性能 [8] 从模拟到现实训练 - 后预训练阶段将重定向动作数据与源语言视觉组合 用合成数据对预训练VLA模型进行继续预训练 [9] - 让模型初步理解目标机器人动作空间 学习语言指令和视觉观察对应双足机器人全身动作模式 [10] - 后训练阶段仅收集10分钟目标机器人真实数据对模型微调 弥合模拟到真实差距 [11] 实验结果 - 在抓取米老鼠、整理玩具等任务中 经过后预训练加3千步后训练的模型性能显著优于直接使用1万步真实数据训练的模型 [12] - 经过后预训练的模型能够零样本完成传递水杯任务 成功将轮式数据中技能迁移到双足机器人 [15] - 当目标物体放置于训练未见位置时 经过后预训练的模型成功率80% 远高于未经过后预训练模型的0% [16]
TrajBooster:首个全身人行操作VLA方案,跨构型解决数据难题(代码全开源)
具身智能之心· 2025-09-18 08:03
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Jiacheng Liu等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 研究背景与问题 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 想象一下:双足人形机器人在客厅里灵活深蹲取物,在厨房中跨高度整理餐具,全程无需大量人工演示数据——这一看似遥远的场景,正被 TrajBooster 框架推 向现实。 近年来,视觉 - 语言 - 动作(VLA)模型让机器人自主执行家庭任务成为可能,轮式人形机器人已能完成深蹲、跨高抓取等复杂动作,AgibotWorld Beta 数据集 显示其末端执行器轨迹覆盖 0.2-1.2 米范围,足以应对日常家庭场景。但双足人形机器人的研发却陷入瓶颈:它需要在保持下半身动态平衡的同时,用上身完成 操控,实现大范围全身动作难度极高。更关键的是,训练这类机器人需要大规模高质量演示数据,而传统遥操作流程依赖昂贵设备和专家操作,生成的数据集规 模小、场景单一,导致 VLA 模型难以适配新机器人的动作空间。 为解决这一痛 ...