具身智能之心
搜索文档
从视频生成到机器人操控:VideoVLA 开启通用机器人新范式
具身智能之心· 2025-12-11 12:02
文章核心观点 - 由西安交通大学、微软亚洲研究院等机构联合提出的VideoVLA框架,创新性地将大规模视频生成模型转化为端到端的视觉-语言-动作系统,通过“动作预测+视觉想象”的双目标策略,首次实现了机器人在未知场景下的稳健泛化,为通用机器人操控提供了全新技术路径 [2][3][26] 传统VLA模型的局限性 - **泛化能力受限**:传统VLA模型依赖预训练视觉语言理解模型,对未知物体、未学习技能的适配能力差,难以应对真实世界的多样性 [5] - **缺乏物理推理能力**:现有模型多专注于动作映射,缺乏对动作物理后果(如抓取受力、放置稳定性)的建模 [6] - **规划能力不足**:复杂任务需预判动作序列的视觉反馈,传统模型缺乏“视觉想象-动作规划”的联动机制 [7][9] VideoVLA技术方案 - **核心思路**:利用视频生成模型从海量真实世界视频中学到的物理合理性与场景动态规律,改造视频扩散Transformer,新增动作输出模态,实现“语言指令+当前视觉→动作序列+未来视觉”的端到端预测 [12] - **三层技术架构**: - 输入编码层:语言指令用T5编码器转为226维令牌序列;视觉输入用CogVideoX的3D因果VAE编码器转为latent表征 [14] - 核心建模层:采用Diffusion Transformer统一建模视频、语言、动作三模态;动作用7维向量表征(3维旋转+3维平移+1维夹爪状态) [14] - 输出层:协同预测K步动作序列和N帧未来视觉latent,通过VAE解码器可还原为视频 [14] - **训练与推理**: - 预训练基于Open X-Embodiment数据集(含超过100万机器人轨迹、22种机器人形态),迭代10万次 [14] - 真实世界微调使用Realman 7自由度机械臂数据集,迭代1.5万次 [14] - 推理采用DDIM采样(50步去噪),仿真场景预测49帧未来视觉,真实场景预测13帧 [14] 性能验证:域内任务 - **WidowX机器人**:在4项任务(如放置、堆叠)上平均成功率达到53.1%,远超基线模型RT-1-X(1.1%)和Octo-Base(17.0%) [15] - **Google机器人**:在VA协议下平均成功率达到62.8%,优于CogACT(61.4%)和π₀(43.4%)等先进模型 [15] - **Realman机器人**:在真实世界“放置”任务中平均成功率达到56.3%,显著高于OpenVLA(14.6%)和SpatialVLA(10.4%) [15] 性能验证:泛化能力 - **未知物体操控**:在YCB和GSO数据集的10种未训练物体上,平均成功率达到65.2%,在8种物体上排名第一,远超OpenVLA(6.4%)和SpatialVLA(50.8%) [16] - **跨机器人技能迁移**:将WidowX机器人的8种未训练技能迁移到Google机器人,平均成功率达到48.6%,比第二名CogACT(20.4%)高出28.2个百分点 [18] 关键发现与消融实验 - **视觉想象与执行强相关**:未知物体场景中,视觉想象成功率84.0%,实际执行成功率65.2%;新技能场景中,视觉想象成功率63.4%,实际执行成功率48.6% [19][23] - **运动轨迹相似度分析**:当视觉想象与实际执行的keypoint轨迹相似度高于0.6时,任务成功率超过80% [21] - **预训练骨干网络价值**:使用CogVideoX-5B预训练模型性能达80.4%,比从零训练(12.6%)提升6倍 [22][25] - **预测帧数影响**:预测49帧(80.4%)优于25帧(77.4%)和13帧(75.2%),更长时间视野提升规划准确性 [24][25] - **双预测策略核心作用**:仅预测动作时平均性能降至25.5%,无视频损失时降至27.0%,验证双目标协同的必要性 [25] 当前局限与未来方向 - **当前局限**: - 推理速度:单H100 GPU推理约1.1秒/步,控制频率3Hz,难以满足高速操控 [28] - 长序列任务:复杂多步骤任务的规划能力仍需提升 [28] - 小物体处理:微小物体在遮挡场景下的抓取成功率较低 [28] - **未来方向**: - 模型轻量化,优化视频生成骨干网络以降低计算开销 [28] - 采用单步去噪等技术减少扩散步骤,提升推理速度 [28] - 引入触觉、力反馈等多模态传感器信息,增强物理交互精度 [28]
告别专家依赖,让机器人学会自我参考,仅需200步性能飙升至99.2%
具身智能之心· 2025-12-11 10:01
文章核心观点 - 复旦大学、同济大学与上海创智学院的联合研究团队提出了一种名为“自参考策略优化(SRPO)”的新框架,旨在解决视觉语言动作(VLA)模型在机器人操作任务中面临的奖励稀疏和依赖专家数据等瓶颈问题 [3] - SRPO框架通过构建内生的自参照评估机制,利用模型自身生成的成功轨迹作为参照来评估和引导失败尝试,从而实现了无需外部专家数据注入、免除任务特定奖励工程的自适应策略优化 [3][9] - 该方法在多个基准测试中取得了突破性成果,包括在LIBERO榜单上以99.2%的成功率刷新SOTA,在LIBERO-Plus的泛化任务上性能提升167%,并能显著提升开源模型在真实机器人上的表现 [3][12] 动机与贡献 - 当前VLA模型性能严重依赖成本高昂的专家示范数据,且存在“示范偏差”,而强化学习又常因“奖励稀疏”问题导致训练效率低下 [3][6] - 基于组优化的方法(如GRPO)是VLA-RL的重要技术路径,但仍面临多轮轨迹推理计算成本高、对失败轨迹信息利用低效的挑战 [6] - 研究团队提出自我参考学习范式,将监督问题的核心从“如何获取专家标签”转变为“如何从自身成功经验中提取渐进式奖励” [9] - 核心贡献包括:1)提出SRPO框架,缓解奖励稀疏性问题并消除对专家示范的依赖 [10];2)提出基于潜在世界表征的渐进式奖励方法,克服传统像素级世界模型的泛化局限 [11];3)实验验证了该方法在基准测试中的SOTA性能、强大泛化能力及真机可迁移性 [12] 技术方案 - SRPO采用“向成功者学习”的方式,核心环节包括:同策略轨迹收集、世界表征提取与聚类、渐进式奖励计算及策略更新 [14][17] - 框架将机器人决策过程形式化为部分可观察马尔可夫决策过程(POMDP),并引入世界模型驱动的任务无关奖励建模机制,为失败轨迹提供渐进式奖励信号 [18][19] - 奖励建模方法分为三步:1)将轨迹观察序列编码为世界模型潜空间表征 [20];2)对成功轨迹的潜在表征进行聚类,获得代表性中心以捕捉关键行为模式 [21];3)计算失败轨迹表征到最近成功中心的距离,并通过批次归一化将其转化为0到1之间的渐进式奖励 [22][23] - 策略优化使用PPO风格的裁剪目标函数,并添加KL散度正则项以保持策略稳定性,利用世界进展奖励替代传统任务特定奖励来计算优势估计 [24][26] 实验结果 - 在LIBERO基准测试中,仅使用第三视角图像和语言指令的SRPO模型取得了99.2%的平均成功率,超越了众多依赖腕部视角、本体感知、3D输入等更复杂输入的模型 [29][30] - 具体而言,仅用200步强化学习,模型成功率从初始的48.9%飙升至99.2% [29] - 在更具挑战性的LIBERO-Plus泛化测试中,SRPO带来的性能提升高达167%,即便未使用任何泛化场景数据进行训练,其性能也超越了经过15万步监督学习的基线模型 [31][32] - 在训练效率方面,对于LIBERO长时序任务,初始模型One-shot SFT成功率仅17.3%,SRPO仅用219步即提升至98.6%,相比同期GRPO性能提升15.3%,相较15万步的full-shot SFT模型性能提升12.9% [36] - 在真实机器人测试中,将SRPO的奖励建模应用于开源模型,在五个真机任务上,模型成功率相对SFT基线分别提升了66.8%和86.7% [39] - 此外,SRPO训练后的模型能够自主探索出专家轨迹中不存在的新路径与抓取姿态,展现了超越示范的创造性 [42] 潜在价值与行业意义 - 研究发现,SRPO可以作为Physical Intelligence公司提出的RECAP方法的零成本替代方案,后者需要针对每个任务收集数据并微调价值模型,而SRPO无需任何任务微调即可实现相似的价值曲线趋势 [45][46][54] - 该方法标志着机器人学习从依赖外部专家数据的“模仿”阶段,向利用自身成功经验和物理世界常识进行“创造”和“自主”学习的范式转变 [56] - SRPO为VLA强化学习开辟了一条无需昂贵数据标注、复杂奖励设计或密集专家示范的新路径,有望降低机器人智能化的开发门槛和成本 [56]
深大团队让机器人精准导航!成功率可达72.5%,推理效率+40%
具身智能之心· 2025-12-11 10:01
文章核心观点 - 深圳大学李坚强教授团队联合北京理工莫斯科大学等机构提出了一种名为UNeMo的新型视觉-语言导航框架,该框架通过构建“多模态世界模型”与“分层预测反馈导航器”的双向协同架构,解决了现有方法中推理与决策脱节、资源消耗高的关键瓶颈,在导航成功率、效率和长轨迹鲁棒性方面均实现了显著提升,为服务机器人等实际场景落地提供了高效方案 [1][3][4][10][33] 技术架构与核心突破 - **核心架构**:UNeMo框架的核心是“多模态世界模型”与“分层预测反馈导航器”的双向协同架构,将视觉状态推理与导航决策深度绑定 [10] - **多模态世界模型**:基于条件变分自编码器构建,能够接收当前视觉特征、语言指令与候选导航动作,通过跨注意力机制融合多模态信息,预测未来视觉状态,无需额外标注数据即可通过导航结果反馈持续优化 [11][12][13] - **分层预测反馈导航器**:采用两阶段分层机制,首先生成粗粒度候选动作锁定方向,再融合预测的未来视觉状态优化出细粒度动作以修正偏差,提升复杂场景下的导航稳健性 [16] - **动态闭环优化**:框架构建了“推理-决策”相互赋能的闭环,世界模型的视觉预判提升决策精准度,导航执行结果实时反馈优化模型预测准确性,实现持续迭代 [18][19][20] 性能表现与效率优势 - **资源消耗大幅降低**:UNeMo采用FlanT5-1.5B模型,参数规模仅为对比方法NavGPT2所用FlanT5-5B模型的30%,训练时GPU显存占用从27GB降至12GB,减少56%,推理速度从每步1.1秒提升至0.7秒,效率提升40% [23][24] - **核心性能指标领先**:在R2R数据集未见过的测试环境中,UNeMo的导航成功率达到72.5%,较NavGPT2的71%提升1.5个百分点,路径效率从60%提升至61.3% [25][26] - **长轨迹导航优势突出**:在长路径导航任务中表现尤为突出,对于路径长度≥7的长轨迹,导航成功率大幅提升5.6%,提升幅度是短路径的4.7倍,有效缓解了长距离导航中的累积误差 [27][28][29] 通用性与可拓展性验证 - **跨基线验证**:团队将UNeMo架构迁移至DUET等不同类型的导航基线进行验证,证明了其协同训练架构并非局限于LLM-based基线,能灵活适配不同类型的导航系统 [30][32] - **跨数据集验证**:在目标导向导航数据集REVERIE上的实验显示,UNeMo在未见过的场景中的导航成功率与远程目标定位成功率指标上均有提升,验证了其强可拓展性 [31][32]
全部超越了π0、π0.5!端到端全身VLA模型Lumo-1:迈进推理-行动闭环时代
具身智能之心· 2025-12-11 10:01
文章核心观点 - 星尘智能公司推出的端到端全身视觉-语言-动作模型Lumo-1,通过创新的三阶段训练架构,显著提升了机器人在复杂物理环境中的推理与操作能力,使其能够处理多步骤长时序任务、理解抽象模糊指令并泛化至未见过的场景,在多项基准测试和真实任务中超越了当前主流先进模型[7][9][11] 技术方案:Lumo-1模型架构与训练 - 模型采用三阶段训练架构:第一阶段为具身化视觉语言模型预训练,在7个经典具身推理基准中大部分超过RoboBrain-7B、Robix-7B等专用模型[15];第二阶段为跨本体联合训练,融合多机器人、多视角轨迹与VLM数据,强化指令跟随与空间推理能力[16];第三阶段为基于绳驱机器人Astribot S1高质量真机轨迹的推理-动作训练,学习真实世界的可执行动作模式[16] - 训练最后加入强化学习推理-行动对齐,通过多维度的奖励信号校准高级推理与低级动作之间的误差,使模型在任务成功率、动作合理性与泛化能力上显著超越仅模仿专家示范的原始表现[18][27] - 训练策略验证了数据多样性(场景、物体、指令的覆盖面)对泛化能力的影响远超数据重复次数,为行业指明了注重数据质量的方向[28] 核心技术创新 - 引入动作空间建模,将连续动作轨迹压缩并聚类成紧凑的“动作单词”token,能像组合句子一样复用和组合动作,比FAST与分桶方法更紧凑稳定,减少了数据收集引入的无关噪音[19] - 采用结构化推理,将推理拆解为文字推理与视觉推理两个维度,形成解释动作的结构化推理链,使“为什么这样做”先于“怎么做”,并将2D视觉理解映射为3D控制路径点[22][23] - 模型展现出强大的抽象概念推理与实时决策能力,例如理解“代表爱情的花”指代玫瑰,或当左臂遇障时实时推理并切换为右臂执行任务[23][25] 性能表现与成果 - 在多步骤长时序、精细灵巧操作、可泛化抓取放置三大类核心机器人操作任务中,Lumo-1全部超越了π0、π0.5等先进模型[9][11] - 在未见过的物体、场景和指令等分布外情况,以及抽象、模糊、需扩展推理的指令中,模型优势更为明显[9][11] - 在7个多模态基准测试中的6个优于骨干模型Qwen2.5-VL-7B,并超越了专门的具身模型RoboBrain-7B和Robix-7B,且融入动作学习后未损害核心多模态感知与推理能力[29] - 在真实环境部署中,机器人S1展现出强大的泛化能力,如面对不同高度容器自动调整手臂姿态,或准确识别从印刷体换成手写体的菜单并进行食材配对[29] 行业意义与影响 - 该研究标志着机器人从依赖“轨迹记忆”和“动作库”模仿,向具备“理解烹饪原理”般的多层次推理能力演进,使机器人能理解任务意图、拆解子任务并规划运动路径[6][10] - 技术方案解决了当前主流视觉-语言-动作模型在开放环境中的三大缺陷:抽象概念失效、环境泛化困难以及长时序任务易崩溃[6] - 通过将大模型“心智”与高质量真机训练结合,实现了“心手合一”,让推理能直接转化为丝滑的全身操作,推动了具身智能向更通用、更智能的方向发展[7]
某机器人具身团队VLA算法专家/RL专家招募!薪资open~
具身智能之心· 2025-12-10 18:00
公司概况与市场地位 - 公司成立于2016年,专注于家用机器人领域,连续三年入选中国科技机器人企业50强,连续五年登上胡润全球独角兽企业榜 [2] - 国内市场已覆盖全国超20个省份、70个城市,授权零售网点超500个 [2] - 全球化进程加速,产品已进入全球50多个国家和地区,包括北美、欧洲、日韩、澳大利亚、东南亚等市场 [2] - 在欧洲已合作进入超5000家线下门店,在北美已进入Best Buy、Costco等大型KA近300家线下门店 [2] - 全球用户突破400万 [2] - 2025年第二季度,公司扫地机器人全球出货量达52.42万台,以8.5%的市场份额首次位居全球第五 [2] 业务发展与技术布局 - 公司正在积极招募具身智能算法与机械臂规划算法专家,表明其正致力于研发面向真实环境的复杂物理任务解决方案 [2][4] - 技术研发聚焦于双臂机器人完成复杂物理任务的多模态决策模型,特别是视觉-语言-动作基础大模型的落地 [5] - 研发工作涵盖从数据采集、算法设计、模型训练到工程部署的端到端系统级解决方案 [5] - 持续探索多模态大模型在具身智能领域的创新应用,并推动前沿技术从实验室到实际场景的转化 [5] - 机械臂规划算法开发面向规模化量产需求,旨在打造高可靠、高适配的解决方案 [7] - 规划算法开发重点覆盖机械臂操作规划、动态避障规划、QP规划、轨迹平滑及奇异规避等关键技术 [8] - 通过仿真环境进行算法验证,并解决从仿真到真实机械臂部署中的迁移问题 [8] - 注重感知-规划全技术栈协同,融合多模态感知数据优化规划精度,并确保算法从研发到量产的顺利落地 [12] 人才与研发要求 - 寻求具身VLA/多模态大模型算法专家,要求硕士及以上学历,具备机器人学习、深度学习、模仿学习等核心算法基础 [7] - 候选人需精通Python,熟悉PyTorch/TensorFlow等框架,并有多模态大模型在机器人感知、操作、导航等方向的研发落地经验 [7] - 具备在机器人、机器学习、计算机视觉等相关顶级会议期刊发表论文或开源项目贡献为加分项 [7] - 寻求机械臂规划算法专家,要求控制相关方向硕士及以上学历,社招需3年以上相关经验,校招需博士学历 [13] - 候选人需熟悉机器人技术栈,精通机械臂运动学与正逆解,具备MoveIt、Pinocchio等工具使用经验 [13] - 要求熟练使用C++/Python,具备ROS/ROS2开发经验,并有Isaac Sim、MuJoCo等仿真工具使用经验 [13] - 社招需具备量产功能交付经验,校招需有算法创新与复现能力 [13]
担心买得起机械臂,不会用?小白+科研友好型的臂来啦~
具身智能之心· 2025-12-10 18:00
产品定位与目标客群 - 产品是一款面向具身智能科研领域的轻量级高性价比机械臂,旨在解决该领域硬件选择中“太贵买不起,太便宜难用难上手”的痛点 [5] - 产品专为新手和科研初学者设计,目标客群包括学生、教育工作者以及刚踏入机器人领域的开发者,旨在帮助他们低成本、高效率地完成算法验证与项目开发 [5][6] 核心价值主张与工作流优化 - 传统具身科研实战中,约70%的时间耗费在调试硬件通信、校准传感器以及在仿真与真机间手动移植代码,算法迭代一次需数天才能看到真实效果 [1] - 该产品通过提供全流程工具链,将工作流优化为:在Gazebo中快速仿真验证算法逻辑,一键将程序部署至真机进行调优,从而实现从“灵感”到“物理动作”的高效多次迭代 [2] - 产品重新定义了“轻量级”,不仅指物理结构轻巧(本体重量4.2KG),更指研发负担的“轻盈” [3][11] 产品关键性能参数 - **机械臂本体**:重量4.2KG,额定负载3KG,6个自由度,工作半径612.5mm,重复定位精度±0.1mm [11][22] - **运动性能**:关节运动最大速度在180°/s至220°/s之间,关节运动范围覆盖各轴特定角度区间 [11][24] - **电气与接口**:供电电压24V,通讯方式为CAN,外部接口为电源+CAN XT30 2+2,控制方式支持轨迹跟踪、示教和API [11][22] - **安装与材质**:底座安装尺寸为90mm*90mm*M5*4,主要材质为铝合金和树脂 [11][22] 核心产品优势与功能 - **全流程开源工具链**:提供从数据采集、模型训练到推理部署的全流程工具链和代码示例(目前开放ACT算法示例),支持视觉、力控等多模态数据融合,兼容TensorFlow、PyTorch等主流框架 [7][20][39] - **仿真与真机无缝联调**:提供URDF模型,支持Gazebo等主流仿真环境与真机实时联动,可一键将仿真验证后的程序部署至物理设备 [7][20][25] - **多语言与开发框架支持**:提供Python和C++双语言开发接口,同时兼容ROS1和ROS2开发框架 [7][21][22] - **完善的SDK与生态**:提供完整的开源软件开发工具包(SDK),包含驱动程序、API接口、示例代码与文档 [32][33] - **持续升级与售后支持**:承诺后期将陆续升级更新VLA、VA相关源码,新老客户均可享受升级,并提供24小时快速响应的售后和生态服务 [7][22] 适配与兼容性信息 - **计算配置**:机械臂的SDK和MoveIt等对电脑配置要求不高,但其适配的ALOHA ACT算法在NVIDIA 4060显卡上即可完成训练和推理 [53] - **视觉传感器**:目前已适配的相机包括Intel RealSense D435系列和奥比中光DCW2 [53] - **开源模型**:用户可自行微调所有开源模型,产品目前已开源适配LeRobot和ACT,并计划逐步适配并开源RobotWin、Pi0等模型 [53]
端到端全身VLA模型Lumo-1:让机器人心手合一,迈进推理-行动闭环时代
具身智能之心· 2025-12-10 18:00
文章核心观点 - AI机器人公司星尘智能推出的端到端全身视觉-语言-动作模型Lumo-1,通过创新的三阶段训练架构,显著提升了机器人在复杂物理世界中的推理与操作能力,使其在多步骤长时序任务、精细灵巧操作和泛化抓取放置等核心任务上超越了π0、π0.5等先进模型,尤其在处理未见过的物体、场景和抽象指令时优势明显 [7][9][11] 技术方案与模型架构 - Lumo-1是一个端到端全身VLA模型,旨在实现机器人的“心手合一”,其训练结合了具身化VLM、跨本体联合训练、推理-动作真机训练以及强化学习校准对齐等方法 [7] - 模型采用三阶段训练架构:第一阶段为具身化VLM,在7个经典具身推理基准中大部分超过RoboBrain-7B、Robix-7B等专用模型 [15];第二阶段为跨本体联合训练,强化指令跟随与空间推理能力 [16];第三阶段为利用绳驱机器人Astribot S1的示教轨迹进行真机推理-动作训练 [16] - 最后通过强化学习推理-行动对齐,设计多维度的奖励信号来校准高级推理与低级动作之间的误差,从而在任务成功率、动作合理性与泛化能力上显著超越模仿专家示范的原始表现 [18][27] 核心技术创新 - **动作空间建模**:通过空间动作分词器将连续动作轨迹转化为可复用、组合的“动作单词库”,比FAST与分桶方法更紧凑和稳定,减少了数据收集引入的无关噪音 [19] - **结构化推理**:将推理拆解为文字推理与视觉推理两个维度,形成解释动作的结构化推理链,使机器人从“执行动作”转变为“执行想法” [22][23] - 结构化推理能力使机器人能理解抽象语义与文化隐喻,例如将玫瑰识别为“代表爱情的花”,或将“KFC里的东西”推理为炸鸡和汉堡 [23] - 该设计支持灵活的实时决策,例如在“把可乐放到盘子上”任务中,当左臂路径遇障时,机器人能自主推理并切换为使用右臂 [25] 性能表现与验证 - 在**多步骤长时序**、**精细灵巧操作**、**可泛化抓取放置**三大类核心机器人操作任务中,Lumo-1全部超越了π0、π0.5等先进模型 [9][11] - 在未见过的物体、场景和指令等分布外情况,以及抽象、模糊、需扩展推理的指令中,Lumo-1的优势更为明显 [9][11] - 在7个多模态基准测试中,有6个优于其骨干模型Qwen2.5-VL-7B,并超越了专门的具身模型RoboBrain-7B和Robix-7B [29] - 通过数据受限扩展定律验证,发现在固定模型规模下,数据多样性对泛化能力的影响远超数据重复次数,为行业指明了注重数据质量的方向 [28] - 在真实环境验证中,S1机器人展现出强大的泛化能力,如面对不同高度容器自动调整手臂姿态,以及识别从印刷体换成手写体的菜单并精准配对食材 [29] 机器人任务能力展示 - 机器人能够完成“热面包”等复杂长时序任务,通过推理识别物体、理解“加热”需用微波炉,并自主完成开门、放入、旋钮、取出等一系列操作 [4] - 能够执行“整理文具”任务,在混乱桌面中快速找齐并精细处理不同形状、材质和尺寸的物品 [4] - 能够处理需要抽象推理的任务,例如“把可以画海洋的文具放到绿盘子里”,并准确找到蓝色的画笔 [23] - 机器人具备四类推理能力:抽象概念推理、子任务推理、视觉观测描述以及运动推理 [30]
突破空间泛化瓶颈:MOVE技术让一条轨迹顶N条用,泛化能力暴涨 76%
具身智能之心· 2025-12-10 08:03
文章核心观点 - 由北京智源人工智能研究院、清华大学、东南大学等机构团队提出的MOVE技术,通过让数据“动起来”的动态采集范式,从根本上解决了机器人因环境变化(如物体位置、相机视角改变)而“水土不服”的泛化能力痛点,实现了用更少数据获得更强性能的突破 [2][5][19] 技术原理与创新 - MOVE技术的核心理念是让关键物体在数据采集过程中“动起来”,使一条训练轨迹包含无数种空间状态,从而大幅提升数据效率 [2] - 技术通过三类可控的运动增强来实现动态数据采集:物体平移(让待抓取物体和目标落点沿线性轨迹移动并反弹)、物体旋转(控制不对称物体如带把手杯子匀速旋转)、相机运动(在仿真环境中让相机沿圆柱形路径移动)[7][8] - 技术团队还会根据任务语义(如抓取阶段、放置阶段)拆分轨迹并针对性施加运动,使机器人在动态中学习分阶段适配策略 [8] - 一条MOVE轨迹从孤立的“空间点”变为包含丰富空间配置信息的“空间曲线”,实现了数据采集范式的根本性革新 [9][18] 性能表现与数据 - **模拟环境测试**:在Meta-World基准的10个操控任务中,采用MOVE技术的机器人平均成功率达到39.1%,相比传统静态采集的22.2%,相对提升高达76.1% [12] - **真实场景测试**: - 在橙子抓取放置任务中,2万步的MOVE数据集性能可媲美5万步的静态数据集 [14] - 在装配任务中,5万步的MOVE数据集可达到10万步静态数据集的效果 [14] - **泛化能力测试**:在未训练过的区域(圆圈外),MOVE的成功率达到67.4%,远超传统方案的44.6% [14] - **数据效率优势**: - 仅用3.5万步数据,MOVE的成功率就达到23.3%,而传统静态采集需要7.5万步才能达到同等水平 [21] - 当数据量提升至7.5万步时,MOVE的成功率飙升至36.7%,其任务完成度综合评分达到0.522,远超传统方案的0.389 [21] 技术对比优势 - 相较于2025年3月提出的ADC(对抗式数据采集)方法,MOVE实现了更根本性的革新 [16][18] - ADC是对静态数据采集的“局部优化”,主要依靠离散位置重置来缓解数据稀疏问题 [18] - MOVE凭借连续动态增强、多维度组合扰动、分阶段任务适配等设计,实现了空间信息密度与泛化能力的跨越式提升 [18] - 在Pick&Place、Push、Assembly等10项典型任务中,MOVE将机器人平均成功率从ADC方案的0.276提升至0.391 [20] 行业意义与影响 - MOVE技术重构了机器人数据采集范式,从“静态单点采样”转向“动态连续采样” [19] - 该技术能大幅降低机器人在家庭、工厂、物流等真实场景落地的成本和门槛,因为它无需耗费大量资源采集海量静态数据,仅通过动态增强就能让机器人适应多变环境 [22] - 技术为机器人的空间泛化能力打开了新的想象空间,推动机器人摆脱“实验室依赖”,迈向通用具身智能 [22]
夹钢笔、叠杯子,VLA算法实战小班课来了~
具身智能之心· 2025-12-10 08:03
具身智能与视觉语言动作模型发展现状 - 行业普遍认为具身智能领域与其他AI领域不同,其算法高度依赖硬件本体,仿真和互联网数据在泛化性能上无法保证,因此许多公司坚持“真机数据”路线 [2] - 近两年来,从ACT到OpenVLA,再到π0、π0.5、π0.6,各类新方法层出不穷,性能持续提升,基于强化学习的优化方案也让VLA模型运行越来越流畅 [2] - 开源技术框架如LeRobot,以及多样化的开源本体如机械臂SO-100、双臂操作openarm、移动操作XLeRobot等,为研究提供了支持 [2] VLA模型落地的主要挑战与模块 - 将数据、VLA模型、训练优化、部署整套流程打通对初学者而言非常困难,许多人在数据采集和模型训练上踩坑,难以入门或取得好效果,特别是π0、π0.5、GR00T等模型涉及大量技巧 [4] - 数据采集主要基于模仿学习和强化学习,模仿学习包括遥操作、VR、全身动捕捉,机械臂+VLA领域更多采用遥操作和VR,如何保证数据质量及实现sim2real是关键问题 [6][7] - 在真机部署前通常需要仿真调试,在真机数据不足时,Mujoco、Isaac Gym等仿真框架及sim2real技术尤为重要 [9] - 模型训练技巧至关重要,许多模型存在机械臂运动准但夹爪操作不佳,或运动误差大的问题,ACT相对简单易出效果,而π0、π0.5等模型训练难度高,强化学习优化也极具挑战 [9] - 模型部署前需进行“瘦身”操作,即使参数量为2B的模型,在边缘芯片部署挑战也很大,需通过量化、蒸馏等轻量化操作在保证性能的同时最小化参数量 [11] 具身智能实战课程内容与安排 - 课程由具身智能之心平台联合业内专家开发,是国内首个面向实战与求职的VLA小班课,旨在解决技术更新快、学习门槛高的问题 [12] - 课程内容全面,涵盖机械臂硬件、数据采集、VLA算法、VLA评测、仿真、主流VLA模型部署、VLA+世界模型、各类真机实验及具身产业讲解 [14] - 购买课程的学员将获赠一套SO-100机械臂,包含示教臂和执行臂 [19] - 课程讲师为某机器人公司VLA高级研究员,拥有5年以上机器人行业实战经验,精通具身智能全栈技术,并在顶级期刊发表学术论文10余篇 [22] - 课程面向具身领域求职者、VLA入门进阶者、相关领域学生、希望转行进入具身领域的人员以及对具身智能感兴趣的其他人员 [24] - 课程对硬件有建议配置:推理建议3060及以上显卡,训练建议2张以上3090ti显卡,学员也可自租云服务器资源,并要求具备一定的Python和PyTorch基础 [24] - 学员学后预期能掌握真机调试与数据采集、各类VLA算法在真机上部署、深入了解VLA模型量化、清晰认识具身产业落地,并在简历上积累足够项目经验,达到1-2年以上算法工程师水平 [27] - 课程于2025年12月30日正式开课,共分九章,持续至2026年2月25日 [25][28]
消除推理阶段的额外开销!pi团队提出训练新思路
具身智能之心· 2025-12-10 08:03
文章核心观点 - 针对实时动作分块技术中推理时补绘方法带来的计算开销和延迟问题,提出了一种名为“训练时动作条件约束”的替代方案[1] - 该方法通过在训练阶段模拟推理延迟,让模型直接学习基于动作前缀生成后续动作,从而在推理阶段完全消除了额外计算开销[1][4] - 该方法无需修改模型架构或机器人运行时系统,仅需新增少量代码即可部署,是一种实用的即插即用替代方案[1][4] - 在仿真和真实场景实验中,该方法在高推理延迟下性能优于或等同于原有的推理时实时分块方法,且计算成本更低[1][4] 出发点与背景介绍 - 具身智能体必须具备实时运行和快速响应能力,无法在环境变化中“停下来思考”[2] - 随着参数规模达数十亿的视觉-语言-动作模型被用于高频机器人控制,模型推理延迟达到数十至数百毫秒,生成平滑且响应性高的动作轨迹成为挑战[2] 实时动作分块技术及其局限 - 实时动作分块技术通过异步预测动作块和推理时补绘来保证动作连续性[3] - 但推理时补绘方法会引入额外计算开销,产生延迟,削弱了实时框架的设计初衷,且在应对高推理延迟时存在本质局限[3] 训练时动作条件约束方法 - 核心思路是在训练阶段模拟推理延迟,让策略模型直接学习动作前缀的条件约束,从而消除推理阶段的计算开销[11] - 具体学习条件分布,其中输入为来自同一真实动作块的前缀动作和后缀动作[11] - 对于多数标准策略模型架构,仅需进行3处微小修改即可实现[11] - 由于无法预知精确推理延迟,训练阶段会对延迟值进行随机采样[12] - 修改后的动作生成模块可与推理时实时分块的组件接口兼容,实现无缝替代[12] 实验对比分析 - 实验旨在对比训练时实时分块、推理时实时分块,以及同步和异步基准方法的性能[13] - 仿真实验采用动态Kinetix基准测试环境,真实场景实验基于视觉-语言-动作模型,选取纸盒组装和意式浓缩咖啡制作两项高精度任务[13] 仿真实验结果 - 在动态Kinetix基准测试中,训练预测范围H=8的动作分块流策略模型[15] - 当推理延迟达到2及以上时,训练时实时分块的性能显著优于推理时实时分块,且差距随延迟增大而扩大[16][19] - 在延迟为0和1的场景下,训练时实时分块性能略有劣势,可能是因为学习生成前几个动作的训练计算量相对不足[16] - 每个数据点基于2048次轨迹展开实验[15][19] 真实场景实验结果 - 采用视觉-语言-动作模型基础模型,测试纸盒组装和意式浓缩咖啡制作任务[21] - 训练时实时分块的端到端平均延迟为108毫秒,推理时实时分块为135毫秒[21] - 训练时实时分块在保持与推理时实时分块相当的任务成功率和执行速度的同时,完全消除了推理阶段的计算开销[21] - 两种实时分块方法相比同步推理基准,均能显著提升执行速度[21]