具身智能之心
搜索文档
SpatialActor:解耦语义与几何,为具身智能注入强鲁棒空间基因
具身智能之心· 2025-12-06 00:02
文章核心观点 - 文章介绍了一种名为SpatialActor的新型机器人操作模型,其核心创新在于将语义信息与空间几何信息进行解耦,通过双流架构分别处理,以克服现有模型依赖2D图像导致的深度信息丢失和对噪声敏感的问题,从而在仿真和真实世界任务中实现了更高的成功率和鲁棒性 [1][3] 方法与架构 - **核心设计理念**:机器人操作需要语义理解与几何把控的协同,SpatialActor采用“双流解耦-融合”架构,而非训练全能端到端网络 [6] - **语义引导几何模块**:该模块通过多尺度门控机制,自适应地融合来自预训练深度专家的鲁棒几何先验与来自原始深度的细粒度但含噪的几何特征,生成优化后的高层几何表征 [10] - **空间Transformer模块**:该模块旨在建立精确的2D至3D映射并融合多模态特征,通过将空间特征与机器人本体感知信息融合,并利用相机参数转换为3D坐标,再通过视图级和场景级注意力机制优化特征,最终解码生成精确的6-DoF动作 [12] 仿真基准测试结果 - **整体性能**:在包含18个任务、249种变体的RLBench仿真基准测试中,SpatialActor的平均成功率达到了**87.4%**,超越了此前的最先进模型RVT-2(81.4%)**6.0个百分点** [13] - **高精度任务表现**:在需要高空间精度的任务上优势显著,例如在“Insert Peg”任务中成功率高达**93.3%**,优于RVT-2的40.0%,领先**53.3个百分点**;在“Sort Shape”任务中成功率为**73.3%**,优于RVT-2的35.0%,领先**38.3个百分点** [13] 噪声鲁棒性测试 - **抗噪性能**:在模拟不同强度高斯噪声的实验中,SpatialActor始终优于RVT-2。在轻度、中度和重度噪声下,平均成功率分别比RVT-2高出**13.9%、16.9%和19.4个百分点** [14] - **关键任务抗噪性**:在“Insert Peg”任务中,抗噪优势尤为突出,在三档噪声下的成功率分别比RVT-2高出**88.0、78.6和61.3个百分点** [14] 真机实验结果 - **整体有效性**:在8个不同任务、15种变体的真实机器人实验中,SpatialActor的整体平均成功率为**63%**,显著优于RVT-2的**43%**,平均提升约**20个百分点** [18][19] - **任务具体表现**:在多个任务上表现更优,例如“Pick Glue to Box”任务成功率为**85%**(RVT-2为50%),“Push Button”任务成功率为**90%**(RVT-2为67%) [18] - **泛化与鲁棒性**:在被操作物体、接收物体、光照和背景发生变化等极具挑战性的条件下,SpatialActor仍能保持高水平表现,证明了其在复杂真实场景中的强大鲁棒性与泛化能力 [19] 结论与意义 - **技术总结**:SpatialActor通过解耦语义与几何信息,并分别构建鲁棒的高层几何表征和捕捉低层空间线索,有效解决了机器人操作中精确空间理解、传感器噪声和有效交互的挑战 [21] - **实验验证**:在超过50个仿真和真实世界任务上的广泛实验表明,该框架在多样化条件下均能实现更高的成功率和强大的鲁棒性 [21] - **未来方向**:文章指出机器人操作还需解决时序理解与长程决策问题,并提及团队另一项工作MemoryVLA,该工作引入记忆机制以实现时序感知的决策 [24]
人大等团队提出Mixture of Horizons策略,解决VLA的“长短视”问题
具身智能之心· 2025-12-05 12:00
文章核心观点 - 研究团队提出了一种名为“视野混合”(Mixture of Horizons, MoH)的创新策略,旨在解决视觉语言动作(VLA)模型中广泛采用的动作分块(Action Chunking)策略所固有的权衡问题[1][12] - 该策略通过并行混合不同长度的动作预测视野,使模型能够同时兼顾长期轨迹规划和短期精细动作控制,从而提升整体性能[12][13] - 基于此,研究进一步提出了“基于跨视野一致性的动态推理”机制,通过评估不同视野预测结果的一致性来动态决定可执行动作序列的长度,显著提高了模型的推理效率[16] - 该方法在LIBERO基准测试中取得了99%的平均准确率,刷新了该榜单的最高纪录(SOTA),并且其设计简洁,可作为即插即用模块应用于多种VLA模型架构[1][15][24] 研究背景与问题 - 动作分块策略是VLA领域广泛使用的技术,指模型根据当前观测和指令预测未来多步动作[2] - 现有研究发现,模型性能对动作分块的长度(即视野,Horizon)非常敏感,通常需要通过网格搜索来确定最优值(如5、10、30)[3][4] - 单一固定的动作块长度在长期轨迹规划与短期动作精度之间存在明显的权衡(Trade-off)问题,成为了限制VLA模型泛化能力的瓶颈[7][13] 视野混合(Mixture of Horizons)策略 - **核心思想**:通过混合不同长度的视野,使VLA模型能够同时具备长程规划能力和短程精细控制能力[12] - **实现方法**: - 将初始动作块输入重排为多组长度递增的序列,并行输入共享的Action Transformer进行处理[15] - 引入一个参数量极小的线性门控层(仅2k参数),为每一步、每一个视野生成融合权重[15] - 采用平衡损失(balance loss)防止门控层坍塌至少数偏好视野,确保所有视野均被有效利用[15] - 对不同视野的预测结果进行加权求和,得到最终动作预测[15] - **优势**:设计简洁,几乎不增加计算负担,可即插即用地应用于基于回归、分类、流匹配或扩散的各类VLA模型[15][41] 动态推理(Dynamic Inference)策略 - **原理**:利用视野混合策略中不同长度视野在每一步动作预测上的一致性,来衡量该动作的可靠程度[16] - **机制**:在测试时,通过评估跨视野共识,动态决定可执行动作序列的长度,将更多可靠动作加入执行队列,从而加速推理过程[16][36] - **效果**:在LIBERO-Long任务上验证,即使在2.5倍吞吐率下,性能仍稳定超过基线模型,且比固定长度前缀的执行方式更稳定可靠[32][33][34] 实验设置与结果 - **仿真环境**:实验在LIBERO和RoboTwin2.0基准上进行[17] - **训练配置**:实验规模轻量,在4块A100 80G GPU上,LIBERO训练30k步,RoboTwin2.0训练约3k到10k步,均可在8小时内完成训练[18][19][20] - **LIBERO结果**: - 在基于回归的Treg模型(3B参数)上应用MoH后,平均准确率从95.2%提升至96.4%[23] - 在基于流匹配的TO.5模型(3B参数)上应用MoH后,平均准确率从97.7%提升至99.0%,其中Object任务达到100%准确率,刷新SOTA[23][24] - **RoboTwin2.0结果**:视野混合策略增强了模型在分布内任务上的收敛性,并提升了在更具挑战性任务设置上的泛化性和稳定性[29] 方法特性与开销 - **普适性**:方法适用于多种VLA模型架构,具有广泛的适用性[15] - **低开销**:由于Action Transformer参数量相对较小(约300M),且采用并行计算,MoH策略带来的额外训练和推理资源负担极小[41] - **无损推理**:在推理速度上几乎无损,完全不影响VLA模型的可用性[42]
RoCo Challenge @ AAAI 2026 面向机器人组装的具身智能国际竞赛
具身智能之心· 2025-12-05 12:00
赛事概述 - 赛事名称为RoCo Challenge 2026 (Robotic Collaboration Challenge),由南洋理工大学感知与具身智能实验室、A*STAR、卡耐基梅隆大学等机构联合主办,旨在推动机器人在复杂生产与操作环境中的自主决策、协同规划与安全交互能力的研究与落地 [1] - 赛事核心主题为“人机协作装配”,围绕齿轮箱装配场景,考察机器人在预测与协助、人机交互、错误检测与恢复、自主延续等关键环节的智能协作能力 [5] - 赛事总奖金为2000美元,优胜队伍将获得在AAAI 2026主会场特设环节进行成果演示的机会,其作品还将被推荐至顶级学术期刊与开源社区展示 [2] 赛道设置与任务 - 赛事包含仿真和现场两大赛道,覆盖从虚拟仿真环境中的人机协作任务规划到真实机器人平台的多模态操作执行等环节 [1][5] - 仿真赛道任务分为三大场景:从零装配(机器人需自主完成整个装配流程)、部分续作(机器人需感知当前状态并正确衔接后续步骤)、错误检测与恢复(机器人需识别并纠正系统注入的错误) [7][10] - 现场赛道将在新加坡ARTC (Advanced Remanufacturing and Technology Centre) 举办,机器人需与人类操作者通过手势等交互指令协同装配标准化齿轮箱套件 [12] 赛事日程与安排 - 赛事分为三个阶段:Phase A 公布与注册(2025年11月10日开始)、Phase B 线上赛(2025年11月至2026年1月10日)、Phase C 现场总决赛(2026年1月24–26日于新加坡ARTC举行) [13][14][15] - 最终成绩将在AAAI 2026特设环节公布,入围决赛的团队将受邀前往新加坡ARTC参加现场总决赛,并在AAAI 2026 Human-Centric Manufacturing Workshop进行成果演示 [12][13] 行业背景与目标 - 随着具身智能与大模型技术的快速发展,机器人正从执行工具迈向具备理解与协作能力的智能体,实现高效、安全的人机协作成为智能系统在工业制造、服务机器人等领域落地的关键挑战 [5] - 赛事旨在构建统一的评测平台,推动机器人在复杂环境下的感知、规划与协作研究,聚焦多模态理解、任务共建与人机互动等前沿议题,以助力智能制造与具身智能的发展 [5]
复刻pi0.6很难?SRPO:无需微调 Value Model,VLA-RL 也能刷新 SOTA
具身智能之心· 2025-12-05 08:02
文章核心观点 - 强化学习是提升视觉-语言-动作模型性能的关键路径,但传统方法构建高质量奖励模型成本高昂 [2] - SRPO框架提出了一种无需任务特定奖励微调的“自我参考”与“通用世界表征”结合的奖励构建机制 [4] - 该方法在多个基准测试中刷新了SOTA,并显著提升了开源模型的真机表现 [4] 算法原理与核心思想 - 核心思想是“我最好的表现,就是我的老师”,利用批次内成功轨迹作为动态参考系 [13] - 通过预训练的世界模型提取潜空间世界表征,以衡量失败轨迹与成功轨迹在行为层面的相似度 [16] - 算法流程包括世界模型编码、成功轨迹聚类、潜空间距离计算、奖励构造和策略更新五个步骤 [17][18][19][20][21] - 策略更新采用组内归一化优势估计和PPO风格的Clipped Surrogate Objective,并加入KL散度正则化以防止灾难性遗忘 [22][23][24] 性能表现与实验结果 - 在LIBERO基准测试中达到99.2%的成功率,刷新SOTA [26] - 在LIBERO-Plus的泛化任务上,性能较one-shot SFT基线提升高达167% [28] - 相较于使用0/1奖励的GRPO方法,SRPO仅需219步就能将模型成功率从17.3%提升至98.6%,效率优势显著 [34] - 在真机测试中,对开源模型Pi0和Pi0-fast的成功率相对SFT分别提升66.8%和86.7% [36] 奖励信号质量与优势 - 利用大规模视频预训练的世界模型表征,其奖励信号更平滑、合理,能更好地区分成功与失败轨迹 [16][31] - 在五项定量评估指标上均优于像素级方法和通用视觉编码器基线 [33] - 奖励构建方法对包含重复操作或多步骤的长程任务表现出更强的稳定性和合理性 [37] 技术特点与创新 - 无需针对每个任务收集数据并微调价值模型,解决了多任务、少样本场景下的挑战 [8] - 无需额外专家数据或人工设计稠密奖励,实现了“任务无关”的通用渐进式奖励构建 [9][10] - 方法可作为通用插件,显著增强现有VLA模型的真机操作能力 [36]
面向真机,搞了一套VLA算法部署+量化+世界模型实战教程
具身智能之心· 2025-12-05 08:02
具身智能与视觉语言动作模型技术现状 - 视觉语言动作模型在真实硬件上运行效果不佳,许多模型难以达到预期效果 [1] - 具身智能领域高度依赖硬件本体,算法与硬件结合紧密,仿真和互联网数据在泛化性能上无法保证 [2] - 行业内的许多公司坚持采用“真机数据”路线来确保模型性能 [2] 技术发展与开源生态 - 近两年来,视觉语言动作模型算法发展迅速,从ACT、OpenVLA到π0、π0.5、π0.6等新方法不断涌现,性能持续提升 [4] - 基于强化学习的优化方案使得视觉语言动作模型运行更加流畅 [4] - 开源技术框架(如LeRobot)和多样化的开源硬件本体(如SO-100机械臂、openarm双臂、XLeRobot移动操作平台)为研究提供了支持 [4] 技术落地面临的挑战 - 打通从数据采集、模型训练优化到部署的全流程任务对初学者极为困难,许多人长期无法有效入门或取得好效果 [6] - 特定模型如π0、π0.5、GR00T在数据采集和模型训练中存在大量未公开的技巧 [6] - 模型训练前的仿真调试至关重要,在真机数据不足时,Mujoco、Isaac Gym等仿真框架及sim2real技术尤为重要 [10] - 模型训练技巧是关键,许多模型存在机械臂运动不准、夹爪操作失败或运动误差大的问题 [10] - ACT等算法相对简单易出效果,而π0、π0.5等模型训练难度大,对细节和经验要求高,强化学习优化同样充满挑战 [11] 视觉语言动作模型落地的核心模块 - **数据采集**:主要方法包括基于模仿学习的遥操作、VR、全身动作捕捉,以及强化学习,如何采集高质量数据及实现real2sim2real是重点 [7][8] - **模型训练**:涉及仿真调试与训练技巧,特别是在真机数据不足时如何微调模型,以及如何用小数据量获得好结果 [9][10] - **模型部署**:训练后的模型需进行“瘦身”处理,因参数量大(即使是2B规模),在边缘芯片部署挑战大,需采用量化、蒸馏等轻量化技术 [12][13] 行业培训与解决方案 - 针对视觉语言动作模型技术更新快、学习难度大的痛点,出现了面向实战与求职的系统性小班课程 [14] - 课程内容全面,涵盖机械臂硬件、数据采集、算法、评测、仿真、主流模型部署、视觉语言动作模型与世界模型结合、真机实验及产业讲解 [16] - 课程提供SO-100机械臂硬件(含示教臂和执行臂)以供实践 [20] - 课程讲师为机器人公司高级研究员,拥有5年以上行业实战与产学研落地经验,精通全栈技术并在顶级期刊发表论文10余篇 [23] - 目标学员包括求职者、入门进阶者、高校学生、转行人员及爱好者,要求具备Python和PyTorch基础,并建议使用3060及以上显卡进行推理,2张以上3090ti进行训练 [24] - 课程目标为使学员掌握真机调试与数据采集、各类视觉语言动作模型算法部署、模型量化技术,并对产业有清晰认识,积累相当于1-2年经验的算法工程项目 [27] - 课程计划于2025年12月30日开课,共分九章,持续至2026年2月25日 [28]
人形机器人新突破!敏捷稳定两不误
具身智能之心· 2025-12-05 08:02
文章核心观点 - 由香港大学、NVIDIA和清华大学联合提出的AMS统一人形机器人全身控制框架,首次在单一策略中同时实现了动态运动跟踪和极限平衡控制能力,解决了该领域的“两难困境” [3][5] AMS框架解决的核心挑战 - 人形机器人需要同时具备敏捷的动态运动和精确的平衡控制,但现有方法难以在统一框架中实现两者 [5][7] - 现有研究主要分两个方向:动态运动跟踪(如跳舞、跑步)和平衡控制(如单腿平衡),两者难以统一 [8][10] - 难以统一的原因主要有两方面:一是依赖人类动作捕捉数据存在“长尾分布”问题,极端平衡场景数据不足;二是动态运动与平衡控制的优化目标存在冲突 [12][13] AMS框架的三个关键创新 异构数据源 - 核心思路是从机器人动作空间直接采样生成可扩展的平衡数据,突破人类数据限制 [2] - 该方法避免了手动收集人类动作数据的限制,通过采样生成合成平衡动作数据 [16] - 优势包括:保证物理可行性、可扩展性强、能生成人类难以完成的极限平衡动作,充分挖掘机器人独特的机械能力 [16] - 整合人类动捕数据与合成平衡动作,有效缓解数据长尾分布问题,使策略能零样本跟踪如“叶问蹲”等未见过的极端平衡动作 [19][20] 混合奖励机制 - 选择性应用平衡先验奖励,精准提供平衡指导而不牺牲敏捷性 [2] - 设计包含通用奖励(应用于所有数据,鼓励鲁棒运动跟踪)和平衡先验奖励(仅应用于合成平衡数据,提供物理先验引导) [21] - 该设计使策略既能从人类动作中学习敏捷行为,又能在挑战性姿态中保持稳定,化解了优化目标冲突 [21] 自适应学习策略 - 动态调整采样概率,同时对每个动作“因材施教”,实现高效的自适应学习 [2] - 包含两个关键组件:自适应采样(根据跟踪性能动态调整运动序列采样概率,实现困难样本挖掘)和自适应奖励调整(为每个运动维护特定的误差容忍度参数) [23] 实验结果与能力展示 - 在Unitree G1人形机器人上的真机实验表明,AMS统一策略能够实现多种能力 [24] - **动态运动跟踪**:能够流畅执行折返跑、篮球运球、武术等多种高动态动作 [24][26] - **极限平衡控制**:得益于可扩展的合成平衡动作数据,展现了精确的平衡控制能力,能完成随机采样生成的单腿平衡动作 [26][28] - **实时遥操作**:支持基于惯性动捕和基于RGB相机的多种实时遥操作模式,展示了其作为基础控制模型的实用价值 [29][31][33]
有的同学已经开始叠毛巾,有的还在调硬件......
具身智能之心· 2025-12-04 17:53
产品发布与定位 - 公司正式发布并支持pi0和pi0.5任务的部署,相关代码将开源 [1][2] - 公司发布了一款名为Imeta-Y1的轻量级高性价比机械臂,专为具身智能科研领域打造,旨在帮助新手和科研初学者低成本、高效率地完成算法验证与项目开发 [4][5][6] 产品核心功能与性能 - 机械臂本体重量为4.2KG,额定负载为3KG,拥有6个自由度,工作半径为612.5mm,重复定位精度为±0.1mm [13][24] - 机械臂关节运动范围广泛,例如J1关节为-165°至165°,关节运动最大速度可达180°/s至220°/s [13] - 提供从数据采集、模型训练到推理部署的全流程开源工具链和代码示例,支持视觉、力控等多模态数据融合,并兼容TensorFlow、PyTorch等主流框架 [7][22][41] - 支持Python和C++双语言开发接口,并兼容ROS1和ROS2,提供URDF模型,可实现仿真与真机的无缝切换 [7][8][22][23] - 提供完整的开源软件开发工具包(SDK),包含驱动程序、API接口、示例代码与文档 [34][35] 产品优势与特点 - 产品设计对新手友好,提供全流程工具链和代码,旨在降低上手难度 [6][7][22] - 支持Gazebo等主流仿真环境与真机实时联动,用户可在仿真中验证算法后一键部署至物理设备,以降低开发风险与调试成本 [22][27] - 公司提供快速响应的售后服务,承诺24小时内响应 [8][24] - 机械臂采用高精度运动控制、低功耗设计与开放软硬件架构,其紧凑型结构与模块化接口适用于嵌入式AI与机器人学习平台的开发 [10][11] 应用演示与算法适配 - 公司通过让机械臂执行“叠毛巾”这一生活化任务,展示了其从单次折叠到连续流畅叠放多条毛巾的算法迭代与执行稳定性进化过程 [3] - 机械臂已适配的算法包括ACT,并计划后期陆续升级更新VLA、VA相关的源码,新老客户均可享受升级 [24] - 在硬件适配方面,机械臂目前已适配Realsense D435系列和奥比中光DCW2相机 [55] - 对于模型训练所需的硬件配置,公司示例称其适配的算法在NVIDIA GeForce RTX 4060显卡上即可进行训练和推理 [55]
具身智能之心招募合伙人了~
具身智能之心· 2025-12-04 11:10
文章核心观点 - 公司旨在运营一个为具身智能行业创造持续价值的社区平台 并呼吁行业有影响力的人士加入合作 共同推动行业发展 [1] 合作内容 - 合作方向包括课程研发、论文辅导、咨询服务、企业培训、学科共建、硬件研发等多个方面 [1] - 课程开发与论文辅导旨在搭建让更多初学者受益的课程 并推动C端、企业培训、高校学科建设的发展 [2][3] - 硬件研发旨在搭建好用且性价比高的具身科研平台 以降低开发者和初学者的使用门槛 [4][5] - 咨询和培训服务旨在承接B端和C端在具身数据、本体、算法和部署等方面的咨询 以助力产业升级转型和促进行业人才发展 [6][7] 岗位要求与待遇 - 期望合作者具备一定的领域工程经验 或具备博士及以上学位并手握顶会论文 [7] - 合作形式全职和兼职均可 [7] - 公司提供行业有竞争力的报酬 同时合作者将获得公司的行业资源 [8] 联系方式 - 感兴趣的人士可通过添加指定微信进行进一步咨询 [9][10]
VLA 模型的泛化能力超乎你的想象:换个新相机和视角推理也能轻松搞定!
具身智能之心· 2025-12-04 11:10
文章核心观点 - 视觉-语言-动作模型在面临新相机视角等视觉扰动时性能下降的核心原因是其空间建模组件存在对齐偏差,而非物理建模能力不足 [2][9] - 通过一种极轻量级的单次自适应框架,仅更新少量参数即可重新校准视觉表征,从而显著恢复模型的视角泛化能力,这揭示了预训练VLA模型中存在大量未被挖掘的鲁棒性潜力 [3][14] VLA模型的泛化性困境 - VLA模型是具身智能核心技术,能将视觉观测和语言指令转化为机器人动作序列,在训练数据中表现优异 [4] - 然而,当面临未见过的相机视角、光照变化等视觉扰动时,模型性能会急剧下降,这是其落地的关键瓶颈 [6] - 现有提升鲁棒性的方法主要分为两类:成本高昂的数据中心范式和对任务无关因素敏感的表示中心范式,且参数高效微调技术极少直接用于优化视觉模块 [7][8] 空间建模是VLA泛化的核心瓶颈 - 研究将VLA模型解耦为空间建模与物理建模两个独立组件,并指出性能退化的主因是空间建模失准 [9] - 空间建模负责从图像构建物体空间关系,视角变化会导致其输出的空间表示失真;物理建模负责高层推理和动作生成,其任务逻辑不受视角变化影响 [12][15] - 通过嵌入漂移分析验证:新视角的视觉token与训练视角的token在嵌入空间中存在严重域间隙,轻量级适配后能使其对齐,性能随之恢复 [13] 方法设计:轻量级单次适配框架 - 提出单次适配框架,仅对视觉模块进行轻量级调整,语言编码器和解码器保持固定 [16][17] - 特征token调制是一种极简机制,仅用两个可学习参数向量对视觉token进行全局仿射变换,引入4K可训练参数,能将Libero数据集的视角准确率从48.5%提升至87.1% [3][18] - 特征线性自适应在FTM基础上,对ViT编码器的线性层进行低秩更新,仅引入470万参数,在实验中实现了90.8%的平均成功率,达到甚至超越了全量LoRA微调的效果 [3][19] 实验验证与结果 - 实验在Libero-V基准上进行,该基准引入了相机视角变化、光照变化、背景纹理扰动和传感器噪声四种受控视觉扰动 [23][27] - 在新相机视角任务中,FLA取得了90.8%的平均成功率,超越了LoRA微调的90.3%;FTM以87.2%的成功率接近LoRA微调,且仅用4K参数 [24][26] - 在多种视觉扰动下,FLA的平均成功率达94.8%,与LoRA微调持平;FTM以90.5%的成功率远超Prompt学习的75.1% [30][31] - 参数效率极高:FTM仅用0.004M参数达到90.5%成功率;FLA用4.70M参数达到94.8%成功率,远低于LoRA微调所需的467M参数 [32] - 真实世界实验表明,通过单次FLA适配,模型能在新相机视角下成功完成所有操作任务,有效弥合仿真与现实的域间隙 [33] 方法优势与结论 - FLA/FTM方法聚焦视觉模块的轻量级适配,无需修改模型架构或重新训练,是更高效、更实用的解决方案 [20] - 该方法精准定位了模型泛化性的瓶颈,并提出了高效解决方案,证明了针对性、极小化的视觉自适应足以恢复模型的视角泛化能力 [3][34]
LatBot:中科院团队提出潜在动作蒸馏,提升机器人VLA小样本迁移效率
具身智能之心· 2025-12-04 08:04
研究背景与挑战 - 潜动作学习是视觉-语言-动作模型的重要研究方向,旨在从连续帧中提取压缩的运动语义,形成与机器人实体无关的通用表示,以利用大规模人类视频扩展训练数据,突破传统机器人数据集的限制[2] - 现有潜动作模型存在三大关键问题:缺乏任务指令引导,无法捕捉任务相关变化;对多帧信息利用不足,导致潜动作表示不精确;过度关注视觉外观变化,缺乏物理感知,造成潜动作表示与实际可执行动作间的语义鸿沟[2] 核心方法设计 - 提出解耦的潜动作表示,将潜动作分解为两个互补的可学习token,分别编码结构化的场景表示和运动表示,以明确区分机器人主动运动与环境被动变化[4] - 场景token捕捉物体位置、姿态、背景动态等环境被动变化[7] - 运动token编码机器人末端执行器的平移、旋转、夹爪动作等主动运动[7] - 设计统一潜动作解码器,以潜动作为条件,联合引导未来帧重建和帧间动作生成,该解码器基于预训练图像生成模型SANA初始化[5] - 通过层-wise双向交互逐步融合场景和运动信息,实现空间线索与动态线索的渐进融合,最终解码出未来视觉帧和帧间动作[11] - 为将潜动作知识迁移到VLA模型,设计双损失蒸馏策略,包括潜动作对齐损失和推理保留损失,整体蒸馏目标通过一个默认设为0.5的参数平衡两者[8][9] - 蒸馏后,通过动作专家微调将潜表示转化为可执行的机器人动作,微调损失分解为末端执行器损失和夹爪状态损失[9] 实验验证与关键结果 - 预训练数据集融合了OXE、AgiBoT、EgoDex等机器人和人类手部操作数据,共100万视频片段[12] - 在SIMPLER基准测试中,在Google机器人的视觉匹配和变体聚合设置下,平均成功率分别达78.0%和70.1%,显著超过基线;在WidowX机器人上平均成功率87.5%,较基线提升32.3%[12] - 在LIBERO基准的四个任务套件上平均成功率98.0%,其中LIBERO-Long任务较基线提升3.0%[12] - 在Franka真实机器人的5个复杂任务中展现出优异的少样本迁移能力[10] - 仅用10个演示样本时,颜色识别任务成功率达60%,而基线模型完全失败[12] - 50个演示样本下,块插入任务成功率80%,刷子蘸酱任务成功率50%,均大幅超越基线[12] - 全量数据训练时,多个任务成功率达80%-100%[12] - 组件消融实验表明,解耦潜动作表示和统一动作解码器具有显著协同作用,单独使用DLA可将基线平均成功率从51.0%提升至59.4%,单独使用UAD可提升至61.5%,两者结合后成功率跃升至87.5%[10][13] - 通过注意力图可视化发现,蒸馏后的VLM能更精准地定位任务相关目标,在存在干扰物时对真实目标的响应更集中,证明潜动作知识增强了模型的空间接地能力[14] 核心结论与展望 - 关键洞察是通过任务指令引导、多帧输入利用、物理先验融入以及运动与环境变化的解耦,能学习到通用且可迁移的潜动作表示[18] - 核心贡献是提出的LatBot框架通过解耦表示、统一解码器和双损失蒸馏,实现了仿真与真实环境下的优异性能,尤其在少样本场景中表现突出[18] - 未来方向是从更大规模、更多样化的操作视频中提取额外潜token,进一步扩展VLA模型的规模,探索其在更复杂、长程、多实体机器人任务中的潜力[18]