Workflow
CogACT
icon
搜索文档
告别机器人“断片”!KAIST和UC Berkeley团队让VLA模型拥有记忆 实测成功率翻倍!
机器人大讲堂· 2026-02-16 23:31
文章核心观点 - 由KAIST和UC Berkeley团队提出的HAMLET框架,通过为现有视觉-语言-动作模型添加轻量级历史记忆模块,显著提升了机器人在长时操控任务中的性能与成功率,且具备高效率与跨任务迁移潜力 [3][5][17] 现有VLA模型的局限性 - 当前主流VLA模型遵循“单帧假设”,仅依赖当前画面与指令决策,缺乏历史记忆,导致其在需要上下文的长时任务中表现不佳 [4] - 在“盖方块叠杯子”任务中,因物体被遮挡后缺乏历史记忆,GR00T N1.5模型成功率仅为37.5% [4] - 简单堆叠历史帧的方法效率低下,例如增加4帧历史画面会使模型推理速度减慢35%,峰值内存占用暴涨3.6倍 [4] HAMLET框架的技术原理 - HAMLET框架包含两大核心组件:时刻令牌与轻量记忆模块,通过微调而非从头训练的方式为VLA模型添加记忆系统 [5] - **时刻令牌**:作为可学习向量,对每个时间步的场景信息进行压缩存档,并通过时间对比学习初始化,使其聚焦于动态变化的关键区域,忽略静态背景 [6][8] - **轻量记忆模块**:采用两层Transformer架构处理历史时刻令牌,通过因果自注意力机制筛选整合对当前决策重要的历史信息,输出融合历史特征的特征向量 [9][11] HAMLET的性能表现 - 在真实场景的长时任务测试中,HAMLET大幅提升成功率:在“两次拾取放置”任务中,将GR00T N1.5的成功率从12.5%提升至66.7%;在“交换方块”任务中,成功率从37.5%跃升至83.3% [13][14] - 在多项任务平均成功率上,HAMLET达到76.4%,比基线模型高出47.2个百分点 [13][14] - 在通用仿真基准测试中,HAMLET也提升了性能:在RoboCasa Kitchen数据集上将成功率从64.1%提升至66.4%;在LIBERO数据集上将成功率从95.6%推高至97.7% [13][15] - HAMLET在提升性能的同时保持了高效率:当历史长度为8时,其推理速度仅增加7%,内存占用仅增加1倍;而简单堆叠历史帧的方法会使推理速度变慢2.4倍,内存占用暴涨7倍 [15] HAMLET的跨任务迁移能力 - HAMLET的记忆模块具备跨任务迁移能力,在LIBERO数据集上训练后,直接迁移到RoboCasa Kitchen数据集测试,仍能使模型成功率提升1.9个百分点,接近在目标数据集上训练的效果 [16] - 这表明其记忆模块学习到的是通用的“历史信息处理能力”,可降低在不同机器人操控任务中的部署成本 [16] 行业影响与未来展望 - HAMLET解决了VLA模型缺乏历史记忆的核心痛点,无需重构大模型架构或海量数据,即可让现有模型快速具备历史感知能力 [17] - “记忆”能力是机器人迈向通用化、理解复杂人类指令并完成挑战性长时操控任务的关键一环 [17]
具身走向现实世界!RoboChallenge:从仿真到实体,全球首个大规模多任务真机任务基准
具身智能之心· 2025-10-15 19:03
行业痛点与市场空白 - 具身智能领域缺乏真实、开放的评测基准,真机测试的缺失与现有评测体系的局限已成为限制该领域发展的关键卡点[3] - 当前主流的具身仿真评测benchmark主要依赖仿真环境,面临sim2real问题,模拟器中表现优异的算法在真机上常出现"落地即失效"的问题[4] - 现有在线评测系统存在明显短板,仅部署1-2台机器人、支持少数任务,无法满足"大规模多模型+多任务"的评测需求,且同一模型的成功率在0%到100%间波动,严重影响结果可重复性[4] RoboChallenge平台核心特点 - 平台由Dexmal原力灵机和Hugging Face共同发起,是全球首个大规模、多任务的在真实物理环境中由真实机器人执行操作任务的基准测试[5] - 首次实现"10台真机集群+30个多样化任务"的大规模评测能力,部署4种主流机器人,包括UR5、Franka Panda、Cobot Magic Aloha和ARX-5[10] - 创新采用"远程机器人范式",用户无需拥有任何机器人硬件,仅需通过在线API即可完成模型与真机的交互,实现"零硬件门槛"[15][19] - 平台坚持全面开放原则,向全球研究者免费提供评测服务,并公开所有任务演示数据及测试中间结果[34] 技术方案与评估体系 - 为解决真机测试中"结果波动大、公平性不足"的核心痛点,创新性地提出"视觉输入匹配"方法,通过将演示数据中的参考图像叠加于测试画面,确保每次测试初始状态一致[23] - 设计了多层级的严谨评估机制,控制测试者差异,并从四个关键维度构建评估体系:VLA解决方案难点、机器人类型、任务场景环境和目标物体属性[23] - 针对"同一模型多次测试波动"问题,设计"基准协议"与"比较协议",确保评测结果的可重复性与可比性[25] - 评估采用端到端任务成功率与过程评分相结合的机制,测试集所有任务均提供约1000条演示数据[16] 任务设计与模型表现 - 平台提供首套桌面操作基准测试集Table30,包含30个精心设计的日常情境任务,覆盖家庭、餐厅、工作等场景[12][26] - 30个任务围绕VLA模型的7大核心能力展开,包括精确3D定位、遮挡与多视角融合、时间依赖性、双臂协同、柔性物体处理、物体识别与分类以及Long horizon和多阶段操作[27][28] - 官方测试了四种主流开源VLA算法,性能更强的模型表现显著更优,SOTA模型π₀.₅的成功率尚不足50%,其得分为61.84,成功率为42.67%[29][30] - 即使仅使用少量样本(约50个任务片段)且混合多任务数据进行训练,π₀.₅仍展现出不错性能,预示着真正的"通用模型"有望在未来出现[31] 平台价值与行业影响 - 平台填补了评测空白,为VLA模型提供真实性能的"试金石",避免"纸上谈兵"式研究[38] - 显著降低参与门槛,吸引更多研究者参与,尤其降低中小企业、高校团队的评测成本[38] - 严谨的评估体系与多样化任务能暴露模型短板,明确模型改进方向,推动VLA模型在核心难点上的突破[38] - 通过结果透明、视频公开、鼓励代码开源,构建开放生态,促进跨团队协作,加速具身智能技术的整体迭代[38]