Time Contrastive Learning (TCL) - 财报，业绩电话会，研报，新闻

Time Contrastive Learning (TCL)

搜索文档

告别机器人“断片”！KAIST和UC Berkeley团队让VLA模型拥有记忆实测成功率翻倍！

机器人大讲堂· 2026-02-16 23:31

文章核心观点 - 由KAIST和UC Berkeley团队提出的HAMLET框架，通过为现有视觉-语言-动作模型添加轻量级历史记忆模块，显著提升了机器人在长时操控任务中的性能与成功率，且具备高效率与跨任务迁移潜力 [3][5][17] 现有VLA模型的局限性 - 当前主流VLA模型遵循“单帧假设”，仅依赖当前画面与指令决策，缺乏历史记忆，导致其在需要上下文的长时任务中表现不佳 [4] - 在“盖方块叠杯子”任务中，因物体被遮挡后缺乏历史记忆，GR00T N1.5模型成功率仅为37.5% [4] - 简单堆叠历史帧的方法效率低下，例如增加4帧历史画面会使模型推理速度减慢35%，峰值内存占用暴涨3.6倍 [4] HAMLET框架的技术原理 - HAMLET框架包含两大核心组件：时刻令牌与轻量记忆模块，通过微调而非从头训练的方式为VLA模型添加记忆系统 [5] - **时刻令牌**：作为可学习向量，对每个时间步的场景信息进行压缩存档，并通过时间对比学习初始化，使其聚焦于动态变化的关键区域，忽略静态背景 [6][8] - **轻量记忆模块**：采用两层Transformer架构处理历史时刻令牌，通过因果自注意力机制筛选整合对当前决策重要的历史信息，输出融合历史特征的特征向量 [9][11] HAMLET的性能表现 - 在真实场景的长时任务测试中，HAMLET大幅提升成功率：在“两次拾取放置”任务中，将GR00T N1.5的成功率从12.5%提升至66.7%；在“交换方块”任务中，成功率从37.5%跃升至83.3% [13][14] - 在多项任务平均成功率上，HAMLET达到76.4%，比基线模型高出47.2个百分点 [13][14] - 在通用仿真基准测试中，HAMLET也提升了性能：在RoboCasa Kitchen数据集上将成功率从64.1%提升至66.4%；在LIBERO数据集上将成功率从95.6%推高至97.7% [13][15] - HAMLET在提升性能的同时保持了高效率：当历史长度为8时，其推理速度仅增加7%，内存占用仅增加1倍；而简单堆叠历史帧的方法会使推理速度变慢2.4倍，内存占用暴涨7倍 [15] HAMLET的跨任务迁移能力 - HAMLET的记忆模块具备跨任务迁移能力，在LIBERO数据集上训练后，直接迁移到RoboCasa Kitchen数据集测试，仍能使模型成功率提升1.9个百分点，接近在目标数据集上训练的效果 [16] - 这表明其记忆模块学习到的是通用的“历史信息处理能力”，可降低在不同机器人操控任务中的部署成本 [16] 行业影响与未来展望 - HAMLET解决了VLA模型缺乏历史记忆的核心痛点，无需重构大模型架构或海量数据，即可让现有模型快速具备历史感知能力 [17] - “记忆”能力是机器人迈向通用化、理解复杂人类指令并完成挑战性长时操控任务的关键一环 [17]

Visual-Language-Action Model (VLA)

Historical Perception

Time Contrastive Learning (TCL)

Robotics

HAMLET

GR00T N1.5

Visual-Language-Action Model (VLA)

Historical Perception

Time Contrastive Learning (TCL)

Robotics

HAMLET

GR00T N1.5