Visual-Language-Action Model (VLA) - 财报，业绩电话会，研报，新闻

Visual-Language-Action Model (VLA)

搜索文档

更全面的具身智能真机评测来了！CVPR 2026 ManipArena挑战赛邀你打榜

机器之心· 2026-03-18 15:39

行业核心痛点与解决方案 - 具身智能行业在爆发式增长后，面临如何科学评估模型真实泛化能力而非针对特定任务优化的核心拷问，统一的真机评测体系长期缺位，制约模型迭代效率并带来“劣币驱逐良币”的商业风险 [1] - 在规模化落地关键节点，建立可量化、可复现、高信度的真机评测标尺已成为行业共识 [2] - 为破解困局，中山大学、自变量机器人与MBZUAI等机构在CVPR 2026的Embodied AI Workshop上推出了官方竞赛ManipArena，旨在为行业树立规范公平的评测新标杆 [3][8] ManipArena评测平台概述 - ManipArena是目前规模最大的真机操作评测平台之一，提供20个真机任务（5个初赛，15个决赛）和10812条高质量遥操作轨迹，通过绿幕可控环境和分层OOD评估设计，构建了可精确诊断模型泛化能力的科学化评测框架 [5][8] - 平台采用Server-Side远程真机评测架构，参赛者无需拥有真实机器人硬件，仅需GPU服务器和HTTP推理端点即可参与，大幅降低了参与成本 [38] - 所有20个任务均统一采用自变量机器人（X Square Robot）的双臂系统进行评测，消除了硬件差异，确保性能差异纯粹反映策略能力 [38] - 平台为赛事设置了实质性奖金激励，初赛第1-3名奖励500美元，决赛冠军奖励5000美元及2台6轴机械臂 [43] 科学评测框架的核心创新 - **分层OOD评估**：每个任务进行10次测试并按难度分层（T1-T4测域内能力，T5-T8引入视觉偏移，T9-T10为语义OOD测试），能精准诊断模型泛化瓶颈并绘制完整的泛化衰减曲线 [10][11][12] - **绿幕可控环境**：在带固定光源的绿幕封闭工作站中进行评估，从物理源头上排除光线变化等视觉干扰，保证性能差异纯粹反映策略能力 [16] - **系统化多样性注入**：在纯净视觉环境中注入物理属性层（材质、颜色、尺寸）、空间布局层（位置、朝向）和语义推理组合层（物品序列、类别）三个层级的多样性参数，防止模型依靠频率偏差走捷径 [17][19][21] - **开放56维底层感知信号**：提供每帧56维的本体感觉数据，包括关节位置、末端位姿、夹爪状态、电机电流和关节速度，鼓励力敏感策略研究，补齐力觉控制拼图 [20][22][23] 任务设置与评估规则 - 20个真机任务全部以推理为核心，涵盖15个桌面任务和5个移动操作任务，无简单抓取测试 [25] - 桌面任务细分为10个执行推理任务（如亚厘米级精准插入、力控倒水、双臂协作）和5个语义推理任务（如识别分类耳机、按颜色序列按按钮） [32][34] - 移动操作任务（如收纳衣物、挂画）将评测范围延展到3×3米真实空间，平均执行时长约144秒，是桌面任务的4.3倍，对模型时序建模能力提出极大考验 [35] - 赛事制定“单一模型”规则，要求参赛者用一个统一模型应对所有20个任务，禁止针对单一任务训练专家模型，迫使研发重心回归打造真正具备通用能力的基础模型 [36] - 评分机制摒弃二元成功率，采用子任务部分得分制，每个任务10次测试（trial），每次满分10分，15个桌面任务总分为1500分，提供更丰富的诊断信号 [43][46][47] 初步评测结果与行业洞察 - 首批基准测试对比了代表VLA的π₀.₅模型和代表世界模型的DreamZero，在满分1500分中，π₀.₅-OneModel得640.5分，π₀.₅-Single得626.3分，DreamZero得500.3分，大量任务成功率为0%，显示评测体系极具挑战性 [48] - 评测揭示了两种技术路线的互补能力边界：多任务VLA模型具备更强精细操作能力但泛化脆弱，面对分布外物体易出现灾难性退化；世界模型展现出显著泛化鲁棒性但仅限于粗粒度操作，在精细任务上力不从心 [8] - 具体数据表明，在耳机分类任务中，仅改变耳机类型时模型平均得2.0分，但同时改变类型和颜色时，平均得分直接降为0分，显示复合型分布外测试会导致性能灾难性崩溃 [13][14] - 在眼镜放置任务中，模型表现显示物体形状相似度比语义类别归属更重要：与训练集形状相同的儿童眼镜得10.0分满分，形状相似的墨镜得8.5分，形状完全不同的护目镜得分急剧下降至5.0分 [15] - 进一步分析揭示，VLA模型存在程序性遗忘，而世界模型在空间泛化上优势明显（如在篮子位置移动测试中，DreamZero得分仅下降8%，而π₀.₅模型下降44%-57%），但存在精细操作瓶颈和单步推理耗时极长（比VLA慢50至70倍）的问题 [51] - 结论指出，未来的通用操作模型需要深度融合VLA（擅长精度控制和语义理解）和世界模型（在空间泛化和粗粒度规划上更胜一筹）两种范式的优势 [52] 平台价值与行业影响 - ManipArena不仅仅是一场竞赛，更是一个高标准的开放研发平台，其分层OOD评估体系、多元化场景设计及子任务部分得分机制具备天然的学术实验适配性，可作为日常研发的benchmark [52] - 平台鼓励参赛者基于真实评测结果验证新算法并发表学术论文，通过科研创新与产业验证双向赋能，加速具身智能产业向真实世界的大规模部署迈进 [40][52]

Embodied Intelligence

Generalist Robot Manipulation

Visual-Language-Action Model (VLA)

World Action Model (WAM)

Robotics

ManipArena

Embodied Intelligence

Generalist Robot Manipulation

Visual-Language-Action Model (VLA)

World Action Model (WAM)

Robotics

ManipArena

告别机器人“断片”！KAIST和UC Berkeley团队让VLA模型拥有记忆实测成功率翻倍！

机器人大讲堂· 2026-02-16 23:31

文章核心观点 - 由KAIST和UC Berkeley团队提出的HAMLET框架，通过为现有视觉-语言-动作模型添加轻量级历史记忆模块，显著提升了机器人在长时操控任务中的性能与成功率，且具备高效率与跨任务迁移潜力 [3][5][17] 现有VLA模型的局限性 - 当前主流VLA模型遵循“单帧假设”，仅依赖当前画面与指令决策，缺乏历史记忆，导致其在需要上下文的长时任务中表现不佳 [4] - 在“盖方块叠杯子”任务中，因物体被遮挡后缺乏历史记忆，GR00T N1.5模型成功率仅为37.5% [4] - 简单堆叠历史帧的方法效率低下，例如增加4帧历史画面会使模型推理速度减慢35%，峰值内存占用暴涨3.6倍 [4] HAMLET框架的技术原理 - HAMLET框架包含两大核心组件：时刻令牌与轻量记忆模块，通过微调而非从头训练的方式为VLA模型添加记忆系统 [5] - **时刻令牌**：作为可学习向量，对每个时间步的场景信息进行压缩存档，并通过时间对比学习初始化，使其聚焦于动态变化的关键区域，忽略静态背景 [6][8] - **轻量记忆模块**：采用两层Transformer架构处理历史时刻令牌，通过因果自注意力机制筛选整合对当前决策重要的历史信息，输出融合历史特征的特征向量 [9][11] HAMLET的性能表现 - 在真实场景的长时任务测试中，HAMLET大幅提升成功率：在“两次拾取放置”任务中，将GR00T N1.5的成功率从12.5%提升至66.7%；在“交换方块”任务中，成功率从37.5%跃升至83.3% [13][14] - 在多项任务平均成功率上，HAMLET达到76.4%，比基线模型高出47.2个百分点 [13][14] - 在通用仿真基准测试中，HAMLET也提升了性能：在RoboCasa Kitchen数据集上将成功率从64.1%提升至66.4%；在LIBERO数据集上将成功率从95.6%推高至97.7% [13][15] - HAMLET在提升性能的同时保持了高效率：当历史长度为8时，其推理速度仅增加7%，内存占用仅增加1倍；而简单堆叠历史帧的方法会使推理速度变慢2.4倍，内存占用暴涨7倍 [15] HAMLET的跨任务迁移能力 - HAMLET的记忆模块具备跨任务迁移能力，在LIBERO数据集上训练后，直接迁移到RoboCasa Kitchen数据集测试，仍能使模型成功率提升1.9个百分点，接近在目标数据集上训练的效果 [16] - 这表明其记忆模块学习到的是通用的“历史信息处理能力”，可降低在不同机器人操控任务中的部署成本 [16] 行业影响与未来展望 - HAMLET解决了VLA模型缺乏历史记忆的核心痛点，无需重构大模型架构或海量数据，即可让现有模型快速具备历史感知能力 [17] - “记忆”能力是机器人迈向通用化、理解复杂人类指令并完成挑战性长时操控任务的关键一环 [17]

Visual-Language-Action Model (VLA)

Historical Perception

Time Contrastive Learning (TCL)

Robotics

HAMLET

GR00T N1.5

Visual-Language-Action Model (VLA)

Historical Perception

Time Contrastive Learning (TCL)

Robotics

HAMLET

GR00T N1.5