你的模型真的会"举一反三"吗？RoboChallenge Table30 V2 正式发布，泛化时代开幕

行业现状与核心挑战 - 具身智能行业热度高涨，VLA与WMA模型研究论文快速增长，各类技术演示目不暇接 [1] - 行业面临系统性顽疾：大量在仿真环境中表现出色的模型，部署至真实物理场景后迅速失效，对桌面高度、物体材质、背景光线等微小扰动极为敏感 [1] - 当前模型的根本问题是学会了记忆，但尚未学会真正的理解 [2] 现有评测体系的缺陷 - 传统评测体系太容易被攻克，研究团队普遍针对特定任务进行单独精调，催生了大量在固定场景下表现优异但泛化能力差的“考试型模型” [6] - 真机测试长期面临成本高昂、难以复现、缺乏统一标准等核心痛点，导致模型评估多停留在仿真或受控实验室环境，其现实世界能力难以量化 [6] - 这造成了认知盲区，制约了具身智能从实验室走向大规模应用 [6] Table30 V2评测平台的核心升级 - Table30 V2是全球首个大规模真机评测平台RoboChallenge发布的新一代评测体系，以“面向下一代模型的大规模真机原生泛化评测”为核心标准 [4] - 平台从任务升级、评测升级、系统升级三个维度进行深度重构 [4] - 任务升级：在保留12个经典任务基础上，新增18个全新双臂灵巧操作任务，总任务数扩展至30个高难度场景 [9] - 引入对绳索、布料等软连续体物体的操作任务，挑战空间推理与自适应控制能力极限 [11] - 新增工具使用任务，考验模型对物理世界的因果推理能力 [11] - 新增双臂协作任务，将时序建模与多模态协调推向新高度 [11] - 评测升级： - 强制推行多任务范式，禁止为每个任务单独训练专用模型，要求提交具备通用理解能力的单一模型 [13] - 系统性地引入零样本测试，要求模型处理训练集中从未出现过的物体外观、场景背景及动态干扰条件 [15] - 新增包含域外场景的高阶测试，例如将测试台替换为沙发等不可控表面，直接追问模型的“智能本质” [15] - 系统升级： - 通过增购硬件与优化调度算法，实现了3倍于往届的系统吞吐量 [16] - 调整任务准备方式，压缩任务间空转时间，加速研发迭代 [16] - 排行榜新增完成时间评分维度，倒逼研究者优化策略的实际执行效率 [16] 当前模型能力边界数据 - 根据RoboChallenge平台2025年第四季度至2026年第一季度数万次严苛远程真机测试数据 [19] - 当前表现最佳模型DM0的整体成功率为62%，GigaBrain-0.1成功率约52%，Pi0.5为42.67%，第10名RDT-1B仅为15% [19] - 简单任务如“叠碗”和“物体移入盒子”是多数模型的首选验证任务 [19] - 涉及多步骤序列推理与精细操作的任务，如“制作三明治”，成功率至今接近于零 [19] - 尽管模型在语义指令理解上已表现出一定能力，但在精细操作任务中的成功率普遍低于15%，揭示了当前VLA模型普遍存在的“理解-执行”断层 [19] 行业生态与合作 - RoboChallenge平台由原力灵机与Hugging Face联合发起，是行业共识的结晶 [20] - 自2025年11月组委会成立以来，联合了智源研究院、智元机器人、Qwen、清华大学、西安交通大学等多家顶尖研究机构与企业共同推动 [20] - 平台已吸引DM0、GigaBrain-0.1、Spirit-v1.5、Pi0、OpenVLA-OFT等主流开源模型完成测试上榜 [20] - 平台活跃用户覆盖中国(58.3%)、美国(22%)、新加坡(10.1%)等多个国家和地区，国际化社区生态正在迅速成形 [20] 未来里程碑事件 - Table30 V2预览版将作为RoboChallenge CVPR 2026 Workshop竞赛的首秀正式亮相，这是具身智能领域首次将大规模真机评测竞赛带上顶级计算机视觉学术会议舞台 [21] - 最多10支队伍将在真实机器人集群上与全球顶尖算法同台较量 [21] - 关键时间节点：报名截止4月25日；评测基准四月中旬上线；最终竞赛5月15日 [23] - 竞赛结束后，平台将持续向全球研究者开放评测基础设施 [23]