不用再对比paper了,一个网站看完各个VLA 的性能
具身智能之心·2026-01-13 08:54

文章核心观点 - 上海交大与物智进化团队推出了一个名为Evo-SOTA的具身大模型(Vision-Language-Action, VLA)性能榜单平台,旨在解决该领域研究成果分散、评测标准不一的问题,通过统一整理、系统汇总和可视化比较,帮助研究人员快速了解领域发展脉络与最新技术前沿 [1] 平台目标与功能概览 - 平台核心目标是追踪VLA模型发展、收集整理公开论文的评测结果、提供结构化榜单与可视化图表、支持对开源模型的筛选与快速查找,并提供透明的评价方法与数据来源说明 [6] - 平台重点覆盖四个机器人操作领域的benchmark:LIBERO、LIBERO-plus、MetaWorld和Calvin [2][6] - 平台提供可检索、可筛选、可视化的比较工具 [1] 主页内容构成 - 主页由三部分核心内容构成:数据概览、四大benchmark的缩略榜单、以及“时间-性能演化”的可视化散点图 [3] - 数据概览部分展示已收录的VLA模型数量和当前支持的榜单数量,体现平台作为持续更新型数据库的定位 [4][7] - 缩略榜单部分展示各benchmark的Top-5模型关键信息,包括排名、模型名称、总分和论文日期,并突出展示第一名模型,用户可快速浏览当前最强模型并进行直观比较 [5][10] - “时间-性能演化”散点图以模型论文发布时间为横轴,以对应benchmark的metric数值为纵轴,展示性能演进过程,回答VLA性能在过去几年如何演进的核心问题 [9][11] - 散点图提供“仅显示最高性能”和“仅展示开源模型”两个筛选功能,用户既可观察整体趋势,也可只关注最高性能或开源进展 [9] 榜单页面详细信息 - 每个benchmark对应一个独立榜单页面,页面顶部提供benchmark的简要介绍和官方GitHub仓库链接,帮助用户快速了解评测背景 [13][14] - 结构化榜单中,每个模型条目包含排名、模型名称、是否开源、总分、论文发布日期和论文链接 [15][16] - 用户可通过“展示所有指标”选项查看模型在细分任务维度上的具体得分,通过“仅显示开源模型”选项进行筛选 [15] - 点击模型条目可展开查看更多详细信息,包括模型简介、细分指标以及开源模型的代码库链接 [18] - 页面底部给出各metric的含义和评测维度的简单说明,以降低理解门槛 [19] - 以LIBERO榜单为例,已收录32个模型,排名第一的模型“Simple VLA-RL”总分为99.1,发布于2025年9月 [20] 方法论与平台价值 - 平台设有独立的Methodology页面,说明数据来源于发表论文、数据收集截止时间、开源模型的定义方式(截止日期前可找到代码库),并提供错误反馈渠道(GitHub issue、email或社区微信群),体现了公平性、可追溯性和可更正性的基本态度 [21][22][23] - 该平台的价值在于不仅能追踪VLA模型的发展趋势(time-performance curves)和对比不同benchmark下的方法差异,还能作为研究人员查找相关模型、阅读论文前快速概览、进行领域综述或教学的辅助工具 [24][26] - 对于模型提出者,该平台可以提高模型在公开benchmark上的排名可见度 [24][26]

不用再对比paper了,一个网站看完各个VLA 的性能 - Reportify