Workflow
WorldArena
icon
搜索文档
视觉强≠能干活!清北普林斯顿等开源WorldArena,世界模型评测被颠覆
机器之心· 2026-02-13 13:08
文章核心观点 - 由全球顶尖学术机构联合推出的WorldArena评测体系,标志着具身智能领域评测范式的根本性转变,其核心观点在于揭示当前世界模型存在“视觉质量”与“任务执行功能”之间的巨大鸿沟,视觉生成的高质量并不等同于对物理世界的理解和可靠应用[1][4][45] - 文章通过系统性实验数据指出,许多世界模型生成的视频在视觉上已近乎完美,但在支撑真实的机器人具身任务时表现糟糕,视觉质量与任务执行能力的相关性仅为0.36,表明行业技术发展正从追求“视觉真实”转向追求“功能可靠”[4][32][42] WorldArena评测体系的核心创新 - **评测范式重构**:该体系并非对现有视觉评测的修补,而是一次根本性重构,旨在将评测焦点从“看起来真实”转向“用起来可靠”[5] - **六维视觉评测**:创新性地将视频质量评估拆解为六个维度,包括视觉质量、动作质量、内容一致性、物理遵循性、3D准确性和可控性,尤其将物理遵循性与3D空间理解提升到与画质同等重要的地位[5][14] - **三大具身任务评估**:在全球范围内首次将世界模型置于真实的具身任务流水线中进行压力测试,从**数据生成引擎**、**策略评估器**和**行动规划器**三个关键角色评估其功能性能力[5][27][34] - **EWMScore综合评分**:推出统一的EWMScore综合评分体系,将多维客观指标映射为一个可横向对比的分数,并且该分数与人类主观评估高度正相关,成为一个能反映真实人类感知的标尺[5][6][30] 当前世界模型的能力现状与挑战 - **视觉与功能的巨大差距**:系统性评估揭示,尽管许多模型能生成高度逼真的视频,但在复杂物理环境中的一致性、稳定性以及长时序多步交互任务中存在本质短板,尚不具备支撑真实具身应用的能力[32][33][40] - **作为数据生成引擎表现有限**:实验显示,用世界模型生成的合成轨迹训练下游策略模型,其性能提升整体显著落后于使用真实数据训练的模型,多数模型难以为下游学习提供稳定可靠的增益[35][36] - **作为策略评估器表现分化**:在策略评估任务中,以动作条件建模为核心的模型(如CtrlWorld)与真实物理仿真环境的相关性高达0.986,而其他模型(如Cosmos-Predict 2.5)相关性则较低,表明动作建模是准确刻画环境动态的关键[37] - **作为行动规划器能力不足**:在动作规划任务中,世界模型在支持闭环控制,尤其是长时序复杂任务时的性能,显著落后于成熟的策略模型(如Pi 0.5),表明其尚不足以支撑稳定可靠的自主控制行为[39][40] 评测结果的关键数据洞察 - **视觉与任务相关性低**:WorldArena数据显示,视觉质量与任务执行能力的总体相关性仅为0.36[4] - **EWMScore与任务相关性分析**:EWMScore与数据引擎任务的相关性为0.600,与动作规划任务的相关性仅为0.360,进一步证实“视觉真实不等于功能真实”[42] - **具体模型性能对比**:在数据引擎任务中,表现最好的WoW模型在Task 1和Task 2上分别达到45%和71%的性能,但仍远低于使用真实数据训练的基线模型(77%和66%)[36] - **人类评估与模型指标对齐**:人工评估证实,商业化大型视频模型(如Veo 3.1, Wan 2.6)在整体质量、指令遵循和物理符合性上表现优异,而EWMScore与人类主观评估高度正相关,验证了其有效性[41] 对行业发展的意义与方向 - **指引技术进化方向**:WorldArena的发布标志着具身智能评测正从“审美导向”走向“功能导向”,从论文对比实验走向真实场景的能力验证,这将引导世界模型研发不再比拼谁更“像电影”,而是谁更“懂物理、能干活、靠得住”[45] - **明确技术发展阶段**:文章结论指出,世界模型的“iPhone时刻”尚未到来,视觉生成能力已逼近天花板,但功能智能才刚刚破土,行业离真正可用的具身世界模型还有关键路程要走[7][8][41] - **建立开放社区标准**:WorldArena作为一个完全开源、可复现、持续迭代的社区平台,旨在为具身智能建立一套类似“驾照考试系统”的评测标准,其开放共建模式将评测权交给全球社区[9][10][12]