CVPR 2026 WorldArena挑战赛启动,高德开源高性能世界模型基线
机器之心·2026-04-12 17:06

行业技术发展趋势 - 当前视频生成模型(如Sora、Veo、Cosmos)在视觉逼真度上进展迅速,但普遍存在对物理世界理解不足的根本问题,在生成机器人操作等视频时会出现“夹爪穿模、物体凭空消失、时序错乱”等物理违规现象 [1] - 行业技术竞争正从追求“看起来像”转向追求“真能干活”,一场以“功能可用”为目标的全球性技术竞赛已经打响 [2] WorldArena挑战赛概况 - WorldArena Challenge是依托CVPR 2026 Video World Model Workshop举办的国际挑战赛,由高德地图视觉技术中心、流形空间和清华大学牵头,联合普林斯顿大学、新加坡国立大学、香港大学等全球顶尖学术机构共同主办 [4] - 比赛核心理念是“真能干活”,评测体系不仅关注视频质量,更聚焦于生成内容是否遵循物理规律、是否能支撑机器人实际操作 [4] - 比赛基于由清华大学等8所顶尖高校联合研发的WorldArena Benchmark,涵盖16大核心指标和3大真实应用任务,旨在推动世界模型从“视觉逼真”向“功能可用”转型 [4] 挑战赛技术评估体系 - 赛道一(视频感知质量):从视觉质量、动作质量、内容一致性、物理法则遵循度、可控性和3D准确性六大维度,通过16项量化指标进行全方位评测,最终通过EWMScore整合为统一综合分数排名,核心是比谁的视频最“合理” [6] - 赛道二(具身任务功能性):这是赛事的核心创新方向,首次将评测延伸至真实的具身任务执行层面,围绕世界模型在具身智能中的三大核心使用价值展开评估:作为数据合成引擎、作为策略评估器、作为行动规划器 [8] - 赛道二将率先开放数据合成引擎与策略评估器的提交通道,对于排名靠前的方案,后续将引入行动规划器进行额外加权打分 [8] 高德(阿里巴巴)的技术布局与开源模型 - 作为赛事主办方之一,高德为降低参赛门槛,已将其世界模型ABot-PhysWorld完全开源,该模型目前在WorldArena Leaderboard上排名领先 [10] - ABot-PhysWorld是高德即将发布的ABot-World系列的首个子工作,聚焦于具身场景下的物理一致性视频生成,其核心目标是“物理真实性”而非仅“视觉合理性” [11] - 在WorldArena官方排行榜(截至2026年4月10日)上,ABot-PhysWorld以62.63的综合得分排名第一,在视觉质量(64.41)、内容一致性(63.37)、3D准确性(85.46)和可控性(63.11)等分项上表现突出 [12] - 该模型在技术实现上取得多项关键突破:使用从300万原始数据清洗出的30万高质量SFT数据,覆盖本体、任务、场景和物体四维泛化;通过VLM-as-Judge构造1万条偏好数据对进行DPO偏好对齐,减少物理违规;使用11万条动作控制数据实现Dense Action Map精细控制 [13] - 在独立的PAI-Bench基准上,ABot-PhysWorld以0.8491的综合得分和0.9306的领域得分刷新SOTA,显著超越GigaWorld、Wanx-2.5、Veo 3.1、Sora 2等模型,成功打破了“视觉质量与物理合规性”之间的权衡 [14] - 主办方明确ABot-PhysWorld不参与最终评奖,已开放完整模型权重、训练代码及数据处理流程,供参赛团队在此基础上进行优化 [15] - 高德今年以来在具身智能领域动作频频,结合此次开源及ABot-World系列的预告,显示其在具身世界模型领域的产业布局正持续深化 [15] 参赛与赛程信息 - 赛事总奖金池超过14,000美元,各赛道分设一、二、三等奖,获奖团队将获得CVPR Workshop报告展示机会 [17] - **赛道一(视频感知质量)**一等奖奖金为3000美元 [25] - **赛道二(具身任务功能性)**一等奖奖金为4000美元 [27] - 提交通道已开放并支持实时刷榜,最终提交截止时间为2026年5月25日,结果将于6月1日公布,颁奖典礼于6月4日在CVPR期间举行 [17][21] - 参赛流程简洁,预计半天即可完成首次提交,主要步骤包括准备数据、生成视频和打包提交 [18]

CVPR 2026 WorldArena挑战赛启动,高德开源高性能世界模型基线 - Reportify