Workflow
MineStudio
icon
搜索文档
ICML Spotlight | MCU:全球首个生成式开放世界基准,革新通用AI评测范式
机器之心· 2025-05-13 15:08
核心观点 - 通用人工智能研究院与北京大学联合开发了Minecraft Universe (MCU)平台,旨在解决开放世界AI智能体评测的三大瓶颈:任务多样化不足、环境单一、评测效率低下 [1][3][6] - MCU通过3,452个原子任务的无限组合生成、GPT-4o驱动的全自动任务配置、多模态智能评测三大突破,构建了维度丰富的综合评测框架 [6][11][14] - 实验显示当前SOTA模型(GROOT/STEVE-I/VPT系列)在组合任务中的完成率较原子任务下降50%以上,创造性得分普遍低于0.3分(满分1分),揭示泛化能力存在显著缺陷 [17][18][21] 技术架构 任务生成系统 - 支持11大类41子类任务类型(挖矿/合成/战斗/建造等),每个任务可分解为原子级粒度测试控制/规划/推理能力 [13] - 基于GPT-4o实现一句话生成复杂世界场景(含天气/生物群系/初始道具),自动校验任务逻辑可行性(如避免"木镐挖钻石"类错误) [11][14] - 示例任务包括"沙漠建水上屋"、"熔岩坑边缘造瀑布"等,通过调整环境变量(昼夜/地形)生成不同难度版本 [7][20] 评测体系创新 - 引入VLM驱动的多模态评分系统,覆盖任务进度/材料利用率/执行效率等6大维度,评分准确率达91.5% [14] - 采用动态任务进度指标替代传统0/1完成率,可量化阶段性表现(如GROOT在"屋内睡觉"任务中误判率达83%) [21] - 评测效率较人工提升8.1倍,成本仅为1/5,支持单日处理超10万次任务验证 [14] 实验结果 模型性能短板 - 导航类任务:GROOT在熟悉场景平均得分0.72,但环境微调后(草地→屋内)得分骤降至0.33 [18][21] - 组合任务:VPT(RL)在采矿+建造的复合任务中成功率仅23%,较单一采矿任务下降41个百分点 [18] - 创造性缺陷:所有模型在建造类任务的创新得分均未超过0.38分(STEVE-I在"瀑布建造"中得分为0.05) [18][21] 行业启示 - 现有模型过度依赖预设环境(如VPT在陌生生物群系中错误识别率达65%),暴露语义理解不足 [17][22] - 长周期任务(持续数小时)的完成率普遍低于20%,反映长期规划能力缺失 [6][21] - 评测结果指明研发方向:需提升任务本质理解能力而非表面指令执行 [22]