人工智能基准测试

搜索文档
速递|高中生在《我的世界》发起AI智力标准,百万建造玩家投票选出最佳模型
Z Potentials· 2025-03-22 11:59
图片来源: Minecraft 随着传统的人工智能基准测试技术显得力不从心, AI 构建者正转向更具创意的方法来评估生成式 AI 模型的能力。 对一群开发者而言,这个新舞台便是微软旗下的沙盒建造游戏—— Minecraft 。 网站 Minecraft Benchmark (或 MC-Bench )是合作开发的,旨在让 AI 模型在直接挑战中相互竞争,以响应提示并创建 Minecraft 作品。 用户可以投票决 定哪个模型做得更好,只有在投票后才能看到每个 Minecraft 作品是由哪个 AI 制作的。 对于发起 MC-Bench 的 12 年级学生 Adi Singh 来说, Minecraft 的价值并不在于游戏本身,而在于人们对它的熟悉程度。毕竟,它是有史以来最畅销的视 频游戏。 即使是没有玩过游戏的人,仍然可以评估哪个方块化的菠萝表现得更出色。 " Minecraft 让人们更容易看到 AI 发展的进展," Singh 告诉 TechCrunch 。"人们已经习惯了 Minecraft ,习惯了它的外观和氛围。" MC-Bench 目前列出了八名志愿者贡献者。根据 MC-Bench 的网站, Ant ...