Workflow
生成式AI模型
icon
搜索文档
速递|高中生在《我的世界》发起AI智力标准,百万建造玩家投票选出最佳模型
Z Potentials· 2025-03-22 11:59
生成式AI评估新方法 - 传统AI基准测试技术已显不足 行业正转向更具创意的方法评估生成式AI模型能力[1] - Minecraft被选为新测试平台 因其作为史上最畅销视频游戏的广泛认知度[3][4] - MC-Bench平台通过用户投票比较AI生成的Minecraft作品 实现直观评估[2][8] MC-Bench平台特性 - 技术本质是编程基准测试 AI需编写代码实现特定建筑指令如"雪人"或"热带海滩小屋"[8] - 采用可视化结果对比 降低评估门槛 普通用户可通过建筑外观而非代码质量进行判断[8] - 已获Anthropic Google OpenAI 阿里巴巴等公司资助 用于运行基准测试提示[4] 游戏化测试优势 - 游戏环境比现实场景更安全可控 适合测试AI代理推理能力[5] - 除Minecraft外 《精灵宝可梦红》《街头霸王》等游戏也被用作AI实验基准[5] - 当前AI在标准化测试中表现优异 但在游戏场景中能力仍落后人类儿童[6] 行业应用价值 - 发起人认为MC-Bench排行榜能更真实反映模型实际体验 优于纯文本基准测试[9] - 平台计划从简单构建扩展到长期目标导向任务 以跟踪AI进展[4] - 测试结果可能帮助企业验证技术路线正确性[9]
千亿美元数据中心,开工
半导体芯闻· 2025-03-07 18:20
文章核心观点 OpenAI和甲骨文计划在德克萨斯州新数据中心安装数万个Nvidia AI芯片,推动1000亿美元星际之门基础设施项目首个设施运营,凸显该合资企业潜在规模,同时其他科技公司也在竞争扩大Nvidia芯片产能 [1] 项目计划 - OpenAI和甲骨文计划未来几个月在德克萨斯州阿比林小城的数据中心安装数万个Nvidia AI芯片,这是星际之门基础设施项目首个设施投入运营的一部分 [1] - 预计到2026年底该数据中心将安装64,000块Nvidia GB200半导体,首批16,000块芯片将于今年夏天完成安装,芯片将分阶段添加到数据中心的几个大厅中 [1] - Stargate合资企业由OpenAI、软银集团和甲骨文于1月公布,OpenAI此前表示该项目将扩展到多达10个站点 [1] 各方职责 - OpenAI与Oracle合作设计和交付阿比林数据中心,Oracle负责获取和运营正在那里建造的超级计算机 [2] 行业竞争情况 - Stargate加入领先科技公司竞争,以扩大Nvidia最新芯片产能,这些芯片主要用于训练和部署生成式AI模型 [2] - xAI与戴尔科技签署50亿美元协议,为孟菲斯超级计算机提供AI服务器 [2] - Meta计划到2024年底拥有相当于600,000台Nvidia H100的计算能力 [2] - CoreWeave在32个数据中心拥有超过250,000个Nvidia图形处理单元 [2] 成本与选址 - 仅第一座星际之门设施的GB200数量就将耗资数十亿美元,Nvidia未公开GB200价格,其性能较弱的B200芯片每块售价在30,000至40,000美元之间 [3] - 除德克萨斯州数据中心外,OpenAI和软银员工还在宾夕法尼亚州、威斯康星州、俄勒冈州和盐湖城寻找未来星际之门数据中心园区的地点,甲骨文已在盐湖城拥有一些实时云计算能力 [3]