《我的世界》(Minecraft)
搜索文档
Meta公司28岁亿万富豪:下一个比尔·盖茨将在这类少年中产生
财富FORTUNE· 2025-10-16 21:06
公司战略与雄心 - 公司目标直指超级智能,其商业模式足以支撑构建耗资数千亿美元的计算系统 [1][6] - 团队规模控制在百余人,力求比其他实验室更精简且人才密度更高,其他实验室规模可能大十余倍 [1][6] - 实验室分为三大支柱:研究部门构建最终实现超级智能的模型,产品部门确保模型推广给数十亿用户,基础设施部门专注于建设全球最大数据中心 [6] - 公司将新推出的智能眼镜视为超级智能的天然交付机制,这些设备将使数字感知与认知相融合 [6][7] 行业趋势与变革 - 当前是真正意义上的颠覆性时刻,与PC革命爆发前夕相提并论 [4] - 工程师正在编写的代码都将在五年内过时,所有已编写的代码都将被人工智能模型生成的代码取代 [1][2] - 氛围编程正风靡硅谷高管层,谷歌公司30%以上的新代码已由AI生成,这被视为25年来软件开发领域的最大飞跃 [8] - 氛围编程不仅是一种生产力工具,更是一种面向未来的文化使命,工程师的角色定位已截然不同 [9] 人才与竞争优势 - 青少年与成年人相比拥有明显优势,拥有足够的时间与自由去深入探索新技术,投入最多时间的人将在未来经济中占据先机 [4][5] - 当下最重要的不是语法或学习特定语言,而是投入时间实验和驾驭AI工具,若花费一万小时钻研这些工具将获得巨大优势 [2][4] - 氛围编程的核心价值在于通过不断挑战AI工具的极限所积累的大量直觉经验 [9]
梦里啥都有?谷歌新世界模型纯靠「想象」训练,学会了在《我的世界》里挖钻石
机器之心· 2025-10-02 09:30
文章核心观点 - 谷歌DeepMind提出的世界模型Dreamer 4,是一种可扩展的智能体,通过在快速且准确的世界模型中进行想象训练来解决控制任务 [5] - Dreamer 4是首个仅从标准离线数据集(无需与环境交互)就在具有挑战性的电子游戏《我的世界》中获得钻石的智能体 [7] - 该模型利用新颖的shortcut forcing目标和高效的Transformer架构,准确学习复杂的物体交互,同时实现实时人机交互和高效的想象训练 [11] 模型设计概览 - Dreamer 4智能体由一个tokenizer和一个动力学模型组成,两者均使用相同的高效Transformer架构 [17] - tokenizer通过掩码自动编码进行训练,将视频帧压缩为连续表示 [17] - 动力学模型通过shortcut forcing目标进行训练,以实现少量前向传递的交互式生成,并防止随时间累积误差 [17] - 训练流程包括在视频和动作上预训练tokenizer和世界模型,然后将策略和奖励模型微调至世界模型中,最后通过想象训练对策略进行后训练 [19] 实验结果 离线钻石挑战 - 在《我的世界》钻石任务中,Dreamer 4在使用的数据量少100倍的情况下,大幅超越了OpenAI的离线智能体VPT [22] - Dreamer 4超越了利用Gemma 3视觉语言模型通用知识的VLA智能体,在制作铁镐的成功率上几乎是VLA智能体的三倍 [22] - 与基于行为克隆的方法相比,Dreamer 4在四个关键物品的成功率以及获取物品所需时间这两个指标上均表现更优 [24] 人类交互评估 - 在涵盖挖坑、建造墙壁、砍伐树木等16项多样化任务的评估中,Dreamer 4成功完成了14项任务,成功率为14/16 [29] - 相比之下,Lucid-v1模型成功率为0/16,Oasis(small)模型成功率为0/16,Oasis(large)模型成功率为5/16 [29] - Dreamer 4模型参数量为2B,支持640×360分辨率,上下文长度为9.6秒,帧率为21 FPS [29] 动作生成效率 - 仅使用10小时的动作训练时,Dreamer 4的PSNR达到53%,SSIM达到75% [32] - 使用100小时的动作训练时,性能进一步提升,PSNR达到85%,SSIM达到100% [32] - 结果表明世界模型从无标签视频中吸收了大部分知识,仅需要少量的动作标签 [32]
港科广×腾讯联手打造《我的世界》神操作,400张截图就能让AI挖矿通关,成本降至5%|EMNLP 2025
量子位· 2025-09-04 12:41
研究框架与创新突破 - 提出VistaWise框架 首次将跨模态知识图谱与轻量化视觉微调系统性引入开放世界智能体 [3] - 以低成本与跨模态为突破口 设计图-检-控三位一体的极简框架 核心创新概括为一图谱、两增强、三协同 [9] - 训练数据量仅需471帧 较传统方法缩减5个数量级 GPU显存需求下降87.5%至24GB [18] 技术架构与性能表现 - 仅用471张游戏画面微调视觉模型 单张24GB消费级显卡即可完成训练 完整框架可部署于笔记本电脑 [7][17] - 在"获取钻石"任务链上达成33%成功率 刷新非API类方法纪录 较前SOTA提升8个百分点 [4] - 9个连续子任务全部达到73%以上成功率 通过检索式图池化机制减少30%推理tokens [4][13] 核心组件与运行机制 - 构建轻量化跨模态知识图谱 融合文本攻略与实时视觉感知 单张1080p画面可在20ms内完成动态更新 [11] - 采用Path-Searching+Entity-Matching双阶段池化 先锁定全局路径再局部裁剪冗余信息 [13] - 基于PyAutoGUI封装原子动作函数 支持键鼠混合输入 实现零仿真真机操作 [14] - 决策闭环包含感知-检索-推理-执行四步骤 依赖GPT-4o生成自然语言指令驱动操作 [15][20] 行业应用与成本优势 - 突破传统需千万级标注样本与数百张高端显卡的训练模式 成本从百万级大幅降低 [6] - 较多模态大模型视觉感知方案降低30.7%的tokens使用 性能无显著下降 [18] - 研究成果获自然语言处理顶级会议EMNLP 2025主会录用 具学术与商业应用潜力 [5]
《我的世界》成为AI新「考场」?高三生用游戏评测AI:DeepSeek-R1位列第三
36氪· 2025-03-25 20:45
核心观点 - 一名高中生开发了基于《我的世界》游戏的AI评测基准MC-Bench 通过视觉化建造任务评估大模型综合能力 并采用众包投票机制形成排名 目前Claude 3.7 Sonnet以85.2%胜率位列第一 DeepSeek-R1以67.6%胜率排名第三 [1][2][14][15] 评测方法 - 核心机制为AI模型根据文本提示(例如"晶莹剔透的酒杯装满了深红色的葡萄酒")在游戏中生成建筑 用户对匿名作品进行A/B投票或平局选择 投票结束后揭晓模型归属 [2][5] - 本质上属于编程基准测试 模型需通过代码生成实现建造任务 但通过游戏视觉化降低参与门槛 [9] 选择游戏的原因 - 《我的世界》作为全球销量最高的电子游戏之一 具有广泛认知度 上亿玩家基础可形成众包数据 [8] - 游戏环境能模拟真实世界复杂度 考验AI问题解决 策略思维和适应能力 同时提供安全可控的测试空间 [7] - 视觉化输出使普通用户无需编程知识即可参与评判 相比文本或代码更直观 [8][9] 技术优势 - 评估维度涵盖逻辑推理 规划能力和空间认知等传统测试难以覆盖的领域 [8] - 可重复测试环境确保不同模型在相同条件下对比 [7] - 避免"基准测试陷阱"——模型在标准化考试(如LSAT超越88%人类)与实际应用(如数字母错误)表现脱节的问题 [2] 项目现状 - 由8名志愿者团队维护开发 获Anthropic Google OpenAI和阿里巴巴等公司提供模型访问权限和计算资源支持 但无官方合作关系 [10][13] - 当前聚焦基础建造能力评估 未来计划拓展至长期规划和目标导向型复杂任务 [15] 行业意义 - 游戏化评测可能成为AI评估新趋势 使研究过程更有趣且公众更易理解技术进展 [8] - 排行榜结果与用户实际体验高度一致 可为AI公司提供发展方向参考 [16]