Workflow
俄罗斯方块
icon
搜索文档
头部产品坐拥7000万日活、多家大厂跟进:这条赛道为什么一直在悄悄赚钱?
36氪· 2026-02-03 10:43
方块解谜赛道的核心观点 - 方块解谜游戏凭借其源自《俄罗斯方块》的简单、易理解的核心玩法,在混合休闲解谜赛道中长期保持活力,并不断通过产品迭代演进,持续跑出新的下载规模与收入结构 [1][3][5][9] 市场表现与演进路径 - 方块解谜游戏的下载量在2024年中期开始明显上升,到2025年初,多款产品同时位居下载榜前列已成为常态 [6][7] - 该赛道已从单纯追求下载量,发展到部分新产品能产生有商业意义的收入,内购收入的增长在量级上明显不同 [9] - 行业分析将方块解谜在移动市场的演进系统梳理为三代:以《Block Blast》为代表的第一代、以《Color Block Jam》为代表的第二代、以及目前正在发展的第三代 [3] 核心玩法与用户获取优势 - 现代方块解谜游戏的核心玩法原则继承自《俄罗斯方块》,即高效利用空间、避免死局、维持局面可继续,但已重新包装为关卡推进、拼判断的现代移动游戏体验 [10] - 源自《俄罗斯方块》的极高认知度是方块解谜的内建优势,玩家能瞬间理解游戏,在注意力稀缺的环境下,这种无需解释的熟悉感构成了强大的用户获取优势 [13][15] 第一代产品特征 - 第一代产品(如《Block Blast》)的关键创新在于简化问题:采用固定尺寸棋盘缩小操作空间,并将操作方式改为每回合提供3个可自由选择的方块,消除了时间压力 [17][19] - 通过引入关卡结构,将游戏从“打发时间的玩法”转变为“可通关的内容” [19] - 《Block Blast》作为代表作,其月安装量自2025年初长期维持在3000万以上,证明该模式可行,其变现几乎完全依赖广告 [19][21] 第二代产品特征 - 第二代产品(如《Color Block Jam》)的核心变化是将棋盘设计为预先设定好的静态难题,玩家需拆解其中多个小问题,这使付费获得帮助显得更合理,更容易围绕内购建立稳定收入结构 [22][24][28] - 该模式引发了大量换皮产品,市场做法趋于成熟和稳定 [24][39] 第三代产品特征与未来展望 - 第三代产品通过更换更易理解的主题(如疏通交通、解救角色)和提供更多游戏内工具(障碍物、特殊方块、道具)来创新,内购成为解题过程的一部分 [29][31] - 数据显示,头部第三代产品(如《Car Jam》、《Gecko Out》)的下载量在过去一年有所下滑,但其内购收入却在持续增长 [33][36] - 行业判断第一代产品市场已基本饱和,第二代模式趋于稳定,当前持续打开增长空间的是第三代产品,因其为主题和玩法微调提供了巨大创意空间,有望在留存和变现效率上探索新上限 [39][40] - 未来是否会出现“第四代”产品,取决于开发者的创意推进程度及市场是否需要进行新一轮重置 [40]
强化学习的两个「大坑」,终于被两篇ICLR论文给解决了
机器之心· 2025-07-17 17:31
实时强化学习技术突破 - 核心观点:Mila实验室提出实时强化学习框架,解决传统强化学习在延迟敏感场景中的动作延迟和缺失问题,使大模型能在高频任务中实现即时响应[9][36] - 技术背景:现有强化学习基于"回合制"交互假设(环境/智能体轮流暂停),难以应对持续变化的实时环境[3][4] 现有技术瓶颈 - 无动作遗憾:因推理时间长导致智能体无法在每一步都采取动作,形成次优策略[7] - 延迟遗憾:动作基于过去状态计算,在随机环境中产生延迟影响[8] 解决方案1:交错异步推理框架 - 通过异步多过程推理实现:允许智能体利用全部算力进行并行计算,自适应调整时序偏移[11][14] - 技术效果:计算资源充足时,可完全消除无动作遗憾(1亿参数模型在《宝可梦:蓝》中成功捕捉)[15][17] - 性能表现:在俄罗斯方块等实时游戏中,模型规模增大时性能下降速度减缓(但延迟遗憾未完全解决)[19] 解决方案2:神经网络架构创新 - 并行计算机制:一次性计算所有网络层,将推理吞吐量从每Nδ秒提升至每δ秒[25][30] - 时序跳跃连接:最新观测仅需δ延迟即可到达输出层,总延迟从Nδ降至δ[26][31] - 组合效果:并行计算减少无动作遗憾,跳跃连接解决延迟遗憾,两者结合可恢复马尔可夫特性[27][33] 技术应用前景 - 互补性:交错推理确保大模型持续输出动作,时序跳跃连接降低内部延迟[35] - 行业价值:为机器人、自动驾驶、金融交易等延迟敏感领域提供高响应解决方案[36] - 突破意义:首次实现大模型在高频决策中不牺牲表达能力,推动强化学习在现实场景落地[37] 技术验证案例 - 游戏场景:1亿参数模型在《宝可梦:蓝》中实现快速适应和动作执行[17] - 性能基准:俄罗斯方块测试显示模型规模与性能下降呈非线性关系[19] - 延迟优化:通过时序跳跃连接将N层网络延迟从Nδ压缩至δ[31]
o3-pro通关“推箱子”,人类怀旧小游戏成了大模型新Benchmark
量子位· 2025-06-16 12:50
经典小游戏成为新Benchmark - o3-pro突破推箱子第六关上限并通关所有关卡 表现远超benchmark原有标准[2][8] - 俄罗斯方块测试中o3-pro得分无上限 成绩较前SOTA模型o3直接翻倍[3][14] - 测试采用迭代交互循环模式 结合智能体框架的感知/记忆/推理模块提升稳定性[18][20] Lmgame基准测试体系 - 包含6款游戏:推箱子(1989版)、俄罗斯方块、2048、糖果传奇、马里奥兄弟、逆转裁判[6][18] - 各游戏评估标准差异化:推箱子计算通关关卡数 俄罗斯方块按方块数+10倍消行数计分[7][13][24] - 测试框架开源 支持动态更新游戏关卡(如推箱子从4关扩展至50关)[9][23] 模型性能对比 - 推箱子历史排名:o3-pro > o3 > o4-mini > DeepSeek-R1(0528版)[10] - 俄罗斯方块历史排名:o3-pro > o3 > R1 > o4-mini 与推箱子排名存在差异[14] - o3-pro操作耗时显著 单步决策需数分钟[17] 研究团队背景 - 项目来自UCSD Hao AI Lab 负责人张昊(卡内基梅隆博士)曾参与创立LMSYS[28][29][30] - 实验室获谷歌/英伟达资助 2024年4月接收DGX B200捐赠[34] - 开源项目FastVideo获GitHub 1 5k星标 团队同时开发大模型竞技场等知名框架[32][31] 行业应用延伸 - Gemini模型2024年5月成功通关宝可梦·蓝 谷歌CEO公开宣布成果[26][27] - 测试方法受业界认可 网友认为比大模型竞技场更适合评估模型能力[5]
o3-pro通关“推箱子”,人类怀旧小游戏成了大模型新Benchmark
量子位· 2025-06-16 12:49
经典小游戏成为大模型Benchmark - 核心观点:经典小游戏如推箱子和俄罗斯方块被用作测试大模型性能的新基准,o3-pro模型在该基准上表现优异,突破了原有上限 [1][2][6] - o3-pro在推箱子游戏中通关所有关卡,远超之前仅能完成第六关的benchmark上限 [3][7][8] - 在俄罗斯方块中o3-pro表现持续强劲,游戏需强行终止,其得分计算方式为放置方块数量与清除行数10倍之和 [13][14] - 与前SOTA模型o3相比,o3-pro成绩直接翻倍 [3] Lmgame Benchmark框架设计 - 测试框架包含六款游戏:推箱子、俄罗斯方块、2048、糖果传奇、马里奥兄弟和逆转裁判 [18] - 采用迭代交互循环模式:游戏状态持续反馈给模型,模型生成动作后获得奖励并更新状态 [18] - 引入智能体框架辅助,包含感知、记忆、推理模块,并通过提示标准化确保评估稳定性 [20] - 各游戏评价标准差异化:马里奥兄弟按移动距离、2048按合并方块值对数、糖果传奇按消除数量、逆转裁判按正确动作计数 [24] 模型性能对比与开源生态 - 推箱子历史排名:o3-pro > o3 > o4-mini > DeepSeek-R1(0528) [10] - 俄罗斯方块历史排名:o3-pro > o3 > R1 > o4-mini(与推箱子排名部分倒置) [14] - 测试基准动态更新,GitHub仓库半月前仅四关,原版推箱子含50+关卡 [9] - 项目完全开源,可自行下载测试模型性能 [23] 研究团队背景 - Lmgame由UCSD Hao AI Lab开发,负责人张昊为卡内基梅隆博士、伯克利博士后,曾参与创立LMSYS(大模型竞技场开发方) [28][29][30] - 实验室获谷歌/英伟达资助,2024年4月获赠英伟达DGX B200服务器 [34] - 其他开源项目FastVideo(视频生成加速框架)获GitHub 1.5k星 [32]