OpenAI Five
搜索文档
马斯克悄悄让Grok 5在韩服打LOL?醉翁之意在世界AI模型
36氪· 2026-02-02 08:22
文章核心观点 - 一个在《英雄联盟》韩服服务器上出现的名为“택배기사한 진”的神秘账号,因其在51小时内完成56场对局并取得52胜4负、胜率一度高达95%的惊人战绩,以及连续长时间高强度对局、全能英雄池和精准操作等非人类特征,被广泛猜测为人工智能(AI)在操控[1][3] - 证据和舆论将这一神秘账号与埃隆·马斯克旗下xAI公司此前宣布的Grok 5项目联系起来,该项目计划在2026年挑战顶级职业战队T1,此次事件被视为Grok 5在复杂游戏环境中进行“类人”多模态能力训练和展示的预演[4][6][11] - 此次事件的核心意义超越了电竞游戏本身,其真正目的在于展示Grok 5在通过视觉(摄像头)理解复杂动态场景方面的强大能力,这被视为推动特斯拉Optimus机器人和FSD(完全自动驾驶)实现“端到端视觉智能”的关键一步[11] AI技术展示与限制 - 该账号的操作展现出典型的AI特征,包括决策冷静、做出不合常理的决策、精通所有位置与英雄,以及对线期以精准走位躲避技能且几乎没有多余动作,体现了AI追求效率最大化的特性[3][4] - 与早期游戏AI(如OpenAI Five和AlphaStar)直接从游戏内存读取数据不同,此次疑似Grok 5的测试被限制在“人类条件”下,仅通过摄像头读取屏幕信息,这极大地增加了任务难度[6] - 在视觉模式下,AI需要从整个屏幕画面中(可能只有10-20%是有效信息区)实时处理繁杂特效,精确定位英雄位置和状态,并进行动态决策和语义分割,同时纠正摄像头畸变带来的误差,这对模型的推理效率和实时决策能力提出了极高要求[7][8] 对电竞与游戏行业的潜在影响 - AI大模型为电竞行业带来了新的机会,例如可用于赛后分析、选手训练,通过模拟特定战队的比赛录像生成其行动逻辑,充当高水平的训练对手,帮助战队提前熟悉对手思路并制定针对性战略[12] - AI在游戏开发与运营中具有广泛应用前景,例如在测试端模拟不同水平的真实玩家进行海量对局,以更精准地平衡新英雄强度;或利用AI生成更智能的NPC,甚至调控玩家游戏体验(如为连败玩家匹配AI队友)[16][17] - AI技术进入游戏领域也引发了对外挂泛滥的担忧,尽管完整版大模型难以在个人电脑运行,但其决策逻辑可能通过知识蒸馏等技术迁移到参数更小的开源模型(如Qwen)上,从而制造出拥有顶级职业选手意识和操作的、难以被反作弊系统识别的“AI玩家”[14][16] AI发展的战略意义 - Grok 5在《英雄联盟》中的挑战行为,本质上是为证明其已拥有接近甚至超越人类的图像识别与复杂场景理解能力,这是实现通用人工智能和理解现实世界的关键一步[11] - 该技术突破若能实现,将直接赋能特斯拉的Optimus机器人和汽车FSD系统,推动其向真正的“端到端视觉智能”迈进,具有重大的商业和战略价值[11] - 此次事件被视为游戏行业的又一个“AlphaGo时刻”,预示着AI将从游戏开发、测试、运营到玩家体验等全环节,给整个行业带来巨大而深远的变革[17]
观察 | 韩服登顶“非人生物”:14小时连轴转,马斯克要终结电竞时代?
未可知人工智能研究院· 2026-01-13 11:02
文章核心观点 - 一个名为“快递员”的韩服《英雄联盟》账号展现出高度疑似AI的行为特征,其背后可能关联到马斯克旗下xAI的通用人工智能技术测试,这预示着AI可能在未来几年内颠覆电竞行业,并带来更广泛的产业影响与投资机会 [4][31][33] “快递员”账号的异常表现 - 账号在51小时内进行了56局游戏,取得52胜4负的战绩,胜率高达92.8% [8] - 账号行为高度规律,每天中午12点准时上线,连续游戏约14小时,误差不超过10分钟 [9] - 账号在不同位置的胜率呈现极端分化,打野位置保持100%胜率,而补位到中单时则输掉了全部4局比赛 [3][9] - 账号英雄池极深,在56局游戏中使用了超过10个不同的英雄,且每个都表现出极高的熟练度 [10] AI操作的反人类特征 - 操作标准差接近于零,技能释放、走位等操作的时机误差极小,如同精密仪器 [21][22] - 学习曲线呈直线,从第一局开始就保持碾压态势,胜率曲线无波动,不符合人类学习规律 [23] - 位置胜率极端分化,表明其可能处于分位置迭代训练阶段,打野位置已“吃透”,而中单仍在训练中 [24] AI攻克《英雄联盟》的技术难度与背景 - 《英雄联盟》是一个实时、多人、不完全信息、动态博弈的复杂系统,其技术难度远超围棋等完全信息游戏 [14][15] - 2019年OpenAI Five在Dota 2中战胜世界冠军,但其训练耗费了256块GPU、12万个CPU核心、10个月时间及数千万美元成本,且能直接读取游戏API数据 [16][17] - 马斯克提出的挑战是AI仅能通过摄像头观看屏幕,且反应速度不能超过人类,这比OpenAI Five的方案难度至少高出5倍 [18] 对电竞行业各层级的影响 - **对普通玩家**:短期可能获得强大的AI陪练教练,但长期可能削弱玩家追求天梯排名的成就感,如同围棋界在AlphaGo之后的情况 [27] - **对职业选手**:职业选手的黄金期仅3-5年,若AI在2026年能战胜人类最强战队,未来可能不再有纯人类的世界冠军,电竞观赏性可能转向关注“人类在有限条件下的表现” [27] - **对整个产业**:AI不会摧毁电竞,反而会创造新的机会,例如催生对AI训练工具、电竞数据分析、虚拟偶像等领域的需求 [28][29] 对“快递员”账号背后真相的判断 - 该账号大概率是真实AI,理由包括:时间线与马斯克2026年挑战Faker的计划吻合;行为特征符合分位置迭代训练策略;xAI拥有充足的资金(刚获60亿美元融资)与算力支持 [31][32] 马斯克布局的深层意图 - 表面是挑战电竞,本质是展示通用AI在实时决策、多方博弈、不完全信息处理等复杂任务上的能力,其技术可应用于自动驾驶、金融交易、军事指挥等更广阔的领域 [33] 潜在的产业机会与窗口期 - 对于玩家或内容创作者,应立即着手制作AI对战相关内容,该赛道窗口期可能仅有半年 [34] - 对于行业从业者,应关注AI训练工具、电竞数据分析、虚拟偶像等方向,未来三年需求将大增 [35] - 对于普通观众,应珍惜当前以人类选手为主导的电竞赛事阶段 [36]
AI跑分越来越没意义,谷歌说不如让AI一起玩游戏
36氪· 2025-08-12 07:25
AI模型竞赛与基准测试现状 - 谷歌举办"AI棋王争霸赛",汇集OpenAI o4-mini、DeepSeek-R1、Gemini 2 5 Pro等中美顶级AI模型进行策略游戏对决,旨在通过实战评估复杂推理和决策能力[1][3] - 传统AI基准测试(如HuggingFace榜单)因厂商针对性优化导致失真,例如Meta Llama 4在Chatbot Arena测试27个版本仅公开最佳成绩,实际表现与跑分严重不符[9][11] - 谷歌推出Kaggle Game Arena平台,以策略游戏作为新测试标准,利用规则约束性和随机性更有效衡量AI智能上限[3][12] AI行业投资泡沫现象 - AI初创企业估值虚高现象显著,技术背景创始人轻易获得10亿美元估值,如Builder.ai被揭露实际依赖人工编程却伪装AI公司[4][6] - 投资机构因FOMO(错失恐惧)情绪非理性追捧AI项目,导致行业出现"刷榜"乱象,厂商通过记忆基准测试题目针对性优化跑分成绩[6][9] - 当前AI投资逻辑简化为"跑分决定估值",催生类似Llama 4在GSM8K、MATH等数学测试中刻意刷出80%+正确率的行为[9][11] 游戏与AI技术发展的关联性 - 游戏成为验证AI能力的理想场景,因其具备规则明确、结果可量化、过程可视化等特点,OpenAI曾通过《DOTA2》击败人类战队证明技术突破[12][13] - OpenAI Five项目推动训练模式从强化学习升级为RLHF(基于人类反馈的强化学习),该技术后来成为ChatGPT智能表现的核心基础[15] - 游戏智能化蕴含巨大商业价值,智能NPC开发是游戏厂商重点需求方向,AI游戏表现直接关联技术商业化潜力[15] 主流AI模型性能对比 - 基准测试数据显示Llama 4 Scout在MMLU Pro(74 3)、GPQA Diamond(57 2)等综合能力测试中领先,但LiveCodeBench编程能力仅32 8分[12] - Gemini 2 0 Pro在MathVista(73 1)、DocVQA(94 4)等专项测试中表现突出,但成本达每百万token 4 58美元显著高于竞品[12] - Claude Opus 4在Multilingual MMLU(85 1)等跨语言任务中优势明显,但编程类LiveCodeBench得分未公开[12]
LLM抢人血案:强化学习天才被挖空,一朝沦为「无人区」
36氪· 2025-08-04 15:22
强化学习领域的历史回顾与核心观点 - 斯坦福AI+CS博士Joseph Suarez对强化学习进行历史回顾,其文章获得38.2万阅读量[1] - 封面曲线暗示强化学习领域研究前景经历快速上升、平缓爬升后急转直下[3] - 文章探讨强化学习历史发展及近期才真正起飞的原因,并提供个人独特视角[3] Joseph Suarez的专业背景与研究基础 - 2019年本科毕业于斯坦福大学计算机科学专业人工智能方向[5] - 2018年在OpenAI实习期间发布Neural MMO首个公开版本[5] - 博士期间创建开源计算研究平台Neural MMO,并以此作为毕业论文主题[5][6] - 早期研究经历包括在李飞飞课题组和吴恩达实验室参与项目[5] - 其研究为PufferLib工作奠定基础[9] 强化学习早期突破与潜力展示 - 2017-2019年强化学习领域出现多项重大突破[10] - OpenAI Five项目开发期间,作者在OpenAI实习并亲眼见证相关工作[10] - OpenAI的Dota 2项目使用1.68亿参数网络,在约1000个GPU上训练后击败顶尖职业选手[12][16] - 其他重要展示项目包括AlphaStar、Capture the Flag和Emergent Tool Use等[17] 强化学习衰落的原因分析 - 2019年至2022年强化学习明显走下坡路,缺乏持久突破[19] - 学术短视导致领域集体设定了不合理的标准,如使用Agent57基准测试57款雅达利游戏[19] - 基准测试以样本数为x轴而非实际运行时间,且未限制硬件使用量,导致研究耗时且成本高昂[22] - 单个游戏运行可能需要数周GPU时间,消融实验需要1万GPU小时且利用率低于5%[22][23] - 大语言模型崛起吸引了99%的天才研究人员离开强化学习领域[25][26] - 强化学习存在超参数不合理、模型无法扩展、简单任务难以转移等基础问题[27] 当前强化学习研究的挑战与重复错误 - 现代强化学习研究重现了缓慢实验周期、过度优化评价体系等历史问题[29] - 领域为已有概念创造新术语,如“多轮RL”指“不只是赌博机问题”[32] - 对早期研究的不信任源于许多已发表内容确实存在问题[32] 强化学习的新发展方向与突破 - Joseph Suarez团队转向以墙钟训练时间为标准,重视性能工程[33] - 目标是将训练吞吐量从每秒几千步提升至数百万步[33] - PufferLib 3.0在单个RTX 5090上训练速度最高可达每秒400万步[35] - 新方法使新手程序员能在几天内让强化学习在新问题上运行,显著降低门槛[35] - 实验显示简单环境的结果能泛化到更难环境,开发周期快速[35] - 长期计划回归样本效率研究,但会保持flop效率,避免低利用率问题[36]