MuZero
搜索文档
AlphaGo之父David Silver离职创业,目标超级智能
机器之心· 2026-01-31 10:34
核心事件 - 谷歌DeepMind知名研究员David Silver已离职并创办AI初创公司Ineffable Intelligence [1] - 公司成立于2025年11月,Silver于2026年1月16日被任命为董事,目前正在伦敦积极招聘研究人员并寻求风险投资 [3][4] - Silver在离职前数月处于休假状态,谷歌DeepMind已证实其离职并高度评价其贡献 [4] 创始人背景与成就 - David Silver是DeepMind创始成员之一,与联合创始人Demis Hassabis大学时期相识,是公司多项突破性成就的关键人物 [9] - 其关键贡献包括:2016年击败世界冠军的围棋AI AlphaGo [9]、2019年达到《星际争霸II》大师级水平的AlphaStar(排名前0.2%)[12]、能超人水平玩多种棋类的AlphaZero与MuZero [14]、2024年达到国际数学奥赛银牌水准的AlphaProof [14] - 他是2023年介绍谷歌首个Gemini系列AI模型研究论文的作者之一 [14] - 目前仍保留伦敦大学学院的教授职位 [9] - 拥有极高的学术影响力:论文总被引次数超过28.5万次,h-index为104,i10-index为180 [16][17] - 是2024年图灵奖得主Richard Sutton的门生,以强化学习研究闻名,被认为是该领域最坚定的支持者之一 [17][18] 创业动机与公司愿景 - Silver渴望重拾“解决AI领域最棘手难题的敬畏与奇妙之感”,并将实现“超级智能”视为最大未解之谜 [14] - 他认为大型语言模型受限于人类知识,呼吁AI进入以强化学习为基础的“经验时代”,以实现超越人类认知的AI [18][20] - Ineffable Intelligence旨在构建一种能够不断学习、自主发现所有知识基础的超级智能 [23] 行业趋势与竞争格局 - 近年来多位顶尖AI研究人员离开大型实验室创办追求超级智能的初创公司,形成趋势 [15] - 例如:OpenAI前首席科学家Ilya Sutskever于2024年创立Safe Superintelligence (SSI),已融资30亿美元,估值达300亿美元 [15] - Silver在DeepMind的同事也离职创办了同样研发超级智能的Reflection AI [15] - Meta重组AI部门成立“超级智能实验室”,而原首席AI科学家Yann LeCun选择离职创业 [15] 技术理念与差异 - Silver认为当前大语言模型的“预训练”和基于人类反馈的“后训练”阶段,其能力上限被人类知识锁死 [18][20] - 强化学习通过试错和反馈进行决策,能使AI自主探索并发现人类未知的新事物,是通往超级智能的途径 [17][18] - 他以AlphaGo和AlphaZero的“非人类”但绝妙的决策为例,说明基于人类偏好的评估可能限制AI潜力 [20][23] - 其理念是AI需要超越并可能摒弃人类知识,从基本原理出发学习以实现目标 [23]
DeepMind强化学习掌门人David Silver离职创业!Alpha系列AI缔造者,哈萨比斯左膀右臂
量子位· 2026-01-31 09:34
核心人物动态 - 强化学习领域权威专家David Silver已从DeepMind离职,结束了在该公司长达15年的职业生涯 [1][2] - 其离职后创立了一家名为Ineffable Intelligence的新AI公司,该公司已于2025年11月注册成立,Silver于2026年1月16日正式出任公司董事 [2][3] - 新公司总部位于伦敦,目前正处于积极招募研究人才和寻求风险投资的阶段 [7] 人物背景与成就 - David Silver是DeepMind的元老级研究员,于2010年公司创立之初加入,与联合创始人Demis Hassabis是大学好友并曾共同创业 [12] - 作为强化学习团队负责人,他主导或深度参与了DeepMind几乎所有里程碑项目,是“Alpha系列”AI的核心缔造者 [12] - 其代表性成就包括:2016年领导开发击败围棋冠军李世石的AlphaGo [14];开发出在不依赖人类棋谱情况下精通围棋、国际象棋和日本将棋的AlphaZero [14];开发出无需知晓规则即可掌握多种游戏的MuZero [15];开发出击败《星际争霸II》顶尖职业选手的AlphaStar [16];近期参与了可解答国际数学奥林匹克竞赛题目的AlphaProof以及谷歌首个Gemini模型的研究 [17] - 其学术影响力巨大,是DeepMind发表论文最多的研究员之一,谷歌学术统计其论文总被引次数超过28万次,h-index高达104 [19] 创业动机与理念 - 创业动机是希望回归“解决AI领域最难题所带来的敬畏与奇迹”,并将实现超级智能视为当前最大的未解挑战 [20] - 其目标是构建一个能够自我发现所有知识基础、并能永无止境学习的超级智能 [21] - 他认为当前主流的大语言模型能力受限于人类已有知识,倡导AI进入“经验时代”,即通过强化学习从经验中自我学习,从而发现人类未知的新事物 [22][24] - 他强调实现真正的超级智能,AI必须摆脱对人类知识和直觉的依赖,从第一性原理出发进行学习,并以AlphaGo对战李世石时超出人类专家理解的第37手棋为例证 [24][25]
AI被严重低估,AlphaGo缔造者罕见发声:2026年AI自主上岗8小时
36氪· 2025-11-04 20:11
AI能力进展评估 - AlphaGo、AlphaZero、MuZero核心作者Julian Schrittwieser指出公众对AI的认知与前沿现实存在至少一个世代的落差[1][2][3][5] - 实验室研究显示AI已能独立完成数小时的复杂任务,且能力呈现指数级增长[2][5] - 当前舆论过度关注AI出错案例,而低估其实际进展速度[5] AI任务完成能力量化指标 - METR研究机构数据显示Claude 3.7 Sonnet能在约1小时长度的软件工程任务中保持50%的成功率[6] - AI任务完成时长呈现每7个月翻倍的指数增长趋势[6][9] - 最新模型GPT-5、Claude Opus 4.1、Grok 4已突破2小时任务时长门槛[9][11] - 按此趋势预测,2026年年中模型将能连续完成8小时工作任务,2027年可能在复杂任务上超越人类专家[11][33] 跨行业应用表现 - OpenAI的GDPval研究覆盖44个职业、9大行业的1320项真实工作任务[12][19] - GPT-5在许多职业任务上已接近人类水准,Claude Opus 4.1表现甚至优于GPT-5,几乎追平行业专家[20][23] - 任务设计由平均14年经验的行业专家完成,采用盲评打分机制[19][20] - 研究涵盖法律、金融、工程、医疗、创意等多个行业,显示AI正逐步逼近甚至超越人类专业水平[20][25] 技术发展质疑与回应 - 有观点质疑将AI进展直接类比指数曲线的合理性,认为缺乏明确机制支撑[26][28] - 当前评测任务复杂度得分仅3/16,远低于现实世界7-16的混乱程度,可能高估AI实际适用性[29] - Julian承认这些提醒的合理性,但强调公众忽视已发生的增长更为危险[30][32] - 短期1-2年的趋势外推比专家预测更可靠,关键是要为可能继续的增长做好准备[31][32] 未来发展趋势预测 - 2026年底预计有模型在多个行业任务中达到人类专家平均水平[33] - 2027年后AI在垂直任务中将频繁超越专家,成为生产力主力[33] - 未来更可能呈现人机协作模式,人类作为指挥者配备数十个超强AI助手[36][40] - 这种协作模式可能带来10倍至100倍的效率提升,释放前所未有的创造力[36][37] - 科研、设计、医疗、法律、金融等几乎所有行业都将因此重组[38]