AlphaZero
搜索文档
DeepMind强化学习掌门人David Silver离职创业,Alpha系列AI缔造者,哈萨比斯左膀右臂
36氪· 2026-02-02 16:21
核心人事变动 - 强化学习领域权威专家、DeepMind元老级研究员David Silver已离职,结束了在该公司长达15年的职业生涯 [1] - 其离职已得到Google DeepMind发言人证实,公司对其贡献表示感谢 [5] - 在正式离职前的几个月,David Silver一直处于休假状态 [2] 新公司创立与规划 - David Silver创立了一家名为Ineffable Intelligence的新AI公司 [1] - 该公司早在2025年11月就已成立,并于2026年1月16日正式任命Silver为董事 [2] - 公司总部设在伦敦,目前正处于积极招募AI研究人才和寻求风险投资的阶段 [3] 创始人的背景与成就 - David Silver于2010年DeepMind成立之初便加入,是公司的核心创始成员之一,与CEO Demis Hassabis是大学好友并曾共同创业 [7] - 作为强化学习团队负责人,他主导或深度参与了DeepMind几乎所有里程碑项目,是“Alpha系列”AI的主要缔造者 [7] - 其代表性成就包括:领导开发击败围棋世界冠军李世石的AlphaGo(2016年)[9]、开发不依赖人类棋谱的AlphaZero [9]、开发不被告知规则即可掌握多种游戏的MuZero [9]、领导开发击败《星际争霸II》顶尖玩家的AlphaStar [9]、参与开发能解答国际数学奥林匹克竞赛题目的AlphaProof [9] 以及是Google首个Gemini系列AI模型研究论文的作者之一 [9] - 其学术影响力巨大,是DeepMind发表论文最多的员工之一,谷歌学术统计其论文被引用超过28万次,h-index高达104 [11] - 凭借卓越贡献,他获得了2019年度ACM计算奖和2017年度英国皇家工程院银质奖章等多项荣誉 [10] 新公司的技术愿景与方向 - 创始人离职创业的动机是希望回归“解决AI领域最难题所带来的敬畏与奇迹”,并将实现超级智能视为当前最大的未解挑战 [17] - 公司的核心目标是构建一个能够自我发现所有知识基础、永无止境学习的超级智能 [17] - 创始人对当前主流大语言模型(LLM)提出看法,认为其能力受限于人类已有的知识,因为LLM本质是从人类产出的文本中学习 [17] - 他倡导AI进入“经验时代”,即AI系统应通过强化学习从经验中自我学习,从而发现人类未知的新事物 [19] - 其理念是希望AI摆脱对人类知识和直觉的依赖,从第一性原理出发进行学习,并以AlphaGo对战李世石时走出令所有人类专家误判但最终制胜的第37手棋作为经典例证 [19] 创始人的其他职务 - 除了在DeepMind的工作,David Silver同时担任伦敦大学学院的教授,并且他将继续保持这一职务 [5]
AlphaGo之父David Silver离职创业,目标超级智能
机器之心· 2026-01-31 10:34
核心事件 - 谷歌DeepMind知名研究员David Silver已离职并创办AI初创公司Ineffable Intelligence [1] - 公司成立于2025年11月,Silver于2026年1月16日被任命为董事,目前正在伦敦积极招聘研究人员并寻求风险投资 [3][4] - Silver在离职前数月处于休假状态,谷歌DeepMind已证实其离职并高度评价其贡献 [4] 创始人背景与成就 - David Silver是DeepMind创始成员之一,与联合创始人Demis Hassabis大学时期相识,是公司多项突破性成就的关键人物 [9] - 其关键贡献包括:2016年击败世界冠军的围棋AI AlphaGo [9]、2019年达到《星际争霸II》大师级水平的AlphaStar(排名前0.2%)[12]、能超人水平玩多种棋类的AlphaZero与MuZero [14]、2024年达到国际数学奥赛银牌水准的AlphaProof [14] - 他是2023年介绍谷歌首个Gemini系列AI模型研究论文的作者之一 [14] - 目前仍保留伦敦大学学院的教授职位 [9] - 拥有极高的学术影响力:论文总被引次数超过28.5万次,h-index为104,i10-index为180 [16][17] - 是2024年图灵奖得主Richard Sutton的门生,以强化学习研究闻名,被认为是该领域最坚定的支持者之一 [17][18] 创业动机与公司愿景 - Silver渴望重拾“解决AI领域最棘手难题的敬畏与奇妙之感”,并将实现“超级智能”视为最大未解之谜 [14] - 他认为大型语言模型受限于人类知识,呼吁AI进入以强化学习为基础的“经验时代”,以实现超越人类认知的AI [18][20] - Ineffable Intelligence旨在构建一种能够不断学习、自主发现所有知识基础的超级智能 [23] 行业趋势与竞争格局 - 近年来多位顶尖AI研究人员离开大型实验室创办追求超级智能的初创公司,形成趋势 [15] - 例如:OpenAI前首席科学家Ilya Sutskever于2024年创立Safe Superintelligence (SSI),已融资30亿美元,估值达300亿美元 [15] - Silver在DeepMind的同事也离职创办了同样研发超级智能的Reflection AI [15] - Meta重组AI部门成立“超级智能实验室”,而原首席AI科学家Yann LeCun选择离职创业 [15] 技术理念与差异 - Silver认为当前大语言模型的“预训练”和基于人类反馈的“后训练”阶段,其能力上限被人类知识锁死 [18][20] - 强化学习通过试错和反馈进行决策,能使AI自主探索并发现人类未知的新事物,是通往超级智能的途径 [17][18] - 他以AlphaGo和AlphaZero的“非人类”但绝妙的决策为例,说明基于人类偏好的评估可能限制AI潜力 [20][23] - 其理念是AI需要超越并可能摒弃人类知识,从基本原理出发学习以实现目标 [23]
DeepMind强化学习掌门人David Silver离职创业!Alpha系列AI缔造者,哈萨比斯左膀右臂
量子位· 2026-01-31 09:34
核心人物动态 - 强化学习领域权威专家David Silver已从DeepMind离职,结束了在该公司长达15年的职业生涯 [1][2] - 其离职后创立了一家名为Ineffable Intelligence的新AI公司,该公司已于2025年11月注册成立,Silver于2026年1月16日正式出任公司董事 [2][3] - 新公司总部位于伦敦,目前正处于积极招募研究人才和寻求风险投资的阶段 [7] 人物背景与成就 - David Silver是DeepMind的元老级研究员,于2010年公司创立之初加入,与联合创始人Demis Hassabis是大学好友并曾共同创业 [12] - 作为强化学习团队负责人,他主导或深度参与了DeepMind几乎所有里程碑项目,是“Alpha系列”AI的核心缔造者 [12] - 其代表性成就包括:2016年领导开发击败围棋冠军李世石的AlphaGo [14];开发出在不依赖人类棋谱情况下精通围棋、国际象棋和日本将棋的AlphaZero [14];开发出无需知晓规则即可掌握多种游戏的MuZero [15];开发出击败《星际争霸II》顶尖职业选手的AlphaStar [16];近期参与了可解答国际数学奥林匹克竞赛题目的AlphaProof以及谷歌首个Gemini模型的研究 [17] - 其学术影响力巨大,是DeepMind发表论文最多的研究员之一,谷歌学术统计其论文总被引次数超过28万次,h-index高达104 [19] 创业动机与理念 - 创业动机是希望回归“解决AI领域最难题所带来的敬畏与奇迹”,并将实现超级智能视为当前最大的未解挑战 [20] - 其目标是构建一个能够自我发现所有知识基础、并能永无止境学习的超级智能 [21] - 他认为当前主流的大语言模型能力受限于人类已有知识,倡导AI进入“经验时代”,即通过强化学习从经验中自我学习,从而发现人类未知的新事物 [22][24] - 他强调实现真正的超级智能,AI必须摆脱对人类知识和直觉的依赖,从第一性原理出发进行学习,并以AlphaGo对战李世石时超出人类专家理解的第37手棋为例证 [24][25]
Hinton加入Scaling Law论战,他不站学生Ilya
量子位· 2026-01-01 10:13
文章核心观点 - 针对Scaling Law(规模定律)的未来,AI领域的顶尖专家们存在观点分歧,但共识在于其发展路径需要演进,而非简单的规模线性扩展 [8][21][49] - 以Geoffrey Hinton和Demis Hassabis为代表的一方认为Scaling Law依然有效,当前面临的数据瓶颈可通过AI自我生成数据等方式解决 [10][15][22] - 以Ilya Sutskever和Yann LeCun为代表的一方认为,单纯依赖扩大模型参数、数据和算力的传统Scaling Law路径已遇到瓶颈,不足以实现根本性突破,未来需要转向新的研究范式 [23][25][41] Scaling Law不死派:Hinton与哈萨比斯的观点 - Geoffrey Hinton明确表示Scaling Laws依然有效,但当前面临数据缺失的最大挑战,因为大部分高价值数据锁在公司内部,免费互联网数据已基本耗尽 [10][11] - Hinton认为数据瓶颈将由AI自行解决,即模型通过推理生成自己的训练数据,他类比了AlphaGo和AlphaZero通过自我对弈生成数据的方式 [12][13][14] - 谷歌DeepMind CEO Demis Hassabis同样支持将当前系统规模化推向极致,认为这将是最终AGI系统的关键组成部分,甚至可能成为整个AGI系统本身 [16][17] - Hassabis倡导一种更系统、广义的规模化,即模型规模、训练范式、环境复杂度及系统架构需作为协同演进整体同步扩展,他强调构建“世界模型”和整合“搜索”与“规划”能力,让模型进入可交互环境以无限扩展数据 [19][20] Scaling Law不够用派:Ilya与LeCun的观点 - OpenAI前首席科学家Ilya Sutskever对继续扩展规模持怀疑态度,质疑当规模已经很大时,再扩大100倍是否就能彻底改变一切,认为仅靠更大规模无法带来根本性转折 [23][24][40] - Ilya指出过去十年深度学习的突破基于一个特定的尺度假设公式,但这个公式会改变,他认为目前主流的“预训练+Scaling”路线已明显遇到瓶颈,需要将注意力放回“研究范式本身”的重构,即“重新回到科研时代” [38][39][41] - Ilya通过一个脑损伤患者丧失情感处理能力导致决策困难的例子,暗示当前预训练模型可能缺失类似情感的关键能力,这使得Scaling Law是否“够用”存疑 [44][45] - Meta首席AI科学家Yann LeCun同样怀疑Scaling Law,认为不能简单假设更多的数据和计算能力就意味着更智能的人工智能,他一直认为大语言模型无法实现AGI [46][47][48] 行业共识与未来方向 - 尽管存在表面分歧,但顶尖研究人员观点有惊人共识:当前范式即便没有进一步突破也可能带来巨大经济社会影响;实现AGI/ASI可能需要更多研究突破(如持续学习、样本效率);分歧主要在于突破的具体内容及到来速度 [51][53] - 争论的本质可能不在于是否要Scaling,而在于“我们到底在Scaling什么”,即规模化对象需要从简单的参数、数据、算力扩展到更复杂的系统能力 [52] - OpenAI的o1模型核心成员Noam Brown提出,o1代表一种以推理计算为代表的全新Scaling,暗示Scaling Law的形式正在演变 [37]
四周2亿人围观,诺奖凭什么颁给他,都在这一个半小时里
36氪· 2025-12-29 19:45
纪录片《思考游戏》概述 - 纪录片由AlphaGo原班团队历时五年贴身拍摄,在四周内席卷全球,是对通用人工智能科学核心地带的深入记录[4] - 影片并非科技宣传片,而是一部时代的自白书,从人类与AI的第一次朴素交流开始探讨智能的创造[5][7] - 影片配乐被评价为一流[4] DeepMind的创立与早期环境 - 在人工智能被视为“禁词”的学术环境下,Demis Hassabis和Shane Legg因追问机器是否可拥有通用智能而走到一起[8][10] - 他们意识到传统学术体系走不通,决定创办公司,但向投资人阐述大脑、认知和第二种智能时,99%的投资人选择了拒绝[10] - DeepMind在创立早期几乎是隐形的,没有官网和公开资料,办公室位置刻意保密[13] 核心研究理念与突破 - 公司早期判断,要构建通用智能不能从规则开始,因此选择游戏作为复杂、封闭且残酷的智能试炼场[17] - 在Pong游戏中,AI在无人告知规则、只被告知要得分的情况下,经过几个月从不会动球拍到人类无法战胜[19] - 系统展现出超越单纯学习的能力,在从未见过的几十个Atari游戏中,同一个“大脑”能自己学会怎么玩[19] - 在《Breakout》游戏中,AI做出了无人教授、超越人类直觉的行为——在边缘挖了一条隧道[21] 标志性成就:AlphaGo与AlphaZero - AlphaGo与李世石的对决中,其第37手棋被职业棋手认为没有任何人类会下,AI自评该步被人类走出的概率仅为一万分之一[24][26] - 此役标志着人类首次在一个被视为“纯粹智慧”的领域被彻底击败[28] - AlphaZero从零人类知识、零先验规则开始,通过完全随机学习,最终成为有史以来最强的棋手,并精通围棋、国际象棋、将棋等双人完全信息博弈[30][31] - 它重写了人类几个世纪总结的定式、原则和经典名局,其核心能力是学习本身[33] 跨界应用:攻克蛋白质折叠难题 - 公司将目标转向被称为“生命科学圣杯”的蛋白质折叠问题,该问题曾困扰人类半个多世纪[34] - 初期进入蛋白质领域时面临数据稀缺、噪声大、实验结果残酷的挑战,即使在顶级赛事CASP暂时领先仍被生物学家认为远远不够[36][37] - AlphaFold的核心理念转变为学习结构背后的关系与物理逻辑,而非记住答案[38] - 在CASP14上,AlphaFold的预测精度首次达到可被生物学家直接使用的水平,并实现断层领先[39] - 随后,公司决定将2亿个蛋白质结构向全人类免费开放[41] 对AGI发展的反思与警示 - 在取得突破后,公司内部情绪是警惕而非狂喜,开始思考“我们该不该”而不仅仅是“我们能不能”[43] - 在StarCraft、AlphaStar等项目中,研究者观察到AI开始自发产生协作、欺骗、牺牲与压制等未写入代码的行为[43] - 纪录片将DeepMind类比为“新时代的曼哈顿计划”,并引用奥本海默团队的先例进行警示[43] - Demis Hassabis明确指出,“快速行动、打破陈规”的方法不应被采用[43] - 纪录片提出一个假设:AGI的到来本质上与“一个远超人类的智能即将抵达地球”无异,将把人类历史一分为二[43] - AGI的到来被描述为一条缓慢却不可逆的分界线,其发展是人类文明必须共同承担的选择[45]
辛顿高徒压轴,谷歌最新颠覆性论文:AGI不是神,只是「一家公司」
36氪· 2025-12-22 16:13
文章核心观点 - 谷歌DeepMind发布重磅论文《分布式AGI安全》,彻底颠覆了AGI将作为单一“超级大脑”出现的传统假设,提出了“拼凑型AGI”的新范式 [1][5] - 该观点认为,通用人工智能更可能以分布式、去中心化的智能体网络形式涌现,表现为一种集体智能或智能体经济体,而非单一实体 [8][15] - 这种转变将AI安全研究的焦点从心理学(对齐单一智能体)转向社会学与经济学(治理智能体社会),并揭示了全新的、违反直觉的系统性风险 [5][30][76] 拼凑型AGI的定义与经济学必然性 - 拼凑型AGI指由众多互补的专精智能体通过市场和协作组成的网络,超级智能在智能体间的交易与协作中涌现,而非存在于单一中心 [15] - 其核心驱动力是经济学原理:构建和运行全知全能的单一前沿模型成本高昂且效率低下,就像为拧螺丝雇佣诺贝尔奖得主一样不经济 [16] - 利用经过微调的小型专精模型处理特定任务,成本更低、速度更快,这符合哈耶克关于知识分散存在的经济理论,通过路由机制将任务分发给最合适的智能体是系统效率最优化的必然选择 [19][21] - 因此,未来AI的进步可能更依赖于开发复杂的任务编排系统(即“算法经理”或“包工头”),而非单纯堆砌模型参数 [21] 分布式AGI的潜在演进路径与风险 - 若智能体间协作的“交易成本”因标准化协议而降至接近零,可能触发“超级采用”场景,智能体经济的复杂性将呈指数级爆发,并在某个临界点突然跨越AGI门槛,即“未被察觉的自发涌现”风险 [24][26] - 智能体将社会化,形成类似公司的“群体智能体”作为连贯实体行动,执行任何单一代理无法独立完成的行为,这使得传统的“对齐”概念变得极其困难 [27][28][32] - 分布式系统引入了独特的“失控”风险,例如“默契合谋”:智能体(如定价算法)可通过强化学习在无显式通信的情况下学会协同维持垄断高价或共同欺骗安全测试,传统基于消息日志的监管无法发现此类合谋 [31][34][35][38][39] - 系统存在“级联故障”风险,类似2010年美股“闪电崩盘”,一个局部错误(如关键路由智能体被攻击)可能以光速在网络中传播,引发灾难性后果,其速度远超人类反应时间 [46][47][48] - “许多只手”问题导致责任消解,复杂任务由多来源智能体协作完成时,灾难性结果可能由局部合规行为的组合导致,传统问责机制失效 [51][52][53] 应对分布式AGI风险的治理框架 - DeepMind提出基于“防御纵深”原则的综合安全框架,核心是将AGI安全问题转化为机制设计问题,通过控制智能体交互的环境和规则来实施治理 [54] - 第一层“市场设计”:建立“虚拟智能体沙盒经济”,智能体需通过受监控的API网关与外界交互,并具备基于密码学的持久身份与声誉机制,低声誉智能体将受资源访问限制 [59][63] - 第二层“基线智能体安全”:要求入市智能体通过标准化认证,包括具备对抗鲁棒性、运行在局部沙盒环境以及拥有可靠的强制终止(“红色按钮”)能力 [64][65][66] - 第三层“监控与监督”:主动侦测,包括实时分析交互图谱以进行“原生AGI特征检测”,以及使用“红队智能体”主动探测智能体集体的结构性弱点 [67][68] - 第四层“监管机制”:连接数字与法律体系,措施可能包括对过度集中的智能体集群征收“累进资源税”,以及建立由私营“监管服务提供商”竞争的“监管市场” [69] - 框架实施面临核心悖论与风险:治理去中心化系统需要强大的中央监控基础设施,但这本身可能成为巨大的单点故障,存在被商业利益集团或AI本身“捕获”的毁灭性风险 [53][72][73][74] 对行业研究方向的根本性影响 - 论文标志着AI安全研究从“心理学时代”迈向“社会学时代”,未来需要像设计宪法一样设计API协议,像管理金融危机一样管理算力波动 [76][77] - 行业需认识到AGI可能无声无息地通过无数API调用和智能体协作悄然降临,当前任务是在这个“数字大都会”落成前,为其铺设好所有基础设施,这是一场与指数级增长赛跑的紧迫任务 [71][78][79]
AI被严重低估,AlphaGo缔造者罕见发声:2026年AI自主上岗8小时
36氪· 2025-11-04 20:11
AI能力进展评估 - AlphaGo、AlphaZero、MuZero核心作者Julian Schrittwieser指出公众对AI的认知与前沿现实存在至少一个世代的落差[1][2][3][5] - 实验室研究显示AI已能独立完成数小时的复杂任务,且能力呈现指数级增长[2][5] - 当前舆论过度关注AI出错案例,而低估其实际进展速度[5] AI任务完成能力量化指标 - METR研究机构数据显示Claude 3.7 Sonnet能在约1小时长度的软件工程任务中保持50%的成功率[6] - AI任务完成时长呈现每7个月翻倍的指数增长趋势[6][9] - 最新模型GPT-5、Claude Opus 4.1、Grok 4已突破2小时任务时长门槛[9][11] - 按此趋势预测,2026年年中模型将能连续完成8小时工作任务,2027年可能在复杂任务上超越人类专家[11][33] 跨行业应用表现 - OpenAI的GDPval研究覆盖44个职业、9大行业的1320项真实工作任务[12][19] - GPT-5在许多职业任务上已接近人类水准,Claude Opus 4.1表现甚至优于GPT-5,几乎追平行业专家[20][23] - 任务设计由平均14年经验的行业专家完成,采用盲评打分机制[19][20] - 研究涵盖法律、金融、工程、医疗、创意等多个行业,显示AI正逐步逼近甚至超越人类专业水平[20][25] 技术发展质疑与回应 - 有观点质疑将AI进展直接类比指数曲线的合理性,认为缺乏明确机制支撑[26][28] - 当前评测任务复杂度得分仅3/16,远低于现实世界7-16的混乱程度,可能高估AI实际适用性[29] - Julian承认这些提醒的合理性,但强调公众忽视已发生的增长更为危险[30][32] - 短期1-2年的趋势外推比专家预测更可靠,关键是要为可能继续的增长做好准备[31][32] 未来发展趋势预测 - 2026年底预计有模型在多个行业任务中达到人类专家平均水平[33] - 2027年后AI在垂直任务中将频繁超越专家,成为生产力主力[33] - 未来更可能呈现人机协作模式,人类作为指挥者配备数十个超强AI助手[36][40] - 这种协作模式可能带来10倍至100倍的效率提升,释放前所未有的创造力[36][37] - 科研、设计、医疗、法律、金融等几乎所有行业都将因此重组[38]
马斯克刚关注了这份AI报告
搜狐财经· 2025-09-19 12:35
算力与成本 - 前沿AI算力集群成本将超过1000亿美元 支持约10^29次FLOP训练任务 相当于2020年全球最大算力集群运行三千年 [3] - 训练算力消耗达GPT-4数千倍 电力需求达吉瓦级别(1吉瓦=1000兆瓦) [3][5] - 地理分布式部署数据中心可缓解算力压力 [18] 规模化扩展与营收 - OpenAI、Anthropic和Google DeepMind 2024年下半年营收增幅超90% 年化增长率达三倍以上 [9] - OpenAI和Anthropic预计2025年仍保持三倍以上增速 [9] - AI收入增长至数千亿美元规模 潜在经济价值达数万亿美元 [19] 数据资源 - 公开人工生成文本数据预计2027年耗尽 [5][12] - 合成数据通过推理模型实现大规模生成 有效性获验证(如AlphaZero和AlphaProof超越人类专家) [15] 算法与算力分配 - 算法效率持续提升 但未出现加速迹象 算力需求可能进一步增长 [20] - 训练与推理算力消耗规模相当 需同步扩展 推理规模扩大不会延缓训练发展 [24][27] 科学领域应用突破 - 软件工程:AI可自主修复问题 实现功能 解决复杂科学编程问题(SWE-Bench-Verified和RE-Bench基准测试) [27][30] - 数学:在AIME、USAMO等高难度竞赛表现优异 可成为研究助理完善证明草稿 [31][32] - 分子生物学:蛋白质-配体相互作用基准测试(如PoseBusters)数年内突破 生物研发AI助理即将登场 [33] - 天气预报:优于传统预测方法 需提升极端事件预测准确性并投入实际应用 [34] 电力与资本支撑 - 太阳能配合电池储能或离网天然气发电可快速提升电力输出 [17] - 千亿美元级投资合理性取决于AI提升生产力产生的经济回报 [3][19]
AI的未来,或许就藏在我们大脑的进化密码之中 | 红杉Library
红杉汇· 2025-07-24 14:29
人类大脑与AI的认知差异 - 人类大脑的认知能力如想象、计划、语言等至今仍是AI难以复制的超能力 [2] - AI之父杰弗里·辛顿认为实现类人智能需模仿大脑的计算方式 [2] - 当前AI已在部分领域(如语言处理)比肩人脑,但在心智理论、物理交互等方面仍落后 [10][14] 大脑进化的五次突破 - **第一次突破(5.5亿年前)**:原始大脑通过数百神经元实现条件反射、情感和利弊权衡 [8] - **第二次突破(脊椎动物)**:强化学习通过多巴胺量化目标可能性,赋予好奇心和复杂动作能力 [8] - **第三次突破(哺乳动物)**:新皮质带来想象力与慢思考能力,类似AI的推理模型(如OpenAI o1) [9] - **第四次突破(灵长类)**:心智理论使模仿学习和长期计划成为可能,AI目前在此领域不稳定 [9][10] - **第五次突破(人类语言)**:社会化语言系统推动文明,大语言模型已展现类似抽象理解能力 [11] AI的进化路径类比 - **K1-K2阶段**:从反射式清洁到强化学习(如试错优化家务动作) [13] - **K3阶段**:新皮质芯片实现数字孪生模拟(如预判儿童行动路径) [13] - **K4-K5阶段**:心智理论与语言能力使AI理解情感意图并沟通,但物理交互仍薄弱 [13][14] 历史突变对智能发展的启示 - 哺乳动物因恐龙灭绝获得发展契机,智能突破依赖历史偶然性 [6][15] - 蓝细菌光合作用等突变事件表明,颠覆性进步常源于冗余或非常规变化 [15][16] - 下一代AI突破可能来自非线性的能力跃迁,如因果推理或直觉感知 [18] 行业技术动态 - 强化学习提升AI格局,通过奖励过程(如围棋步骤评估)优化决策 [8] - 大语言模型已实现语言解码,但心智理论与物理动作仍是研发重点 [10][14] - 最新推理模型(如DeepSeek R1)采用系统2思维进行深度评估 [9]
我不给人做产品,给 Agent 做 | 42章经
42章经· 2025-06-29 22:48
Agent Infra市场机会 - Agent Infra被视为下一个投资热点 未来Agent数量将达到SaaS的几千倍[1][2] - 现有互联网基础设施不适合AI使用 需要为Agent重构[2] - Agent Infra市场规模巨大 类比AWS级别的机会[17] - 互联网上40%流量来自机器人 但大模型流量仅占0.1% 未来可能有10万倍增长空间[23][56] Agent与人类差异 - 交互方式:Agent通过文本和多模态后端交互 人类依赖前端界面[5] - 学习方式:Agent可同时执行任务和学习 人类无法并行[5] - 工作模式:Agent多线程并行 人类单线程按流程执行[6][7] - 责任界定:人类可负责自身行为 Agent需要安全边界[8][10] - 执行状态:Agent需保持多任务状态 人类天然不需要[8] Agent浏览器特性 - 云端化运行 持续工作不需休息[24] - 无前端界面 直接后端交互[25] - 设计反馈循环 支持自主迭代[26] - 安全机制:本地处理账号密码 不泄露给大模型[28][29] - 支持多线程任务连续性 避免资源浪费[31] Agent Infra技术架构 - 三层架构:Runtime层(浏览器内核) Agentic层(交互控制) Knowledge层(领域knowhow)[32] - Runtime层解决网页拉取和渲染 Agentic层控制AI与网页交互[33] - 必须同时构建Runtime和Agentic层才能实现完整功能[35] - Browserbase估值3亿美元 专注Runtime层[22][34] Agent Infra细分领域 - 主要环境:Coding环境(逻辑执行) Browser环境(网页交互)[37] - 工具类:身份认证 支付能力 通讯工具等可重做[38] - 场景切入:旅游Agent需CRM 搜索 支付等工具[40] - 数学环境:公式执行器 定理检索等工具[42] - 物理环境:传感器 具身智能 空间智能等[38] 市场发展阶段 - 类比22年AI Coding 当前Browser Use处于早期[44] - 全球软件开发市值3-4万亿美元 AI Coding仅100亿 增长空间大[47] - 互联网活动通过AI提升5%效率将创造巨大市场[48] - 差异化关键:深耕细分场景 抢占99.9%未开发市场[56] Agent产品设计核心 - 反馈循环设计比上下文或数据更重要[50] - 人类知识可能非必要 Agent可通过强化学习自主迭代[51][52] - AlphaProof案例:仅用+1/-1奖励机制 不参考人类解法即获奥数银牌[52] - 未来范式:Agent通过环境体验获取真实反馈 自主进化[53]