Workflow
Value Function
icon
搜索文档
Ilya Sutskever 重磅3万字访谈:AI告别规模化时代,回归“研究时代”的本质
创业邦· 2025-11-27 11:51
AI行业发展阶段 - 行业将AI发展划分为两个阶段:2012-2020年为"研究时代",2020-2025年为"规模化时代",当前正重新回归拥有超级算力的"研究时代"[4][37][38][39][40] - 规模化时代由GPT-3的出现主导,行业形成通过堆叠更多数据和算力即可使智能涌现的线性思维共识[7][38] - 预训练数据的红利终将耗尽,数据是有限的,单纯将规模扩大100倍后,量变可能不再带来质变,行业突破将依赖于寻找比单纯预训练更高效的新学习"配方"[7][39][40] 当前AI模型的局限性 - 当前模型类似于练习了一万小时竞赛题的学生,虽能解题但缺乏真正的专家直觉与"特质因素",泛化能力远不如人类[4][10][25] - 模型在基准测试中表现出色,但在解决现实世界复杂问题时(如修复代码错误)可能陷入"修复一个错误、引入另一个错误"的死循环,显示出评估性能与实际经济影响的脱节[10][19][20][22] - 当前强化学习训练使模型过于迎合评估标准,却未赋予其真正的推理和自我修正能力,其学习覆盖呈S形曲线,与预训练的幂律关系不同[10][21][50] 未来AI发展方向 - 未来AI应借鉴人类进化赋予的高效"先验知识"和"价值函数",人类情绪系统本质上是一个高效的价值函数,是智能高效运作的基石而非理性对立面[13][33][34][35] - 构建类似人类的内部价值函数机制是关键,使AI能在行动前预判路径优劣,实现更高效的学习,而非仅预测下一个token[13][14][34] - 未来AI应具备持续学习能力,而非静态成品,人类通过持续学习适应新工作,而非依赖预训练式的通用人工智能[44][45][61][62] SSI的战略与超级智能路径 - SSI筹集了30亿美元,但拒绝参与商业"老鼠赛跑",不发布任何中间产品,将所有算力集中于直接构建安全的超级智能这一单一目标[4][14][15][54][56][57] - 公司认为市场竞争迫使企业在研究资源和工程落地间妥协,其战略是隔绝商业干扰,专注于研究,待准备就绪后再出现[4][14][15][57] - 公司计划构建的超级智能需具备"关怀有感知生命"的底层属性,这种基于同理心的对齐可能比僵硬的规则更具鲁棒性,因AI本身最终也将成为有感知的存在[4][15][70][71] AI的经济影响与未来生态 - 一旦AI突破持续学习瓶颈,经济将迎来爆发式增长,广泛部署将产生强大经济驱动力,AI将渗透到整个经济体系[18][64][66] - 未来AI市场不会被单一巨头垄断,竞争将导致高度专业化的生态,出现无数占据不同生态位的AI公司,如同生物进化[4][16][64] - 人类角色可能通过"神经连接"与AI实现部分融合,以在超级智能时代保持平衡,实现理解的整体性传输[16][75] 研究哲学与算力需求 - 伟大的研究源于对大脑机制的正确直觉,追求简洁、优雅与美感,丑陋在研究中没有立足之地[4][16] - 研究时代仍需一定量计算资源,但远非绝对必要使用史上最大算力,AlexNet使用2块GPU,Transformer论文实验未超过64块GPU,相当于今天约2块GPU[52][53] - SSI用于研究的计算量相对充足,因公司资金专注于研究而非推理或产品工程,且若进行不同范式的研究,未必需要绝对最大规模来证明其可行性[54][55]
AI 顶尖科学家、前 OpenAI 联创 Ilya Sutskever 的 18 个最新思考
Founder Park· 2025-11-26 21:06
AI行业发展阶段与范式转变 - Scaling(扩展)时代已结束,单纯将规模扩大100倍不会带来模型能力的质变[4][8] - 行业从2020年至2025年是扩展时代,而2012年至2020年是研究时代[9] - 行业正重新进入研究时代,特征是尝试多种方法并观察有趣现象的发生[11] - 当前真正瓶颈是模型泛化能力远不如人类,而非算力[4][13] 技术研发方向与核心挑战 - 预训练数据终将耗尽,行业正在探索魔改版预训练用于强化学习等其他方法[7] - 模型能力呈"锯齿状",评测表现与真实世界表现存在巨大断层[27][30] - 泛化能力包含两个子问题:样本效率低以及难以教会模型所需技能[25] - 人类样本效率极高,可能源于进化赋予的核心先验知识或更好的机器学习算法[26] 价值函数与情感的作用 - "情感"作为一种价值函数未来一定会被广泛使用,简单但能在广泛情境下发挥作用[4][18] - 价值函数能让强化学习更高效,无需等待任务完成即可提供实时反馈[16][17] - 人类情感对于生存和有效行动至关重要,类比为大模型中的价值函数[15] - 价值函数的使用界限开始模糊,可能是新配方的关键组成部分[10] AI公司竞争格局与商业模式 - 沿用"盲目扩大规模"路线的公司可能获得惊人收入但不一定有利润[4] - 未来竞争将导致价格下降,公司需在同质化竞争中寻找差异化[34] - 可能出现专业化竞争格局,不同AI公司专注不同复杂领域[34] - 大规模部署AI可能带来经济飞速增长,但增长速度难以预料[35] 超级智能发展与对齐目标 - 未来5-20年可能出现具备人类级别学习能力并能走向超智能的系统[44] - 最终对齐目标是让超级智能真正关心和感知所有生命[4][43] - 构建关爱感知生命的AI比只关爱人类的AI更容易,因为未来大多数感知体将是AI自身[43] - 渐进式部署AI比纯粹思考更重要,让世界感受AI能力是关键[4][39] 研究方法与公司战略 - 好的研究品味需要美感、简洁、优雅以及从大脑汲取的正确灵感[37][38] - SSI公司专注于研究,技术路线与众不同且全力以赴[57][58] - 公司认为分阶段发布模型至关重要,部署过程本身就是试错和学习时期[53][56] - 持续学习非常重要,AI应像绝顶聪明的15岁少年那样充满干劲地学习[56]
房间里的大象:Ilya挑明AI的“高分低能”,呼吁要从研究到scale到再重回研究时代|Jinqiu Select
锦秋集· 2025-11-26 15:01
文章核心观点 - 当前AI模型在评估中表现优异但经济影响滞后,揭示了过度拟合评估而非真实世界需求的根本问题[14][17][18] - 行业需要从依赖确定性的“规模扩展”范式,转向以解决泛化能力为核心的新“研究时代”[6][14][57] - 真正的超级智能形态应是一个具备强大持续学习能力的系统,而非一个预训练的“成品”[96][97][98] 对AI范式的批判 - 模型存在行为波动性,上一秒能完成复杂任务,下一秒却连续犯低级错误[2][19][20] - 矛盾在于模型评估得分高但现实经济效果完全跟不上,评估表现与实际世界表现脱节[14][17][18] - 问题的核心可能在于强化学习训练使模型变得“过于专注和狭隘”,导致基础任务表现迟钝[21][22] - 真正的“奖励黑客”是过于关注评估指标的研究人员,而非模型本身[14][24] 从规模时代重返研究时代 - AI发展可分为两个阶段:2012-2020年为研究时代,2020-2025年为规模扩展时代,现在需重返研究时代[14][57] - 规模扩展配方(将计算力和数据塞进大型神经网络)提供了确定性收益,但改变了世界的是创新研究而非更大模型[6][14] - 公司偏好规模扩展因其资源投入风险低,而研究则充满不确定性[55][56] - 当前计算力已非常充足,行业再次回到“研究时代”,但此次拥有更大的计算资源[57][59] 人类实践中的经验启示 - 人类在15岁时所见数据量极少,但理解更深且不会犯AI那样的错误,表明人类学习样本效率极高[40][66] - 人类学习不依赖明确奖励体系,而是通过讨论、展示等互动方式自然习得[66] - 情感可能是一种被忽视的“价值函数”,能帮助人类快速判断行为好坏,对决策至关重要[43][45][51] - 进化赋予人类强大的先验能力(如视觉、运动),但人类在现代技能(语言、编程)上的快速学习能力表明其学习系统本身非常强大[69][70][72] 超级智能的形态与路径 - 超级智能不应是预训练完成的“全能大脑”,而应是一个可以学会做经济中每项工作的优秀学习算法[14][97][98] - 超智能系统更可能以“持续学习智能体”的形式被部署到经济中,通过实践学习积累技能[96][97][98] - 广泛部署可能引发快速经济增长,但具体速度受各国规则差异影响,存在不确定性[98][99][100] - 对超智能发展的时间预测在5到20年之间[113] 研究的方法与审美 - 研究需要“自上而下的信念”,即在实验与预期矛盾时支撑研究者的核心判断[14][123] - 优秀的研究品味源于对AI应有状态的美学判断,追求简洁、优雅且正确受大脑启发的理念[122][123] - 想法本身并不廉价,研究的瓶颈包括算力、工程能力以及将想法成功执行的困难[79][80]
Ilya罕见发声:大模型“大力出奇迹”到头了
36氪· 2025-11-26 14:54
AI发展范式转变 - 当前主流的“预训练+规模化”路线已遇到瓶颈,行业需要重新关注研究范式本身的重构[1] - 预训练范式最大的优势在于数据量极其庞大且无需纠结数据选择,但最终会遇到数据有限的硬上限[30][51] - 规模化时代(2020-2025)正在转向新的科研时代,但此次拥有巨型计算机作为工具[52][53] 模型泛化能力问题 - 当前模型在评测表现与经济实际影响之间存在巨大落差,模型泛化能力远不如人类[14][17][56] - 模型需要比人类多得多的数据才能学会一项能力,且让模型理解任务目标比人类困难得多[58] - 人类在语言、数学、编程等近期才出现的能力上依然表现稳健,这可能源于人类学习机制本身的高效率[62][63] 训练方法效率 - 强化学习天生消耗大量算力,需要极长迭代过程且每次迭代学习增益很小[54] - 价值函数能让强化学习更高效,但当前强化学习训练方法简单,缺乏合适的机器学习类比[38][55] - 自博弈提供了一种仅依靠计算而非数据创建模型的方法,但传统形式适用范围狭窄[146] 行业竞争格局 - 规模化时代导致公司数量远超创意数量,所有公司都在做同一件事[70] - 真正用于纯研究的资源扣除产品推理服务后并没有想象中高,SSI资金绝大部分用于研究[77][78] - 未来可能出现多家公司同时训练类人学习智能体,在不同分支上展开搜索的局面[139][140] 技术发展方向 - 未来的超级智能更像是能够学习完成所有工作的“可成长心智”,而非掌握所有技能的成熟系统[91][92] - 关键问题是构建可靠的概括机制,这是当前最核心最棘手的问题[56][115] - 缺乏多样性主要来自预训练,差异更多出现在强化学习和后训练阶段[145] 经济影响预期 - AI将渗透进整个经济体系,带来非常强的经济动力,冲击会非常明显[12] - 广泛部署的AI可能引发经济快速增长,不同国家因监管尺度不同会出现增长差异[96][97] - 停滞情形下各公司状况可能非常相似,但仍可能获得惊人收入,只是利润不高[133]
Ilya 离开 OpenAI 后的首期播客,久违地被人类智慧安慰到了 | 42章经
42章经· 2025-11-26 13:14
行业时代划分 - 2012至2020年为研究时代,行业尝试各种AI想法[5] - 2020至2025年为规模扩展时代,GPT-3出现后规模扩展成为共识并吸收所有资源[5] - 2025年开始行业重新进入研究时代,预训练的规模扩展法则因数据有限而失效,竞争焦点从GPU数量转向新算法发现[5] SSI公司战略 - 公司采用“Straight shot”战略,不发布中间产品,直接研发超级智能以避免市场竞争带来的妥协[3] - 对超级智能的定义更倾向于“超级学习者”,发布时类似“天才少年”,随后在社会各岗位快速实习进步[4] - 公司融资30亿美元,资金将全部投入纯粹研究实验,相较于大厂资金需用于服务用户推理和庞大团队,在研究层面具备竞争力[4] 技术研究方向 - 预训练红利结束后,价值函数成为下一步重点,旨在让模型具备直觉性中途判断能力以提升学习效率[6] - 坚信深度学习能力,只要信号存在深度学习就能学到[7] - 强化学习可能使模型变笨,因其在撤销预训练阶段形成的广泛概念印记,经过重度对齐的模型往往更缺乏创造力[7][8] - 行业传闻显示强化学习算力消耗已超过预训练,因需进行长推演且每次获得的有效学习信号很少[8] 智能与对齐的终极挑战 - 情绪被视为人类高效的压缩算法和终极价值函数,能帮助快速决策,而AI缺乏此类内在罗盘[10][11] - 实现超级智能对齐的关键可能是硬编码对有感生命的关爱,同理心是理解世界的高效捷径可能自然涌现[13][14][17][18] - 基于计算效率,复用理解自身痛苦的代码来模拟他人痛苦是最省资源的建模方式[17] - 进化能将“社会地位”等高级价值观对齐给人类,为将“关爱生命”硬编码进AI提供了可能性[19] 市场格局与行业影响 - 未来市场不会由单一公司垄断超级智能,竞争催生专业化,特定领域的高壁垒将形成类似自然界的生态平衡[22][23] - 行业流行词如“AGI”和“Scaling”会反向塑造研究方向,需警惕其可能限制探索其他可能性[20][21]
Ilya两万字最新访谈:人类的情感并非累赘,而是 AI 缺失的“终极算法”
36氪· 2025-11-26 12:26
当前AI模型的局限性 - 模型在评估测试中得分极高,但在实际应用中常犯低级错误,例如修复代码Bug时会引入新Bug,显示出评估性能与现实世界性能的脱节 [18] - 这种脱节源于强化学习被过度优化用于“刷榜”,导致模型像只会做题的竞赛选手,缺乏真正的判断力和泛化能力 [4][19] - 模型更像一个练习了10,000小时的竞技编程选手,精通解题套路,但泛化能力远不如只练习100小时却拥有“灵性”的学生 [21][22] 人工智能发展的范式转移 - 2012年至2020年是人工智能的研究时代,而2020年至2025年则是扩展时代,其特征是遵循预训练的扩展配方进行大规模投入 [33] - 当前单纯扩大模型规模的边际效应递减,行业需要从“扩展时代”回归到“研究时代”,寻找新的数据配方和训练方法 [33][34] - 预训练数据的有限性意味着依赖现有扩展配方将面临瓶颈,未来进展将更依赖于研究突破而非单纯算力堆砌 [33] 人类智能的关键优势与AI的缺失 - 人类通过极少数据(如10小时学会开车)就能掌握复杂技能,其核心优势在于强大的内部“价值函数”,即直觉和情感 [5][6] - 价值函数使人类能在没有明确外部奖励时进行自我纠正,而当前AI缺乏这种内在、鲁棒的价值评估机制 [6][28] - 人类在语言、数学等新领域的学习能力表明,其高效学习并非完全依赖进化先验,而是拥有更根本的、优越的机器学习算法 [40][41] 超级智能的定义与实现路径 - 真正的超级智能被定义为一个拥有极高样本效率的“超级学习者”,能够像人类一样通过少量接触就掌握任何工作 [3][57] - 实现路径可能并非构建一个知晓一切的静态系统,而是部署能够进行“持续学习”并掌握经济中所有工作的智能体实例 [57][60] - 广泛部署此类持续学习智能体可能导致快速的经济增长,其影响将被强烈感受到,但具体时间线和形态难以预测 [17][62] 安全超级智能(SSI)的战略与行业影响 - 公司战略从倾向于“直通超级智能”的秘密研发,转变为倾向于逐步发布,以展示AI的强大力量,促使公众、政府和竞争对手真正重视安全问题 [7][52] - 逐步发布有助于形成“安全军备竞赛”的良性合作,前沿公司预计将在安全合作中扮演重要角色,例如OpenAI和Anthropic已迈出合作步伐 [52][65] - 公司的技术方法专注于解决可靠的泛化问题,目标是构建稳健对齐、能“关爱有感知生命”的AI,这被视为一种可能的技术趋同方向 [66][78] 未来研究的方向与挑战 - 未来研究的关键在于提升模型的泛化能力和样本效率,这比单纯扩展算力更为根本 [35][36] - 价值函数被认为能让强化学习更高效,是未来可能的重要研究方向,但其具体实现和与情感的关联仍是待解之谜 [29][31] - 研究时代需要回归对想法的探索,而非单纯执行现有配方,算力是工具但并非唯一瓶颈,想法的质量将重新成为关键 [45][49] 超级智能的长期影响与均衡 - 超级智能的广泛部署可能带来快速的经济增长,但也是一个不稳定的情况,其力量需要受到某种限制或协议约束 [62][68] - 长期均衡的一种可能解决方案是人与AI通过脑机接口等方式深度融合,使人能完全理解并参与AI的决策过程 [72] - 行业最终对齐战略可能趋同于构建“关爱有感知生命”的AI,随着AI能力增强,公司和政府的行为模式将发生巨大改变 [70][78]