Workflow
Pre - training
icon
搜索文档
Ilya Sutskever 重磅3万字访谈:AI告别规模化时代,回归“研究时代”的本质
创业邦· 2025-11-27 11:51
AI行业发展阶段 - 行业将AI发展划分为两个阶段:2012-2020年为"研究时代",2020-2025年为"规模化时代",当前正重新回归拥有超级算力的"研究时代"[4][37][38][39][40] - 规模化时代由GPT-3的出现主导,行业形成通过堆叠更多数据和算力即可使智能涌现的线性思维共识[7][38] - 预训练数据的红利终将耗尽,数据是有限的,单纯将规模扩大100倍后,量变可能不再带来质变,行业突破将依赖于寻找比单纯预训练更高效的新学习"配方"[7][39][40] 当前AI模型的局限性 - 当前模型类似于练习了一万小时竞赛题的学生,虽能解题但缺乏真正的专家直觉与"特质因素",泛化能力远不如人类[4][10][25] - 模型在基准测试中表现出色,但在解决现实世界复杂问题时(如修复代码错误)可能陷入"修复一个错误、引入另一个错误"的死循环,显示出评估性能与实际经济影响的脱节[10][19][20][22] - 当前强化学习训练使模型过于迎合评估标准,却未赋予其真正的推理和自我修正能力,其学习覆盖呈S形曲线,与预训练的幂律关系不同[10][21][50] 未来AI发展方向 - 未来AI应借鉴人类进化赋予的高效"先验知识"和"价值函数",人类情绪系统本质上是一个高效的价值函数,是智能高效运作的基石而非理性对立面[13][33][34][35] - 构建类似人类的内部价值函数机制是关键,使AI能在行动前预判路径优劣,实现更高效的学习,而非仅预测下一个token[13][14][34] - 未来AI应具备持续学习能力,而非静态成品,人类通过持续学习适应新工作,而非依赖预训练式的通用人工智能[44][45][61][62] SSI的战略与超级智能路径 - SSI筹集了30亿美元,但拒绝参与商业"老鼠赛跑",不发布任何中间产品,将所有算力集中于直接构建安全的超级智能这一单一目标[4][14][15][54][56][57] - 公司认为市场竞争迫使企业在研究资源和工程落地间妥协,其战略是隔绝商业干扰,专注于研究,待准备就绪后再出现[4][14][15][57] - 公司计划构建的超级智能需具备"关怀有感知生命"的底层属性,这种基于同理心的对齐可能比僵硬的规则更具鲁棒性,因AI本身最终也将成为有感知的存在[4][15][70][71] AI的经济影响与未来生态 - 一旦AI突破持续学习瓶颈,经济将迎来爆发式增长,广泛部署将产生强大经济驱动力,AI将渗透到整个经济体系[18][64][66] - 未来AI市场不会被单一巨头垄断,竞争将导致高度专业化的生态,出现无数占据不同生态位的AI公司,如同生物进化[4][16][64] - 人类角色可能通过"神经连接"与AI实现部分融合,以在超级智能时代保持平衡,实现理解的整体性传输[16][75] 研究哲学与算力需求 - 伟大的研究源于对大脑机制的正确直觉,追求简洁、优雅与美感,丑陋在研究中没有立足之地[4][16] - 研究时代仍需一定量计算资源,但远非绝对必要使用史上最大算力,AlexNet使用2块GPU,Transformer论文实验未超过64块GPU,相当于今天约2块GPU[52][53] - SSI用于研究的计算量相对充足,因公司资金专注于研究而非推理或产品工程,且若进行不同范式的研究,未必需要绝对最大规模来证明其可行性[54][55]
Ilya两万字最新访谈:人类的情感并非累赘,而是 AI 缺失的“终极算法”
36氪· 2025-11-26 12:26
当前AI模型的局限性 - 模型在评估测试中得分极高,但在实际应用中常犯低级错误,例如修复代码Bug时会引入新Bug,显示出评估性能与现实世界性能的脱节 [18] - 这种脱节源于强化学习被过度优化用于“刷榜”,导致模型像只会做题的竞赛选手,缺乏真正的判断力和泛化能力 [4][19] - 模型更像一个练习了10,000小时的竞技编程选手,精通解题套路,但泛化能力远不如只练习100小时却拥有“灵性”的学生 [21][22] 人工智能发展的范式转移 - 2012年至2020年是人工智能的研究时代,而2020年至2025年则是扩展时代,其特征是遵循预训练的扩展配方进行大规模投入 [33] - 当前单纯扩大模型规模的边际效应递减,行业需要从“扩展时代”回归到“研究时代”,寻找新的数据配方和训练方法 [33][34] - 预训练数据的有限性意味着依赖现有扩展配方将面临瓶颈,未来进展将更依赖于研究突破而非单纯算力堆砌 [33] 人类智能的关键优势与AI的缺失 - 人类通过极少数据(如10小时学会开车)就能掌握复杂技能,其核心优势在于强大的内部“价值函数”,即直觉和情感 [5][6] - 价值函数使人类能在没有明确外部奖励时进行自我纠正,而当前AI缺乏这种内在、鲁棒的价值评估机制 [6][28] - 人类在语言、数学等新领域的学习能力表明,其高效学习并非完全依赖进化先验,而是拥有更根本的、优越的机器学习算法 [40][41] 超级智能的定义与实现路径 - 真正的超级智能被定义为一个拥有极高样本效率的“超级学习者”,能够像人类一样通过少量接触就掌握任何工作 [3][57] - 实现路径可能并非构建一个知晓一切的静态系统,而是部署能够进行“持续学习”并掌握经济中所有工作的智能体实例 [57][60] - 广泛部署此类持续学习智能体可能导致快速的经济增长,其影响将被强烈感受到,但具体时间线和形态难以预测 [17][62] 安全超级智能(SSI)的战略与行业影响 - 公司战略从倾向于“直通超级智能”的秘密研发,转变为倾向于逐步发布,以展示AI的强大力量,促使公众、政府和竞争对手真正重视安全问题 [7][52] - 逐步发布有助于形成“安全军备竞赛”的良性合作,前沿公司预计将在安全合作中扮演重要角色,例如OpenAI和Anthropic已迈出合作步伐 [52][65] - 公司的技术方法专注于解决可靠的泛化问题,目标是构建稳健对齐、能“关爱有感知生命”的AI,这被视为一种可能的技术趋同方向 [66][78] 未来研究的方向与挑战 - 未来研究的关键在于提升模型的泛化能力和样本效率,这比单纯扩展算力更为根本 [35][36] - 价值函数被认为能让强化学习更高效,是未来可能的重要研究方向,但其具体实现和与情感的关联仍是待解之谜 [29][31] - 研究时代需要回归对想法的探索,而非单纯执行现有配方,算力是工具但并非唯一瓶颈,想法的质量将重新成为关键 [45][49] 超级智能的长期影响与均衡 - 超级智能的广泛部署可能带来快速的经济增长,但也是一个不稳定的情况,其力量需要受到某种限制或协议约束 [62][68] - 长期均衡的一种可能解决方案是人与AI通过脑机接口等方式深度融合,使人能完全理解并参与AI的决策过程 [72] - 行业最终对齐战略可能趋同于构建“关爱有感知生命”的AI,随着AI能力增强,公司和政府的行为模式将发生巨大改变 [70][78]
Ilya罕见发声:大模型「大力出奇迹」到头了
量子位· 2025-11-26 08:55
当前AI发展范式转变 - AI发展正从"规模化时代"重新转向"科研时代",主流"预训练+Scaling"路线已明显遇到瓶颈[1][3] - 行业过去几年普遍遵循"继续扩大"策略,但仅靠规模扩大100倍难以带来根本性转折[56][57] - 预训练最大优势在于数据量庞大且无需纠结数据选择,但最终会遇到数据有限的硬上限[33][55] 模型能力与泛化问题 - 当前模型在评测表现与经济实际影响之间存在巨大落差,模型泛化能力远不如人类[17][21][61] - 模型会出现反复犯同样错误的情况,如编程中在两个bug间来回切换[17] - 人类在语言、数学、编程等近期出现的能力上仍比模型更强,表明人类拥有更基础的通用学习能力[68][69] 训练方法演进 - 行业正从预训练规模化转向强化学习规模化,RL消耗的计算量可能已超过预训练[58] - 价值函数能让强化学习更高效,但当前强化学习训练方法简单且资源利用效率低[42][58] - 预训练数据包含人类各种活动经验,是"人类把世界投射到文本上的那一层"[33] 行业竞争格局 - 规模化时代导致公司数量远超创意数量,所有公司做同一件事挤压创新空间[76] - 真正用于纯研究的资源比外界想象少,大公司算力预算主要用于推理服务[81][84] - 未来可能出现多家公司同时拥有超级智能,技术路径和战略最终会趋同[132][136] 未来发展方向 - 关键突破在于解决模型泛化能力不足的核心问题,而非单纯扩大规模[61] - 持续学习能力比静态知识储备更重要,超级智能应是能够学习任何工作的"可成长心智"[94][95] - 构建"关爱有感知生命的AI"可能比只关心人类的AI更容易实现,因为AI本身也将具备感知能力[106][107]
MiniMax 技术闭门会分享:长上下文是 Agent 的 Game Changer
Founder Park· 2025-07-19 02:24
MiniMax M1技术研讨会核心观点 - MiniMax举办全球M1技术研讨会 聚焦模型架构创新、RL训练、长上下文应用等前沿领域 邀请全球顶尖学者及企业嘉宾参与[1][2] - 会议探讨RL能力边界、预训练数据价值、视觉推理瓶颈等关键技术挑战 并展示混合注意力架构的实践突破[6][8][11][19] - 长上下文窗口被视为Agent领域的game-changer 可解锁法律合规分析、客户洞察等企业级应用场景[15][16][17] 强化学习(RL)能力边界 - RL在有限上下文长度下能赋予模型新能力 通过改变输出分布使原需10W token解决的问题压缩至10K token[6] - pass@k指标有效性取决于定义方式 无限次尝试通过率反映基础能力 特定次数通过率反映实用性能[7] - Reward建模是RL扩展核心瓶颈 非结果导向的奖励信号(如主观感受)缺乏有效建模方法[7][13] 预训练数据价值 - 预训练本质是RL特例 当前最大价值在于接触多样化数据分布 弥补RL训练数据分布狭窄缺陷[8] - 仅数学/代码RL训练会加剧幻觉 需构建WebInstruct-verified等通用数据集 已扩展至50万量级[10] - mid-training阶段引入RL成为新范式 通过检索预训练数据获取多样化RL数据[10] 视觉推理突破方向 - 现有视觉编码器处理高分辨率图像能力弱 需依赖zoom-in等增强感知的权宜方案[11] - 根本瓶颈在于像素编码与潜在空间推理 需发展latent reasoning技术应对空间思考需求[12] - 图像生成技术(如几何辅助线)代表更高级的"用图像思考"方式 但尚未有成功案例[11] RL前沿挑战领域 - 超越结果评估的Reward建模将极大扩展RL应用场景[13] - 多智能体系统受限于基础设施 需构建AI模型交互训练环境[13] - AI自动化研究(模型自我训练)与AGI发展密切相关[13] 长上下文应用价值 - 1M token窗口可一次性处理完整案件历史 解决法律行业分块处理遗漏关键细节问题[17] - 企业级应用集中在法律合规分析(合同审查)、客户研究洞察(问卷总结)、收入报告自动化三大场景[17][18] - 技术支持与知识管理领域需求显著 可提升工单处理、内容更新等流程效率[18] 混合注意力架构优势 - 混合架构结合线性注意力效率与Full Attention灵活性 成为主流设计方向[19] - MiniMax Text-01验证混合模型潜力 推理速度较传统模型提升一个量级(10万token请求响应从1分钟降至4-5秒)[20][22] - 需构建混合分配器、批处理重叠等技术解决GPU利用率不平衡问题[21][22] 混合架构实践洞察 - RL训练曾因线性注意力不稳定性停滞 修复后证明混合模型可通过适当算力匹配Full Attention性能[23] - 评估应基于固定计算预算下的性能 而非固定输出长度 更反映真实效率[24] - 工程挑战包括计算图优化部署困难 需开发统一抽象层支持缓存复用[21] System2推理本质 - 高级推理能力源于计算资源扩展 体现为自动化Prompt Engineering替代人工分步指令[25] - 写作等任务中模型自动拆解专业步骤 通过延长推理路径实现"专家式思考"[25] - 本质是计算预算高效利用与问题自动深化的结合[26]