价值函数
搜索文档
llya 发言评述
小熊跑的快· 2025-12-02 15:12
AI行业发展阶段划分 - AI发展正从以算力规模化为核心的时代回归到以基础研究为驱动的时代[1] - 2012-2020年为研究时代:以AlexNet、ResNet、Transformer等新架构突破为特征[2] - 2020-2025年为规模时代:GPT-3和Scaling Laws的出现使行业聚焦算力、数据和模型规模的扩大[2] - 2025年后为回归研究时代:规模扩张的边际效益递减,需要新的基础研究突破[2] 当前技术瓶颈与研究方向 - 算力目前相对充裕,而高质量训练数据成为主要限制因素[2] - 单纯扩大模型规模的策略正在失效,需要重新思考研究方法论[2] - 强化学习和基于打分的训练方法可能产生缺乏泛化能力的"答题机器"[3] - 价值函数在决策指引中具有重要作用,人类情绪被视为有效的价值函数系统[3] 新兴AI发展理念 - 提出研发具备自我学习成长能力的"新智能"系统,类比十五岁少年的学习能力[3] - SSI公司专注于研究和对齐技术,唯一目标是研发安全的超级智能[4] - SSI致力于打造具备人类好奇心和长远规划能力的AI系统[4] - 公司采取"研究优先"路线,暂不考虑商业化和盈利[4] 行业需求与市场前景 - 文本领域大模型发展遇到瓶颈,与训练数据耗尽有关[4] - 训练算力需求占比不足50%,推理需求占据主要部分[4] - Google云纯推理API收入预计达30亿美元[4] - AI硬件租赁市场规模达90亿美元,API收入预计翻倍增长[4] - IaaS租赁市场预期保持40-46%的高速增长[4] - 推理需求将成为未来AI计算的主要增长动力[4]
Ilya辟谣Scaling Law终结论
AI前线· 2025-11-30 13:33
AI发展范式转变 - 单纯依靠算力规模扩张的"大力出奇迹"时代可能已经结束,即使资源增加100倍也未必能带来AI能力的质变[2] - AI发展正从"规模扩张时代"重新回到"研究驱动的时代",但这次研究建立在前期积累的超大算力基础之上[16][42][45] - 当前AI进展的瓶颈已从"算力"转向"想法本身",行业内公司数量远多于真正新颖的思路[16][60] 当前AI模型的局限性 - 现有大模型出现明显断层:在基准测试中成绩惊人,但在简单真实任务中经常翻车,智能表现脆弱[16][17] - 模型泛化能力远逊于人类,既体现在需要海量数据、样本效率极低,也体现在教授复杂任务非常困难[16][47] - 强化学习可能让模型变得过于单一目标驱动,过度聚焦评测分数反而削弱了向真实应用场景泛化的能力[16][19] 未来AI发展方向 - 实现通用人工智能可能还需要更多突破,持续学习和样本效率是常被提及的两个方向[5] - 价值函数被认为是重要发展方向,能让AI更高效地学习,预计未来会广泛应用[37][46] - 人类学习机制为AI发展提供重要启示,人类拥有强大的内部价值函数和鲁棒的学习机制[55][56] AI经济影响与部署策略 - 即使没有进一步研究突破,当前技术范式也足以产生巨大的经济和社会影响[5] - 最强大的AI部署关键在于能够把在整个经济体系中各个实例的学习结果合并起来,这种集体知识汇聚可能触发智能爆炸[16][81] - AI部署应该采用渐进式方式,让社会逐步接触和适应,而不是一次性推出完全成熟的超级智能[72][73][85] 行业竞争格局 - 行业内专家共识远多于分歧,普遍认为通用人工智能大概率会在20年内实现,而非需要100多年[5][111] - 当前AI行业公司数量多于真正新颖的思路,竞争格局呈现同质化趋势[60][113] - 随着AI能力提升,不同公司可能会在技术路径和对齐策略上逐渐收敛[115][116] 研究资源分配 - 用于研究的算力需求相对可控,AlexNet仅用2块GPU,Transformer初期实验使用8-64块GPU[61] - 大公司算力被分割到不同模态和产品线,真正用于纯研究的算力差距并不像表面数字那么大[63][66] - 研究时代需要的是思维多样性而非简单算力堆砌,思维多样性比同质化复制更重要[124]
AI大神伊利亚宣告 Scaling时代终结!断言AGI的概念被误导
混沌学园· 2025-11-28 20:35
AI发展范式转变 - AI发展正从"扩展时代"回归"研究时代",仅靠堆砌算力已无法实现突破[2][18] - 当前算力规模已达到前所未有的水平,但再投入100倍资源也难以带来质变[18] - 行业将重新进入探索状态,需要尝试多种新方法并观察有趣现象[20] AI技术瓶颈与突破方向 - 当前顶尖AI存在严重的"评估表现"与"现实应用"脱节问题,核心在于模型泛化能力远不如人类[3][21] - 人类情绪相当于AI的"价值函数",能为决策提供即时反馈,这是AI缺失的关键能力[3][9] - 价值函数能让强化学习更高效,通过预训练让模型获得"情绪驱动的决策能力"是重要方向[9][21] - 人类拥有比AI更好的学习算法,在样本效率和持续学习上具有明显优势[3][27] 研究公司战略定位 - SSI定位为纯粹的"研究公司",不参与算力竞赛,专注于突破性研究[3][35] - 公司已筹集30亿美元资金,专注于研究而非产品开发,盈利模式将随研究推进自然显现[33][35] - 公司计划在"直奔超智能"与"渐进部署"间寻找平衡点,避免日常市场竞争干扰[36] 超级智能定义与发展路径 - 超级智能被定义为"能够学会做所有事"的成长型心智,而非掌握所有技能的成品[42][43] - 超级智能会像15岁少年一样在实践中学习,通过部署实现持续成长[41][44] - 广泛部署可能引发快速经济增长,实现"普遍高收入"的短期效果[46][57] AI治理与安全理念 - 主张通过"渐进式部署和公开展示"让人们感受AI能力与风险[3][49] - 建议构建关心所有"有情生命"的AI,认为这比只关心人类更根本且更简单[3][51] - 当AI变得更强大时,公司和政府会更有意愿采取安全措施,行业合作将加强[50] 技术发展趋势预测 - 预训练导致各公司模型同质化,强化学习才是产生差异化的路径[4] - 人类神经元可能比想象中进行了更多计算,这可能是AI尚未掌握的优势[30] - 研究进展受想法和实现能力双重制约,当前算力已足够支撑想法验证[32]
离开OpenAI后,苏茨克维1.5小时长谈:AGI最快5年实现
36氪· 2025-11-27 13:43
当前AI发展阶段的评估 - AI技术已实现但经济影响尚不显著,投资巨大但日常体验未发生根本改变[3] - 模型在评估测试中表现出色但实际应用效果和经济贡献存在明显滞后[4] - 模型能力存在"锯齿状"落差,常犯循环性低级错误,泛化能力差[5][6] AI模型训练与性能瓶颈 - 单纯堆数据与算力的"规模化"路径已见顶,预训练数据即将耗尽[5][17] - 强化学习训练使模型过于专注和狭隘,缺乏"意识"导致基础任务表现不佳[4] - 训练环境设计变量过多,可能无意中优化评估目标而忽视实际应用需求[6] - 模型像"应试专家",通过海量题目填鸭式训练成为答题高手但难以灵活应用知识[7] 价值函数与AI学习效率 - 价值函数被类比为AI的"情绪系统",可引导AI更高效、鲁棒地学习[5][14] - 价值函数能提供中间步骤反馈,加快学习过程,而非仅依赖最终结果评估[14] - 人类拥有内在价值感知,能快速自我纠正,而模型缺乏此类机制[25] - 情绪作为相对简单的价值函数机制,在进化中硬编码且至今有效服务人类[16] 行业发展阶段与范式转变 - 行业从2020-2025年的"规模化时代"回归到"研究时代",但拥有更强大计算资源[18] - 规模化"吸走了房间里的所有氧气",导致创新想法稀缺,公司数量远超新想法数量[28] - 强化学习正成为新的规模化目标,其计算投入可能已超过预训练[19] - 研究所需计算资源并非绝对最大规模,像Transformer最初仅在8-64个GPU上训练[29] SSI公司战略与差异化 - SSI已筹集30亿美元资金,专注于研究"直通超级智能"路径[5][30] - 公司不急于商业化,专注研究,与其他公司将资源用于推理和产品开发形成对比[30][32] - 采用不同的技术方法,主要区别在于技术路径,认为最终策略会逐渐收敛[52][53] - 计划可能调整,考虑渐进式部署,让AI在全球发挥作用并影响世界[33][34] 泛化能力与样本效率 - 模型泛化能力远差于人类,是当前最根本的问题之一[20][21] - 人类样本效率高可能与进化赋予的视觉、听觉和运动等先验知识有关[21][22] - 人类在语言、数学和编程领域的学习优势表明存在更高效的基础学习机制[23] - 人类学习更具无监督特性,所需数据样本少,过程更灵活和鲁棒[24][25] 超级智能发展路径与影响 - 人类级别AGI预计在5到20年内实现[5][55] - 超级智能可能表现为"超级智能的15岁少年",非常聪明但知识有限,通过部署持续学习[36] - 达到关键点后,广泛部署将引发快速经济增长,不同国家政策将导致增长差异[37][38] - 可能出现多个超级智能体,而非单一系统,形成专业化分工[58][59] AI对齐与安全策略 - 倡导构建"关心有情生命的AI",认为这比对仅关心人类更为稳健[41][45] - 随着AI能力提升,行业处理安全问题的方式将发生变化,公司会变得更加警觉[40][41] - 对齐策略最终会趋同,包括可靠沟通、确保最早超级智能是对齐的等目标[53][57] - 长期均衡可能通过人类与AI融合实现,例如通过改进版Neuralink成为半AI生物[47] 模型多样化与自我博弈 - 当前模型同质化严重,主要因预训练数据相似,强化学习是分化开始[61][62] - 自我博弈可通过计算而非数据创建模型,激励方法多样性[62][63] - 智能体间竞争自然促使差异化思考,是打破"模型同质化"的路径之一[5][63] - 完全复制相同思维收益递减,真正需要的是具有不同想法的智能体[60] 研究方法与理念 - 好研究应兼具简洁、优雅与对大脑机制的正确借鉴[5][64] - 研究需要"自上而下的信念",在实验结果与信念相悖时坚持方向[66] - AI应该具有特定"美学",思考人类本质但必须以正确方式理解[64] - 分布式表示、从经验中学习等概念受到大脑运作方式的启发[65]
llya最新判断:Scaling Laws逼近极限,AI暴力美学终结
36氪· 2025-11-26 16:46
AI行业技术路径转向 - 规模化法则正在接近极限,强化学习的算力消耗巨大但并不能算作真正的扩展,扩展与浪费算力之间的界线变得模糊[1] - 行业正在从"规模驱动"重新回到"研究驱动",科研需要正确的问题和新的方法而非绝对最多的算力[2] - 预训练提供了一套可复用配方:准备足够的数据、算力和能撑住规模的模型结构,性能就会持续上升,但预训练终究会耗尽数据[27] 模型性能与泛化能力 - 当前模型在评估中表现出色但经济影响滞后,存在评估性能与实际现实世界性能之间的脱节[11] - 模型更像投入一万小时练习的算法竞赛选手,虽然训练良好但未必能推广到其他领域[14][15] - 人类学习速度快不是因为预装大量知识,而是因为进化内置了强大的通用学习机制[3][33] - 人类样本效率高的可能解释是进化赋予了我们少量但最有用的信息,对于视觉、听觉和运动能力有强大的先验[33] 公司战略与竞争格局 - 即使创新放缓,各公司依旧会取得显著进展并获得高额收入,差异化可能变得更难但"停滞"并不意味着"衰落"[2] - 规模化扼杀了所有创新空间,导致每个人都开始做同样的事情,公司数量远超创意数量[39] - SSI已经筹集了30亿美元,真正区别在于算力使用方式而非绝对规模,资源需要集中投入重要方向[42][44] - 随着人工智能能力提升,公司在战略协调方面会趋同,OpenAI和Anthropic已经在AI安全方面合作[63][78] 超级智能与社会影响 - 当AI足够强时,许多今天不存在的社会行为会出现,可能带来"全民高收入"并极大提升生产力[3][70] - 真正的风险在于人类可能逐渐从参与者变成旁观者,保持主体性的答案是与AI建立更深层耦合[3][71] - 超级智能最令人担忧的不是意图而是力量,即便目标是善意的,人类仍可能不喜欢实现目标的方式[3][67] - 如果模型被限定在某些领域,它们一样可以极其强大,可以拥有许多功能狭窄的超级智能[3][80] 技术方法与研究重点 - 价值函数能够提高强化学习效率,让系统在中途就能发出预警而不是等到终局才知道失败[22][31] - 预训练的主要优势是数据量庞大且无需费心考虑应该使用哪些数据,试图捕捉人们将世界投射到文本的过程[16] - 研究品味来自对简单而清晰信念的坚持,人工智能应该符合大脑的本质结构但要以正确方式理解大脑[4] - 自博弈提供了一种仅使用计算资源而无需数据即可创建模型的方法,如果数据是最终瓶颈则非常有趣[83] 学习机制与进化启示 - 人类的价值判断情感是演化出来的底层代码,这种情感关键点是社会中正常运转的基石[24] - 进化赋予了我们高度抽象的社交欲望,让我们强烈在意别人看法并渴望获得社会认可,尽管这些现象从进化时间尺度看极其新近[72] - 人类具备一种对"好"与"坏"的内在感知能力,这种普遍感知在人类身上极其强大且稳定可靠[36] - 五岁孩子接触到的信息量非常有限,但认知能力已经足以胜任某些工作,表明人类拥有强大的通用学习机制[33]
Scaling时代终结了,Ilya Sutskever刚刚宣布
机器之心· 2025-11-26 09:36
AI行业技术发展现状 - 当前AI模型存在"参差不齐"现象,在复杂评测中表现出色却在简单任务上反复犯错,如修复Bug时引入新Bug[20] - 这种现象源于"奖励黑客行为",研究人员过度针对评测集进行强化学习训练,导致模型缺乏真正理解和泛化能力[11][23] - 模型表现类似于"刷题家",通过大量针对性训练获得表面能力,但缺乏真正的智能天赋[24][25] AI学习机制与人类对比 - 人类学习效率远高于AI,样本效率更高,这得益于进化留下的先验知识和内在学习机制[43][44] - 情绪在人类决策中扮演类似价值函数的角色,帮助在获得最终结果前判断决策好坏[29][32] - 人类拥有基于价值函数的内在学习机制,能够进行持续学习和自我纠正[11][35] AI发展阶段转变 - 扩展时代(2020-2025)以堆算力和数据为主旋律,通过预训练获得性能提升[38][39] - 当前预训练数据即将耗尽,单纯扩大规模的边际回报递减,行业进入"研究时代"[39][40] - 新阶段需要寻找新的"配方",更聪明地使用算力,特别是在强化学习和推理过程中[40][41] Safe Superintelligence Inc战略 - 公司采用"直通超级智能"策略,专注于研发直到解决安全超级智能问题后再发布[9][59] - 目前专注于研究,不急于通过产品获利,避免商业竞争的"老鼠赛跑"[9][58] - 公司筹集30亿美元资金,专注于技术研究而非推理产品开发[56][57] 对齐与未来展望 - 核心对齐目标是"关爱感知生命",这比单纯"听从人类指令"更稳健[9][76] - 未来可能出现多个大陆级规模的AI集群,只要前几个最强大的AI是对齐的,世界可能进入良性发展轨道[9][78] - 长期均衡状态可能是人类通过脑机接口与AI融合,成为"半AI"[9][82] 技术发展方向 - 价值函数将在未来AI发展中发挥重要作用,提高强化学习效率[34][41] - 根本性挑战是提高模型泛化能力,这比人类差得多[41][47] - 需要重新思考训练方式,实现类似人类的持续学习能力[48][49] 行业竞争格局 - 当前AI公司比想法多,扩展战略导致同质化竞争[53][99] - 随着AI能力增强,公司将更注重安全合作,行为模式将发生变化[74][75] - 未来可能出现专业化竞争,不同公司在不同经济领域占据优势[94] 研究哲学与方法 - 优秀研究依靠"自上而下"的信念,追求美、简单性和对生物学的正确借鉴[22] - 当实验数据与直觉相悖时,基于美的信念能支撑研究者继续寻找问题根源[22] - 真正的突破性研究不一定需要最大算力,Transformer等关键突破都是在相对有限算力下实现的[54][55]