RL(强化学习)
搜索文档
前OpenAI首席科学家Ilya:情绪是终极Value Function
首席商业评论· 2025-12-12 19:21
文章核心观点 文章通过解读OpenAI前首席科学家Ilya Sutskever的访谈,阐述了其对人工智能发展现状、未来方向及实现路径的核心观点。核心观点认为,AI发展正从依赖算力规模扩张的“规模化时代”转向依赖算法创新的“研究时代”,而实现安全、高级的通用人工智能(AGI)的关键在于探索新的学习机制(如价值函数)、理解并模拟人类智能的本质(如情绪、同理心),并保持专注的研究品味[10][17][22][24]。 关于时代的转向 - AI发展历程分为三个阶段:2012-2020年为“研究时代”,尝试不同AI想法;2020-2025年为“规模化时代”,自GPT-3后算力规模扩张成为共识;2025年开始,因数据有限,预训练的规模定律失效,行业重新回归“研究时代”,竞争焦点将从比拼GPU数量转向寻找新算法[17] SSI的规划 - Ilya创立的SSI公司采取“Straight shot”策略,不发布中间产品,直接研发超级智能,以避免市场竞争带来的妥协[13] - 其对超级智能的定义更接近“超级学习者”,发布时类似“天才少年”,需在社会中学习进步,预计出现窗口期为5到20年[13] - SSI融资30亿美元,虽比大厂少,但资金将全部投入纯粹研究实验,在研发层面具备竞争力[13] 关于Taste(研究品味) - Ilya分享了判断研究方向的三个黄金标准:1) 生物学上的合理性(如神经元连接结构);2) 方案的简洁与优雅美感;3) 基于第一性原理的“自上而下”信念,即在数据不符预期时能坚持理论,相信是代码问题,这是顶级与平庸研究者的关键区别[18] 关于Value Function(价值函数) - 预训练红利已尽,下一步重点是价值函数,旨在让AI具备人类式的直觉性中途判断能力,而非仅能在任务完成后评估对错,此举将大幅提升AI学习效率[16][19] - Ilya坚信只要信号存在,深度学习就能学到价值函数,尽管路径复杂[19] 关于RL(强化学习) - Ilya提出反直觉观点:当前的RL方法可能是在“弄傻”模型,因为它可能“撤销预训练的概念印记”,迫使AI讨好单一人类指标,牺牲了其原本宽广的通用智力,类似应试教育[20] - 行业现状发生重要转向:根据传闻,目前花在RL上的算力已超过预训练,因为RL需要长推演,算力消耗大但有效学习信号少[20] 情绪与同理心的作用 - 情绪被视为人类高效的“压缩算法”和终极的价值函数,能帮助快速决策。当前AI缺乏这种内在指引,导致其可能逻辑正确但缺乏常识[22] - 同理心是理解世界的最佳捷径。从计算效率看,复用理解“自我”的神经回路去模拟“他人”是最省资源的建模方式,因此同理心可能作为智能提升的涌现属性出现[24] - 将“关爱有感知生命”硬编码进超级智能是对齐问题的潜在解法。人类进化能将对“社会地位”等抽象概念的追求编码进大脑,这为将高级目标对齐给AI提供了可能性[24][25] 关于语言对思维的影响 - 行业术语会反向塑造研究方向,例如“AGI”一词可能导致过度追求全能基础模型而忽视动态学习能力;“Scaling”一词则曾让行业过度聚焦模型规模而停止探索其他可能性[27] 未来的市场格局 - 未来超级智能领域不会由一家公司垄断,竞争将促使专业化分工。在特定领域投入巨大算力形成高壁垒后,其他AI从头学习将不划算,从而形成类似自然界的生态平衡,这对垂直领域创业者是鼓励[28]
对谈 Macaron 创始人陈锴杰:RL + Memory 让 Agent 成为用户专属的“哆啦 A 梦”|Best Minds
海外独角兽· 2025-09-11 20:02
AI Agent发展趋势 - ChatGPT加入memory功能后用户粘性显著增强 AI Agent开发进入更成熟阶段 从依赖prompting构建基础Agent转向通过RL和memory开发Agentic能力更强的Agent [2] - AI角色正从写代码、做PPT的生产力助手向真正懂用户的个性化生活伙伴转变 [2] - Multi-agent系统可将Memory Agent和Coding Agent分开训练 实现情商和智商的平衡 [3] - 不同的生活场景叠加会给Agent带来更大的商业价值 [3] Macaron产品定位 - Macaron定位为Personal Agent 专注于个人生活场景而非生产力方向 [13] - 产品核心特点是Memory强和有用性 能帮助用户定制饮食记录、健身日志、心情日记等Sub Agent小工具 [14] - 产品最佳类比是多啦A梦 既是用户朋友又是生活助手 而非单纯工具 [23] - 采用multi-agent架构:高情商的Memory Agent作为用户朋友 高智商的Coding Agent专注工具开发 [24] - 上线一周多已有7000多用户创建10000多个小应用 主要集中生活记录与规划类需求 [51] Memory技术突破 - Memory不是目的而是方法 目标是更好服务用户而非单纯记忆 [15] - 将Memory当作智能能力进行训练 采用Memory强化学习技术 [16] - 在671B大模型级别进行Memory强化学习训练 国内能做的团队不到5个 [33] - 训练中机器Memory与人的Memory需要拟合对齐 用户强调的信息会被着重记录 [17] - 开发all-sync RL技术 将训练时间从按周压缩到按天 约30小时完成一次有意义的RL [39] 训练技术优势 - RL是智能提升下半场的核心 在特定场景可推到智能最上限 [34] - 在700B大模型上进行RL训练才能迈过AGI门槛 200B是分水岭 [34] - all-sync RL通过通信与模型压缩实现训练与推理同步 效率提升数倍 原需512张卡现仅需48张卡 [42] - RL在场景优化中价值显著 从85分往95分提升时RL效果最强烈 [47] 商业化路径 - 生活场景相比工作场景具有更大商业价值 场景叠加能产生更大效果 [60] - 当前采用订阅制商业模式 未来考虑社区分享回报和第三方接入等创新模式 [61] - 不是传统App Store模式 而是生活方式分享平台 创作者无需创作能力只需分享独特生活方式 [27] - Personal Agent赛道类似社交软件格局 不同性格的Agent可并存 [63] 市场竞争格局 - ChatGPT已占据4亿DAU 处于Facebook式的统治地位但定位更偏向工作场景 [64] - Macaron定位生活陪伴场景 与ChatGPT可并存甚至抗衡 [65] - 时间点正好 作为第一批Personal Agent上市团队 有三到六个月窗口期建立用户心智 [65] - 专业场景Agent仍有巨大机会 但单纯工作流式小Agent会被大Agent覆盖 [66] 用户案例 - 用户创建多样化生活应用:高尔夫动作分析、搬家规划、家庭菜谱管理等个性化需求 [55][56][57] - 这些应用太个性化难以在传统应用商店找到解决方案 但完美符合个人需求 [57] - 代码生成成本大幅降低 像自来水一样流动 普通用户也能造出合心意工具 [59] 技术架构 - 摒弃传统数据库系统 设计让所有Sub Agent共享同一份个人数据的架构 [32] - 记忆传递机制复杂 需实现Sub Agent间相互理解与信息反馈 [31] - 训练目标分离:Memory Agent优化更懂用户和聊天服务 Coding Agent优化200个真实案例工具开发 [25]