Workflow
元学习
icon
搜索文档
AI已迷失方向?强化学习教父Sutton最新发布OaK架构,挑战当前AI范式,提出超级智能新构想
AI科技大本营· 2025-08-22 16:05
人工智能发展现状 - 人工智能产业已发展壮大但迷失方向[1] OaK架构核心设计 - 架构基于模型的强化学习并具备持续学习能力[3] - 每个学习权重配备专门步长参数并通过在线交叉验证进行元学习[3] - 通过FC-STOMP五步路径持续创造状态和时间抽象概念[3] - 架构核心由海量选项构成[10] - 知识表现为执行选项后世界变化的预测模型[10] 核心理念特征 - 强调运行时学习而非设计时学习[14] - 采用大世界视角具备领域通用性[16] - 完全依赖经验积累而非特殊训练阶段[16] - 支持开放式复杂性仅受计算资源限制[16] - 世界必然远大于智能体包含数十亿其他智能体[19] - 智能体所有功能都只能是近似非精确[19] - 世界最终呈现非平稳性特征[20] 技术实现路径 - 通过八步并行流程实现运行时学习[27][29] - 学习主策略与价值函数[29] - 生成新状态特征[29] - 对特征进行排序维护[29] - 为高排名特征创建子问题[29] - 为子问题学习选项解决方案[29] - 学习选项的转换模型[29] - 使用模型进行规划改进策略[29] - 持续管理评估所有组件[29] - 采用尊重奖励的特征达成子问题机制[31] - 通过FC-STOMP五步形成发现闭环[36] - 特征构建激发问题选项模型发现[36] - 新组件促进更抽象特征形成[36] 关键技术挑战 - 持续深度学习存在灾难性遗忘问题[37] - 新状态特征生成即表示学习问题尚未完全解决[38] 理论框架基础 - 遵循奖励假说理论基石[22][25] - 目标定义为对标量奖励信号累积和期望值的最大化[22][25] - 证明多目标等复杂机制不会增加通用性[25] 架构意义 - 提供首个关于知识起源的机制性答案[42] - 解释概念形成源于解决自创子问题[42] - 将推理定义为基于高层次模型的规划[42] - 阐明玩耍目的是发现认知基石子问题[42] - 构建无人类标签的感知运作机制[42]
刘璐也被Meta挖走了!华南理工校友,创造了4o吉卜力爆款
量子位· 2025-07-15 08:34
核心观点 - Meta近期从OpenAI挖角多名核心研发人员,包括GPT-4o图像生成功能的主要开发者刘璐和Allan Jabri,加速其AI人才布局 [1][5][6][30] - 刘璐作为GPT-4o"吉卜力风"的创造者,技术背景深厚,曾在谷歌参与Gemini研发并拥有多项学术突破 [2][8][16][21][23] - Meta的挖角策略聚焦OpenAI华人技术骨干,其"超级智能实验室"已吸纳至少10名华人专家,其中8人来自OpenAI [34][35][36] 人才流动 - 刘璐从OpenAI转投Meta仅入职一年,此前在谷歌DeepMind参与Gemini图像感知模块开发,并主导了GPT-4o的吉卜力风格图像生成功能 [2][21][23] - 同期被挖的Allan Jabri为GPT-4o核心架构师,曾在Meta旗下FAIR工作两年,此次属于回归老东家 [30][31][32] - Meta近期还挖走OpenAI苏黎世办公室ViT核心作者团队,持续扩大AI人才储备 [36] 技术成就 - 刘璐开发的GPT-4o吉卜力功能上线10天即吸引1.3亿用户,生成超7亿张图像,成为现象级产品 [26] - 其学术贡献包括:参与谷歌Gemini模型(论文引用5030次)、开发NAS算法评估基准NATS-Bench(引用1093次) [16] - 研究领域涵盖元学习、少样本学习及图神经网络,在NeurIPS/AAAI/IEEE TKDE等顶刊发表多篇论文 [13][17] 教育背景 - 刘璐本科以3.84 GPA毕业于华南理工大学电子科学与技术专业,曾获全国信息学奥赛省级一等奖 [8][9] - 在悉尼科技大学获机器学习博士学位,导师为AAII研究所龙国栋教授,研究隐私保护AI及设备端智能 [10][12][18] 行业影响 - Meta通过开源策略吸引OpenAI技术骨干,可能加速实现GPT级别模型的开源化 [7] - OpenAI仍保留部分顶尖华人研究员,如ICLR 2025获奖者漆翔宇、DALL-E 3贡献者Li Jing等 [41] - 人才争夺反映AI行业竞争白热化,Meta近半年已从谷歌/苹果/OpenAI等多方吸纳专家 [35][36][41]
又一华人科学家被挖走,OpenAI人才加速流失
虎嗅· 2025-07-12 18:43
核心观点 - OpenAI面临双重打击:Meta挖走两名关键研究员[3][4],谷歌截胡其拟收购的AI编程公司Windsurf[5][27] - 科技巨头人才争夺战白热化:Meta为挖角华人研究员开出数亿美元薪酬包[24][25],OpenAI被迫以股权激励防御[56] - OpenAI与微软关系紧张:微软阻挠Windsurf收购[36],并拖延其公司结构转型[41] 人才流动 - Meta新成立的超级人工智能实验室挖走OpenAI两名研究员:Allan Jabri(视觉学习专家)和Lu Liu(4o图像生成团队成员)[12][13][20] - Lu Liu为90后华人学者,研究方向涵盖元学习、图神经网络及隐私保护AI[15],其离职使Meta公开挖角的华人研究员达11名[24] - Meta为顶尖人才提供天价薪酬包:余家辉等9名OpenAI研究员获4年3亿美元,庞若鸣单笔2亿美元[24][25] - OpenAI反击招募4名新员工:包括Meta资深研究员Angela Fan及xAI/特斯拉系人才[50][52][54] 并购竞争 - OpenAI原计划30亿美元收购Windsurf以补足编码生态短板,但交易因微软反对而终止[29][36] - 谷歌以24亿美元获得Windsurf技术授权并吸纳其核心团队,CEO等将加入DeepMind开发Gemini[9][32] - 该交易采用"非收购式鲸吞"模式规避垄断风险,类似微软对InflectionAI的操作[34] 公司治理 - OpenAI转型为PBC公益公司受阻:微软拥有对重大事项的实质否决权[39],双方因AGI条款(千亿美元利润分成)僵持[40][41] - 若2025年10月前未完成转型,66亿美元融资中的6.6亿美元将转为负债[42] - 公司2024年股权激励达44亿美元(营收37亿美元的119%),为2023年的5倍[56] 行业动态 - AI竞赛加剧:谷歌/Meta/xAI持续迭代模型,OpenAI的GPT-5却多次延期[44] - 人才成本飙升:Meta将顶级研究员年薪推至数亿美元量级[24],OpenAI被迫跟进导致股权激励超营收[56] - 技术路线曝光:Lu Liu的研究显示OpenAI在少样本学习/边缘计算AI的布局[15],Windsurf交易反映其对编码RLHF数据的渴求[29]
新西兰奥克兰大学段雨晴:以脏数据为突破口,Z世代重塑AI创新范式
环球网资讯· 2025-07-06 14:52
大数据分析驱动AI优化与创新 - 驱动AI优化的关键不仅在于数据数量 更在于用聪明方式解读复杂性 这是Z世代的独特优势 [2] - 适度保留"脏数据"在某些场景更具价值 例如金融欺诈检测中 异常数据可能包含关键线索 [3] - Z世代在信息爆炸环境中培养了从噪声中提取价值信号的能力 这种能力同样适用于AI系统 [3] 跨域数据融合的价值 - Z世代的多维思维模式为理解大数据价值提供独特视角 金融分析正融合图像 社交媒体等多源数据 [4] - ESG研究中 需要将企业环境影响转化为量化风险指标 这需要洞察力与创新思维而不仅是技术手段 [4] - 通过融合谷歌搜索趋势 地理位置等实时信息 可在传统经济指标滞后时及时掌握社会运行状态 [4] 从大数据样本向小数据样本转变 - AI领域正经历从依赖海量数据到借助少量样本快速适应的技术跃迁 主要得益于元学习发展 [4] - 医疗领域元学习可实现从常见病学习通用模式 再通过十几例罕见病样本实现有效识别 [5] - 金融领域可借鉴成熟市场经验 使AI快速适应数据稀缺的新兴市场 [5] - 小数据样本带来隐私保护和响应速度提升两大优势 减少对数据量的依赖 [6] Z世代的独特能力 - Z世代具备创造力 适应力和对世界的敏锐感知 这些能力对处理复杂信息 实现跨领域融合至关重要 [6] - 从噪声中提取价值信号的能力 以及多维思维模式 是Z世代推动AI创新的核心优势 [3][4]
LLM已能自我更新权重,自适应、知识整合能力大幅提升,AI醒了?
机器之心· 2025-06-14 12:12
AI自我演进研究进展 - 近期AI自我演进研究密集涌现,包括达尔文-哥德尔机(DGM)、自我奖励训练(SRT)、MM-UPT框架等多项创新成果[1] - OpenAI CEO山姆・奥特曼预测AI机器人将实现供应链自我复制,推动指数级增长,内部消息称已测试递归式自我改进AI[1] - MIT最新研究提出SEAL框架,使LLM能通过自生成训练数据更新权重,采用强化学习优化自编辑过程[2][10] SEAL技术框架 - 采用嵌套循环结构:外部RL循环优化自编辑生成,内部循环通过梯度下降更新模型参数[13] - 自编辑生成通过强化学习实现,奖励机制基于下游任务性能提升[12] - 可视为元学习实例,研究如何高效生成自编辑[15] - 支持"教师-学生"分离模式,教师模型专司生成优化编辑[26] 实验验证结果 少样本学习 - 使用Llama-3.2-1B模型在ARC测试集上,SEAL成功率72.5%,显著高于无RL自编辑(20%)和ICL(0%)[34][36] - 性能仍低于Oracle TTT(100%),显示改进空间[36] 知识整合 - 采用Qwen2.5-7B模型整合SQuAD数据,SEAL单篇文章准确度47%,持续预训练43.8%[38][39] - 相比基础模型(32.7%),合成数据训练可提升至39.7-46.3%,RL进一步优化效果[40] - 强化学习迭代产生更详细自编辑,带来性能持续改进[43] 行业影响与讨论 - 研究被视作接近"事件视界"的证据,即AI发展不可逆临界点[7] - 技术社区存在争议,部分观点认为尚未实现持续自我改进[4] - 自改进AI引发警惕,担忧潜在风险[8]
LSTM之父22年前构想将成真?一周内AI「自我进化」论文集中发布,新趋势涌现?
机器之心· 2025-06-02 13:22
AI自我进化研究进展 - 核心观点:AI模型的自我进化能力正在加速提升,从理论构想到实际应用取得突破性进展 [1][3] - 研究趋势从单纯训练模型转向让模型学会自我学习和自我进化,谷歌AlphaEvolve等代表作品涌现 [1] - 近期arXiv上集中出现多篇相关论文,包括受哥德尔机启发的达尔文哥德尔机等创新成果 [1] 达尔文哥德尔机(DGM) - 通过重写自身Python代码实现持续自我改进,在sw-bench上性能从20%提升至50% [4][8][10] - 采用开放式算法探索AI设计空间,构建不断扩增的智能体库 [6][12] - 在Polyglot测试中表现从14.2%跃升至30.7%,超越手工设计智能体Aider [10] - 突破传统哥德尔机需数学证明的限制,通过实证检验寻找性能改进方法 [6] 自我奖励训练(SRT) - 通过模型自身判断信号进行自我监督训练,无需外部标签 [14][17] - 早期训练阶段性能媲美基于真实标签的强化学习方法 [18] - 存在训练崩溃问题,模型会输出一致但错误的答案来最大化自我奖励 [21] - 提出早停、离线生成标签、课程学习等缓解策略 [22][24][26] 多模态自我改进框架(MM-UPT) - 在完全无监督场景下通过GRPO框架实现持续改进 [30][32] - 采用多数投票生成伪标签驱动自我优化,MathVista准确率从66.3%提升至72.9% [39] - 创新性提出上下文引导生成和直接生成两种数据合成策略 [37][38] - 在四个数学推理基准测试中超越现有无监督方法,媲美有监督训练 [36] GUI智能体自改进框架(UI-Genie) - 解决GUI智能体轨迹验证难和数据获取难两大挑战 [45][47] - 开发图文交错架构的奖励模型UI-Genie-RM,统一动作和任务级别奖励 [47] - 构建首个GUI智能体专用奖励数据集UI-Genie-RM-517k [50][51] - 通过三代迭代在多个基准测试达到业界领先水平 [52]