Workflow
元学习
icon
搜索文档
NeurIPS 2025 | 上下文元学习实现不微调跨被试脑活动预测
机器之心· 2025-11-19 12:07
研究背景与行业痛点 - 传统脑编码模型为每位新被试构建模型需采集数千张图像对应的脑活动数据,成本高昂且难以推广[2] - 现有方法即使使用预训练视觉模型,仍严重依赖大量被试内数据,在少样本或零样本条件下难以快速适应新个体,限制了临床等现实场景应用[2] - 人类高级视觉皮层功能组织存在显著个体差异,使得为每个新被试构建高精度编码模型必须依赖大量fMRI扫描,通常需数千图像,成本极高[6] - 当前主流"图像特征 + 线性回归"范式无法跨被试泛化,必须为每位新用户重新训练模型[6] 核心技术创新 - BraInCoRL提出基于元学习的上下文Transformer跨被试脑编码模型,仅凭少量示例图像及对应脑活动数据,即可无需微调地预测新被试对全新图像的脑响应[3][7] - 将每个脑体素视为独立的响应函数,训练目标是从稀疏观测中推断出可计算、可泛化的映射[7] - 核心思想是将每个体素的视觉响应建模为独立函数推断任务,置于元学习与上下文学习的统一框架下[10] - 在测试阶段,仅需提供新被试少量(如100个)图像-脑响应对作为上下文输入,模型通过前向计算动态生成该被试专属的体素编码器[11] 模型架构与训练策略 - 架构包含三部分:冻结的图像特征提取器、高级视觉皮层上下文Transformer、轻量体素编码器[13][18] - 采用三阶段训练策略:预训练阶段使用合成体素权重与噪声构造虚拟体素任务;上下文扩展阶段引入可变长度上下文样本;有监督微调阶段使用真实fMRI数据优化[15][19] - 高级视觉皮层上下文Transformer接收图像嵌入-脑响应对作为上下文,通过自注意力机制融合跨被试知识,直接生成体素编码器权重[18] 实验结果与性能优势 - 在NSD数据集上,BraInCoRL仅使用100张上下文图像,即在多个类别选择性脑区上达到与全量训练模型(9,000张图像)相近的解释方差[20] - 显著优于基于相同样本量的岭回归基线,在上下文数量变化情况下表现出强大稳定性[20] - 在BOLD5000数据集(3T扫描仪,不同刺激协议)上表现出色,验证其跨设备、跨协议的鲁棒性[22] - 在UMAP可视化中,BraInCoRL生成的体素权重呈现清晰语义聚类,人脸、场景、身体、食物等功能区域形成独立簇,在多被试间稳定复现[23] 语义理解与应用潜力 - 通过分析Transformer注意力机制,可了解视觉皮层功能组织,发现与体素选择相关的图像,验证语义合理性[27] - 将CLIP文本提示映射为图像嵌入输入BraInCoRL,即可零样本预测整个皮层的激活图,实现自然语言驱动的大脑探查[29] - 该方法大幅降低个体化脑编码模型构建门槛,为临床神经科学等数据受限场景应用开辟新路径[32]
AlphaGo之父找到创造强化学习算法新方法:让AI自己设计
机器之心· 2025-10-28 12:31
研究核心观点 - 谷歌DeepMind团队开发出一种名为DiscoRL的新方法,能够通过元学习自主发现性能达到SOTA水平的强化学习规则 [1] - 该方法发现的规则在经典Atari基准测试上超越了所有现有方法,并在多个高难度基准测试上优于多种SOTA强化学习算法 [4] - 研究结果表明,未来实现高级AI所需的强化学习算法可能不再依赖人工设计,而是能够从智能体自身经验中自动涌现与进化 [5] 研究方法 - 发现方法涉及智能体优化和元优化两种类型的优化,智能体参数通过更新策略和预测至强化学习规则产生的目标进行优化 [7] - 团队定义了没有预定义语义、富有表现力的预测空间,通过元网络进行元学习来找出智能体需要优化的内容 [9] - 元网络作为函数决定智能体应将其预测和策略更新至的目标,其输入输出选择保留了手工设计RL规则的理想特性 [12][14][15][16][17] - 智能体参数被更新以最小化其预测和策略与元网络目标之间的距离,使用KL散度作为距离函数 [19] - 元优化目标是发现一个RL规则,使智能体在各种训练环境中最大化奖励,通过梯度上升优化元参数 [22][23] 实验结果 - 在57款Atari游戏基准测试中,Disco57取得13.86的IQM分数,超越了所有现有RL规则,运行效率远高于当前最先进的MuZero [26][27][29] - Disco57在ProcGen基准上优于所有已发表方法,包括MuZero和PPO,尽管在发现期间从未与ProcGen环境交互过 [33] - Disco57在Crafter上取得有竞争力表现,在NetHack NeurIPS 2021挑战赛中获得第3名,且未使用任何领域特定知识 [34][35] - 使用103个更具多样性环境发现的Disco103规则,在Atari基准表现相似,同时在多个基准上提高了分数,在Crafter上达到人类水平表现 [37] - 最佳规则是在每个Atari游戏约6亿步内发现的,相当于在57个Atari游戏上仅进行3次实验,比手动发现RL规则更有效率 [40] 技术分析 - 定性分析显示,被发现的预测在收到奖励或策略熵发生变化等显著事件前会出现峰值 [45] - 信息分析表明,与策略和价值相比,被发现的预测包含更多关于即将到来的高额奖励和未来策略熵的信息 [46] - 研究发现DiscoRL使用引导机制的证据,未来的预测被用来构建当前预测的目标,这种机制对性能至关重要 [47] - 使用价值函数可极大改善发现过程,而在预定义预测外发现新预测语义也至关重要 [41][42]
Meta拆掉AI持续学习路上的最大炸弹,“微调”又有了一战之力
36氪· 2025-10-27 13:13
持续学习的背景与路径 - 大型语言模型界正集体尝试突破持续学习和元学习能力的天花板,目标是实现模型的自我进化[1] - 实现持续学习的关键在于模型的“记忆”深度和可塑性,主流方法可归纳为三条主要路径[2] 路径一:改变上下文 - 通过修改模型的“工作记忆”,即上下文学习,使模型在当前对话中学会解决特定问题[4] - 最新进展是“系统提示学习”,模型通过语言层面的总结与归纳来反思成功与失败,并更新系统提示词以提升未来能力[4] - 此方法通过影响模型底层行为指令,使学习成果得以沉淀,解决了上下文学习浮于表面的问题[6] 路径二:引入外部记忆库 - 通过检索增强生成给模型配备外置数据库,持续学习体现在模型有能力更改、积累和维护此外部记忆库[7] - 谷歌DeepMind的“Reasoningbank”研究打造了一个“高级大脑记忆库”,存储从经验中总结出的“方法论”和“避坑指南”,而非零碎事实[7] - Anthropic的Claude Skill功能结合了上述两层方法,让智能体通过总结经验来学习新技能[9] 路径三:参数层面更新 - 此最根本的路径因训练开销巨大或方法不稳定而长期进展缓慢,例如强化学习和轻量化监督微调[9] - Meta AI的新论文《通过稀疏内存微调实现持续学习》为这条路径带来了根本性改变[9][11] 监督微调的挑战与Meta的解决方案 - 监督微调面临“灾难性遗忘”的根本矛盾,即学习新知识时会破坏存储旧知识的参数[11] - Meta提出的稀疏内存微调方法核心思想是只更新与“新知识”相关而与“旧知识”无关的参数[11] - 解决方案第一步是改造架构,将标准Transformer中的一些前馈网络层替换为拥有100万个“微型专家”的内存层,提供精细控制力[12][14][15] - 第二步引入TF-IDF算法精准定位既重要又安全的参数,即对新知识至关重要且不负责通用知识的参数[16][17][18][19][21] - 第三步进行稀疏更新,在反向传播时只允许梯度流向TF-IDF得分最高的Top-t个内存槽位,例如仅更新100万个槽位中的500个[22] 新方法的效果与优势 - 在学习新事实后测试原有任务表现,新方法仅导致分数下降11%,而LoRA下降71%,全量微调下降89%[23] - 新方法在学习能力上相当或更优,并在稳定性上具有压倒性优势,几乎治愈了监督微调的核心痛点[25][28] - 存储1000个新事实仅需占用约500个内存插槽,显示该方法具有持续学习海量新知识的巨大潜力[26] - 训练成本上,每一步需要更新的参数数量也远少于LoRA,降低了优化器的内存开销[26] 不同路径的比较与未来展望 - 非参数化学习路径存在根本尴尬,模型像依赖外部教科书或自己笔记的学生,未能真正内化知识[29] - 研究指出上下文学习泛化能力有限,因其过度关注统计特征而非任务根本规律[29] - 参数更新路径是更根本的解决方案,Meta的方案使其变得安全、稳定和可控[30][31] - 该进展意味着监督微调的春天可能来临,模型有望从静态工具转变为在经验流中不断成长的智能体[31][32]
外滩大会速递(1):萨顿提出AI发展新范式,强化学习与多智能体协作成关键
海通国际证券· 2025-09-12 10:47
行业投资评级 - 报告未明确给出具体的行业投资评级 [1][2][3][4][5][6] 核心观点 - 图灵奖得主理查德·萨顿提出AI发展正进入"经验时代",强调自主交互与环境反馈为核心,强化学习与多智能体协作是实现该愿景的关键路径 [1] - 当前机器学习多数局限于对人类已有知识的静态迁移,真正能创造新知识的系统需依靠智能体在与环境直接交互中持续生成数据 [1] - 社会对AI偏见、失业及生存风险的担忧被过度放大,应通过多智能体协作机制实现共赢 [1] - 萨顿提出"四条预测原则":价值观多元共存、人类将深入理解并创造智能、超级AI或人机增强系统终将超越人类智力、权力与资源将向最高效智能体集中且"替代"成为必然 [1] - 宇宙演进被划分为粒子、恒星、复制者与设计四个时代,人类核心使命在于推进"设计",AI是迈向"设计时代"不可或缺的动力 [1] 技术范式转变 - 数据定义从静态人类语料转变为动态智能体-环境交互轨迹,意味着学习目标与系统架构的根本重构:从被动拟合数据分布转向主动预测并控制自身观测输入的能力 [2] - AlphaGo自我博弈与AlphaProof生成式推理被视为"经验优先"方法论的有效验证 [2] - 产业落地需将模型从"信息消费"角色转变为可与环境实时交互、闭环试错并持续积累能力的"智能作用体" [2] - 企业需构建具备高频交互、在线评估与能力沉淀功能的智能体运营(Agent-Ops)体系,以实现新知识自动生成与跨任务迁移 [2] 技术瓶颈与研发重点 - 强化学习核心瓶颈并非模型参数规模,而在于时间维度与任务序列处理能力,具体表现为持续学习与元学习两大短板的制约 [3] - 持续学习需克服灾难性遗忘,实现动态表征与非平稳环境中的稳定收敛;元学习要求模型具备跨任务快速迁移与重组能力,训练评估单位需从"样本"升级为"任务" [3] - 这两项能力决定系统是否具备长期演进与泛化复用潜力:缺乏则仅适用于封闭短周期任务,突破则有望在开放环境中越用越强 [3] - 企业研发重心应从追求单点性能突破(SOTA)转向构建长周期评估体系、非平稳任务基准,以及推进记忆机制、规划架构与探索策略的工程化与系统集成 [3] 多智能体协作与治理 - "去中心化协作"不仅是技术架构选择,更是关乎系统治理机制的重要命题,需将机制设计理念引入AI系统工程实践 [4] - 多智能体协作类比市场与政府分工机制,其有效运作依赖明确激励、透明协议及可验证合约的支撑 [4] - 若"权力与资源向最高效智能体集中"成为趋势,需构建三方面基础制度:开放接口与可组合协议防范垄断、合作与对抗并存的博弈测试体系避免激励扭曲、可审计可追溯的责任认定工具量化协作外部性 [4] - 缺乏系统性治理设计,"去中心化"易流于概念,难以实现可持续可信赖的协作生态 [4] 人机协作与组织变革 - AI替代集中于任务层级而非完整岗位,企业应主动推进任务解构与流程重组,系统化布局人机协作体系 [5] - 具体路径包括:制定明确的人机分工框架形成"人类决策—AI探索—AI执行—人类审计"闭环机制、构建经验采集与策略回灌体系将交互数据沉淀为可复用策略资产、改革绩效管理机制以协同效率为导向的KPI替代单一产出指标 [5] - 该体系顺应AI替代带来的效率提升需求,为可持续人机协同提供制度化抓手,有助于企业在智能化转型中保持竞争力和控制力 [5]
外滩大会再证蚂蚁的底色:金融科技公司
每日商报· 2025-09-12 07:04
大会概况 - 2025 Inclusion·外滩大会在上海黄浦世博园区开幕,主题为“重塑创新增长”,来自16个国家和地区的550位嘉宾参会 [1] - 大会聚焦“金融科技”“人工智能与产业”“创新创投生态”“全球对话与合作”“负责任创新与普惠未来”五大内容主线,设置1场开幕主论坛和44场见解论坛 [1] - 大会被誉为“亚洲三大金融科技盛会”之一,以其开放、多元、前瞻性吸引全球目光 [1] 人工智能发展趋势 - 图灵奖得主理查德·萨顿认为人类数据红利正逼近极限,人工智能正在进入以持续学习为核心的“经验时代”,潜力将远超以往 [1][2] - “经验”指的是观察、行动和奖励三种信号的交互,知识来自于经验,智能体的智能程度取决于其预测并控制自身输入信号的程度 [2] - 释放“经验时代”全部潜力需要持续学习(continual learning)和元学习(meta-learning)两项关键技术 [2] - 人工智能被视为宇宙演化的必然下一步 [3] 具身智能与机器人产业 - 宇树科技创始人王兴兴表示,随着大模型发展,AI与机器人结合正催生全新的具身智能产业,目标是让机器人拥有AGI能力 [4] - 当前具身智能发展面临高质量数据及模型算法层面的挑战,但目前被视作大规模爆发性增长的前夜 [4] - 建议年轻创新者忘记过去经验,学习最新知识,全力拥抱新时代,认为创新创业门槛已大幅降低 [4] 金融科技公司动态 - 蚂蚁集团通过战略投资涉足多个科技领域,例如今年6月投资哈啰以切入智能驾驶,并在医疗、智能体和机器人公司背后有深入布局 [5][6] - 支付宝数字政务团队发布全新政务AI助手“晓政”,融合DeepSeek、通义千问、蚂蚁百灵三种大模型 [6] - 蚂蚁数科推出“智能代理合约(Agentic Contract)”,将在其新一代Layer2区块链Jovay上原生部署 [6] - 中国银行保险报联合OceanBase海扬数据库与19家银行编委机构发布报告,指出一体化数据库是中小银行应对系统国产升级与AI规模化落地的“最优解” [6] - 外滩大会上的展示证明蚂蚁是一家纯血金融科技公司,持续走在技术最前沿 [5][6]
对AI的恐惧被夸大了,“强化学习之父”萨顿外滩演讲:四条原则预言AI未来
36氪· 2025-09-11 16:34
AI发展趋势 - 人工智能正在从依赖人类数据的“人类数据时代”进入以持续学习为核心的“经验时代”[1][9] - 当前大多数机器学习方法无法生成新知识且缺乏持续学习能力,这已成为一个非常大的瓶颈[10] - 智能的关键在于学习速度,智商(IQ)等于知识量除以所积累的经验,是衡量学习速度的指标[11] - 经验时代的数据源是智能体以第一人称与世界互动直接生成的观察、行动和奖励信号[13] - 强化学习领域基于“知识来自于经验”的思维方式,智能体的智能程度取决于其预测并控制自身输入信号的程度[14] - 要释放经验时代的全部潜力,需要目前尚不成熟的持续学习(continual learning)和元学习(meta-learning)技术[2][16] AI技术政治影响 - 人工智能已成为高度政治化的议题,是国家地缘政治竞争的焦点,公众担忧其带来偏见、失业甚至人类灭绝[16][18] - 对人工智能的恐惧被夸大,并且是被某些从中获利的组织和个人煽动起来的[2][19] - 在由智能体构成的社会中,目标应是多元的而非唯一的,这类似于经济体系的运行方式[19][20] - 人类最卓越的超能力是协作,这通过语言和货币实现,AI和人类的繁荣将来自于去中心化协作[2][21][22][26] - 去中心化协作是指每个智能体追求自己的目标,并通过互动实现双赢,这比强调共同目标的中心化控制更可持续和强韧[20][24] - 应抵制那些鼓吹不信任、呼吁非协作和中心化控制的呼声,并致力于将协作制度化[27][28] AI哲学意义与未来预测 - 理解智能是科学与人文学科共同追寻的圣杯,AI是人类最古老的追求之一,与人类本性高度相似[31][33] - 提出四条原则来预测AI未来:全球对世界如何运转没有统一意见;人类终将理解并创造出智能;当前人类智能水平将被超级人工智能或增强人类远远超越;权力和资源会流向最聪明的智能体[35][36][37] - 在人类发展进程中,AI的替代是不可避免的[3][38] - 从宇宙视角看,历史可划分为粒子时代、恒星时代、复制者时代(生命时代)和即将到来的设计时代(机器时代)[40] - 人类的独特之处在于“把设计推向极致”,即创造出能自己进行设计的事物,这正是通过AI追求的目标,人类是开启宇宙“设计时代”的先驱[4][42][43] - AI是宇宙演化的必然下一步,应以勇气、自豪和冒险精神来迎接它[6][45]
图灵奖得主理查德·萨顿:人类将开启“宇宙第四大时代”
21世纪经济报道· 2025-09-11 13:45
人工智能发展的现状与局限 - 当前多数机器学习的目标是将人类已有知识转移到缺乏自主学习能力的静态AI上[1] - 行业正逐渐达到人类数据的极限,现有方法无法生成新知识且不适合持续学习[1] - 持续学习对智能的效用至关重要,但现有技术尚不成熟[1][2] 未来发展方向:经验时代 - 行业需要转向新的数据源,即由智能体与世界直接交互生成的经验[1] - 经验被定义为观察、行动和奖励三种信号在智能体与世界间的传递[2] - 知识来自于经验,智能体的智能程度取决于其预测并控制自身输入信号的能力[2] - 强化学习带领行业进入经验时代,但需持续学习和元学习技术释放全部潜力[2] 对人工智能担忧的回应 - 对AI带来偏见、失业甚至人类灭绝的恐惧被夸大,且被某些从中获利的组织煽动[2] - 经济社会的良好运行依赖于个体拥有不同目标和能力,目标不同的智能体可通过去中心化协作实现双赢[2] - 人类最卓越的超能力是协作,经济、市场与政府都是成功协作的产物[2] - 人工智能和人类繁荣将来自于去中心化协作,协作是世间美好事物的源泉[2] 人工智能未来预测原则 - 对世界如何运转没有共识,且没有哪一种看法能凌驾于其他[2] - 人类将真正理解智能并借助技术将其创造出来[2] - 当今人类的智力水平很快将被超级人工智能或超级智能增强的人类超越[2] - 权力和资源会流向最聪明的智能体,人工智能的替代将是不可避免的[2] 人工智能在宇宙演化中的定位 - 宇宙历史分为粒子时代、恒星时代、复制者时代和设计时代,人类目前处于复制者时代[3] - 人类的独特之处在于将设计推向极致,创造出能自己设计的事物,这正是AI追求的目标[3] - 人类是开启宇宙第四大时代“设计时代”的先驱和催化剂[3] - 人工智能被视为宇宙演化的必然下一步,应以勇气、自豪和冒险精神迎接[4]
图灵奖得主理查德·萨顿:人工智能进入“经验时代”,潜力超以往
贝壳财经· 2025-09-11 12:47
人工智能发展现状 - 人类数据红利正逼近极限 大多数机器学习目标是将人类已有知识转移到静态AI [1][2] - 现有方法不能生成新知识 不适合持续学习 而持续学习对智能效用至关重要 [2] - 强化学习带领进入经验时代 需要智能体与世界直接交互生成新数据源 [2] 经验时代技术方向 - 经验指观察 行动和奖励三种信号在智能体与世界间传递 知识来自于经验 [2] - 智能体智能程度取决于预测并控制自身输入信号的程度 经验是一切智能核心 [2] - 释放全部潜力需要持续学习技术和元学习技术 目前这两项技术尚不成熟 [2] 人工智能协作理念 - 对人工智能恐惧被夸大 是被某些从中获利组织和个人煽动 [3] - 目标不同智能体可通过去中心化协作实现双赢 人工智能和人类繁荣将来自去中心化协作 [3] - 人类最卓越超能力在于比其他动物更擅长协作 经济市场与政府都是成功协作产物 [3] 人工智能未来预测 - 对世界如何运转没有共识 没有哪种看法能凌驾其他 [3] - 人类将真正理解智能并借助技术创造出来 [3] - 当今人类智力水平将被超级人工智能或超级智能增强人类远远超越 [3] - 权力和资源会流向最聪明智能体 人工智能替代将不可避免 [3] 宇宙时代与人工智能定位 - 宇宙历史分为粒子时代 恒星时代 复制者时代和设计时代 [4] - 人类独特之处在于把设计推向极致 创造出能自己设计的事物 [4] - 人类是催化剂和助产士 是开启宇宙第四大时代设计时代的先驱 [4] - 人工智能是宇宙演化必然下一步 应以勇气自豪和冒险精神迎接 [4]
图灵奖得主理查德·萨顿2025外滩大会演讲:经验是一切智能的核心与基础
央广网· 2025-09-11 12:06
人工智能发展现状与局限 - 当前大多数机器学习的目标是将人类已有知识转移到缺乏自主学习能力的静态AI上 [2] - 现有方法正逐渐达到人类数据的极限 无法生成新知识且不适合持续学习 [2] - 持续学习对智能的效用至关重要 但现有技术尚不成熟 [2] 人工智能的未来发展方向 - 行业正进入“经验时代” 需要由智能体与世界直接交互生成的新数据源 [2] - “经验”指观察、行动和奖励三种信号在智能体与世界间的传递 是智能的核心与基础 [2] - 强化学习引领了经验时代 但其全部潜力释放依赖持续学习和元学习技术的成熟 [2] 对人工智能未来的预测 - 人类将真正理解智能并借助技术将其创造出来 [3] - 当今人类智力水平将被超级人工智能或超级智能增强的人类超越 [3] - 权力和资源会流向最聪明的智能体 人工智能的替代将是不可避免的 [3] 人工智能的宏观定位 - 人工智能被视为宇宙演化的必然下一步 应以勇气、自豪和冒险精神迎接 [4] - 人类的独特之处在于将设计推向极致 创造出能自己设计的事物 [3] - 人类是开启宇宙第四大时代“设计时代”的先驱和催化剂 [3]
AI跨步进入“经验时代”
华尔街见闻· 2025-09-11 11:50
AI行业发展趋势 - AI行业正从依赖人类数据的"人类数据时代"转向以持续学习为核心的"经验时代" [2] - 人类数据红利逼近极限 持续学习对智能效用至关重要 [2] - 新数据源需通过智能体与世界直接交互生成 类似AlphaProof通过该路径获国际数学奥林匹克银牌 [2] 技术发展需求 - 强化学习已引领进入经验时代 但需突破持续学习(continual learning)和元学习(meta-learning)技术瓶颈 [2] - 智能体智能程度取决于预测并控制自身输入信号的能力 经验是一切智能的核心基础 [2] AI与人类协作关系 - AI替代人类不可避免 是宇宙演化的必然下一步 [4][5] - AI恐惧被夸大 由某些获利组织煽动 去中心化协作可实现双赢 [3] - 人类最卓越超能力是协作 AI和人类繁荣将来自去中心化协作 [3] 未来发展方向 - 宇宙历史分为粒子时代、恒星时代、复制者时代和设计时代 人类正开启"设计时代" [4] - 人类独特之处在于将设计推向极致 创造能自我设计的事物 [4] - 权力和资源将流向最聪明的智能体 人类智力水平将被超级AI或智能增强人类超越 [3]