Workflow
大脑编码模型(brain encoding models)
icon
搜索文档
NeurIPS 2025 | 上下文元学习实现不微调跨被试脑活动预测
机器之心· 2025-11-19 12:07
研究背景与行业痛点 - 传统脑编码模型为每位新被试构建模型需采集数千张图像对应的脑活动数据,成本高昂且难以推广[2] - 现有方法即使使用预训练视觉模型,仍严重依赖大量被试内数据,在少样本或零样本条件下难以快速适应新个体,限制了临床等现实场景应用[2] - 人类高级视觉皮层功能组织存在显著个体差异,使得为每个新被试构建高精度编码模型必须依赖大量fMRI扫描,通常需数千图像,成本极高[6] - 当前主流"图像特征 + 线性回归"范式无法跨被试泛化,必须为每位新用户重新训练模型[6] 核心技术创新 - BraInCoRL提出基于元学习的上下文Transformer跨被试脑编码模型,仅凭少量示例图像及对应脑活动数据,即可无需微调地预测新被试对全新图像的脑响应[3][7] - 将每个脑体素视为独立的响应函数,训练目标是从稀疏观测中推断出可计算、可泛化的映射[7] - 核心思想是将每个体素的视觉响应建模为独立函数推断任务,置于元学习与上下文学习的统一框架下[10] - 在测试阶段,仅需提供新被试少量(如100个)图像-脑响应对作为上下文输入,模型通过前向计算动态生成该被试专属的体素编码器[11] 模型架构与训练策略 - 架构包含三部分:冻结的图像特征提取器、高级视觉皮层上下文Transformer、轻量体素编码器[13][18] - 采用三阶段训练策略:预训练阶段使用合成体素权重与噪声构造虚拟体素任务;上下文扩展阶段引入可变长度上下文样本;有监督微调阶段使用真实fMRI数据优化[15][19] - 高级视觉皮层上下文Transformer接收图像嵌入-脑响应对作为上下文,通过自注意力机制融合跨被试知识,直接生成体素编码器权重[18] 实验结果与性能优势 - 在NSD数据集上,BraInCoRL仅使用100张上下文图像,即在多个类别选择性脑区上达到与全量训练模型(9,000张图像)相近的解释方差[20] - 显著优于基于相同样本量的岭回归基线,在上下文数量变化情况下表现出强大稳定性[20] - 在BOLD5000数据集(3T扫描仪,不同刺激协议)上表现出色,验证其跨设备、跨协议的鲁棒性[22] - 在UMAP可视化中,BraInCoRL生成的体素权重呈现清晰语义聚类,人脸、场景、身体、食物等功能区域形成独立簇,在多被试间稳定复现[23] 语义理解与应用潜力 - 通过分析Transformer注意力机制,可了解视觉皮层功能组织,发现与体素选择相关的图像,验证语义合理性[27] - 将CLIP文本提示映射为图像嵌入输入BraInCoRL,即可零样本预测整个皮层的激活图,实现自然语言驱动的大脑探查[29] - 该方法大幅降低个体化脑编码模型构建门槛,为临床神经科学等数据受限场景应用开辟新路径[32]