人类画了100年的脑图，AI仅用几小时！还绘制出新脑区

文章核心观点 - 加州大学旧金山分校团队开发的CellTransformer算法，是一种基于Transformer架构的机器学习模型，能够以前所未有的速度和精度自动绘制大脑细胞图谱，不仅高效复现了已知脑区，还发现了新的脑区，并展现出应用于人类大脑及其他器官的巨大潜力 [1][3][4][38][41] 技术原理与创新 - 算法架构：CellTransformer采用编码器-解码器架构，核心是利用Transformer的自注意力机制，让细胞像语言模型中的词一样进行“交流”，学习细胞间的重要关系 [10][12][13] - 工作原理：模型随机遮住一个细胞的基因表达信息，仅保留其细胞类型标签，然后根据其“邻居细胞”（在一定微米距离内的细胞）来预测被遮住的信息，通过重复数百万次进行训练 [11][15] - 信息处理：模型通过多层Transformer编码器让邻域内细胞信息充分交互，再通过学习得到的池化操作将整个邻域压缩成一个代表“组织环境”的向量，最后通过解码器反推细胞的基因表达分布 [16][17][18] - 结果生成：为每个细胞提取“邻域表示向量”，将所有细胞的向量拼接后用聚类方法（如k-means）分析，脑区便会自动浮现 [18] 性能与效果评估 - 处理效率：仅花费数小时便完成了对5只小鼠大脑、总计1040万个细胞的空间组织建模，在时间和规模上远超传统手工方法 [1][20] - 准确性：能在完全不使用脑区标签的情况下，高度对齐已知的解剖和功能分区，可定义25到1300个神经区域，与手绘的艾伦小鼠脑通用坐标框架吻合良好，连皮层中的层级结构也能一致 [21][22] - 发现新脑区：除了对齐已知功能区，还能识别并绘制出过去未被系统标注的新脑区，例如在脑干的中脑网状核区域识别出4个具有丰富细胞类型和特定激活基因的新脑区 [19][26][32] - 解决科学问题：通过揭示纹状体（尾壳核）被细分为网格状、交错的更小区域，为“大脑同一部分如何执行不同任务”这一长期问题提供了潜在答案 [28][30] 应用扩展与未来前景 - 跨样本与跨物种能力：该算法并非“小鼠特供”，能成功整合具有异质性测量结果的不同动物脑区，在包含冠状和矢状切片的5只动物数据集中生成了一致的亚区 [35][36] - 目标指向人脑：研究的最终应用目标是人类大脑，尽管人脑约有1700亿个细胞，目前数据不足，但团队相信一旦获得足够数据，CellTransformer能够应对挑战 [38][40][41] - 更广泛的应用：同样的算法原理可应用于其他器官，如肾脏和病理组织，通过提供详细细胞图谱来帮助研究健康与病变组织（如糖尿病肾脏）的差异 [41]