研究背景与挑战 - 解码古老岩层中的有机分子对掌握地球历史与研究生命演进至关重要 这些分子能破解生命诞生谜题 厘清光合作用起源与大气氧化关联 并填补生命演进时间线空白[1] - 传统方法如古生物化石形态和同位素分析受限于样本保存状态 复杂分子的明确记录仅能追溯至约16亿年前 远短于其他证据揭示的生命起源时间[1] - 太古代岩石中有机分子来源模糊 生物成因与非生物成因界限难以断定 导致许多关键发现停留在推测阶段[1] 研究方法与技术融合 - 研究团队提出“技术融合”解决方案 结合热解气相色谱-质谱分析与监督机器学习 从混乱分子碎片中捕捉古老生命遗迹[2] - 研究共分析了406份样本 涵盖古代与现代、生物与非生物来源 时间跨度从约38亿年前至1000万年前[4] - 样本具体包括沉积岩141块、化石65份、现代生物123个、陨石42颗及实验室合成有机分子组合35组[4] - 其中272份样本被明确划分为9个类别 用于监督机器学习的训练与测试[5] - 9类样本包括现代动物21个、现代植物非光合组织40个、现代植物光合组织36个、含光合蓝藻/藻类化石的沉积岩24个、木化石煤和油页岩49个、动物化石9个、现代真菌16个、陨石42颗、实验室合成样本35个[7][8][9] - 研究方法分为四步:收集样本、提取碳质大分子物质、使用py-GC-MS进行分析、使用数据训练监督随机森林模型[10] - 分析技术采用特定仪器配置 热解以500℃/s速率升温至610℃并保持10秒 色谱初始温度50℃并以5℃/min升至300℃ 质谱在70 eV电离能下工作[11][12][13] - 每个样本数据转换为二维矩阵 记录489,240个元素的信号强度 经处理后保留8,149个有效特征[13] - 模型采用随机森林方法 使用75%训练集与25%测试集的分层随机抽样 并通过10次重复的10折交叉验证评估泛化能力[14] 实验结果与模型效能 - 技术融合模型能100%精准区分现代有机物与陨石/化石有机物 辨别化石植物组织与陨石有机物精度达97%[2] - 模型成功识别出33.3亿年前和25.2亿年前古太古代和新太古代岩石中的生物成因分子组合证据[2] - 在9类已知属性样本的36种成对组合分类测试中 有25个测试的训练集与测试集正确率均≥90% 其中19个正确率≥95%[15] - 现代植物光合组织与陨石的区分案例达到100%准确率[16] - 针对区分生物源与非生物源构建了三个模型 Model 1区分现代动植物与非生物源 整体正确率达98% AUC测试集为1.000 10折交叉验证准确率为98.3%[18] - Model 2区分古代生物样本与非生物样本 生物成因古代有机样本正确率达95% 其中80%样本具有高置信度分类概率 非生物源样本正确率达90% 10折交叉验证准确率为92.7%[18] - 将Model 2应用于109个未知生物源的古代沉积岩 发现68个样本的生物源分类概率>0.50 32个样本>0.60[19] - 生物源样本比例随地质年代递减 显生宙样本中93%属生物成因 元古代样本中73% 太古代样本中仅47%[19] - Model 3区分古代生物源与非生物源 生物源样本全部分类正确 其中80%样本具有高置信度分类概率 非生物成因样本正确率为77% 10折交叉验证准确率为91.6%[21] - 结合Model 2和Model 3 确认了11个古代样本为生物源 最古老的为33.3亿年前的Josefsdal燧石[21] 研究意义与前景 - 该技术融合方法打破了传统局限 攻克了分子降解后难以分辨的核心难题[4] - 方法兼具科学性与前瞻性 不仅验证了太古代岩石中生命痕迹的存在 更为其他未知生命痕迹探寻提供了新方法[4] - 技术融合构建了古生物学与人工智能交叉的新范式[24] - 类似技术融合方法在区分非生物来源样本与生物样本方面达到了90%的准确率 并反映了达尔文生物分子选择功能的必要性[22]
卡内基跨学科团队利用随机森林模型,基于406份样本成功捕捉33亿年前生命遗迹
36氪·2025-12-11 16:40