准确率达97%,普林斯顿大学等提出MOFSeq-LMM,高效预测MOFs能否被合成
36氪·2026-01-15 19:10

研究核心突破 - 普林斯顿大学与科罗拉多矿业学院联合团队开发了一种基于大语言模型(LLM)的机器学习方法,可直接从MOFs的结构序列预测其自由能,从而显著降低计算成本,实现高通量、可扩展的MOFs热力学评估 [1][2] - 该模型在判断MOFs自由能是否高于或低于基于经验的合成可行性阈值时,F1值高达97% [2] - 该方法为在基于性能的计算MOFs筛选中,将机器学习自由能预测作为早期或后期筛选工具提供了可行途径 [7] 研究背景与挑战 - 金属有机框架(MOFs)因其高度可调的孔结构和丰富的化学功能性,在气体存储、分离、催化以及药物传递等应用中展现出巨大潜力 [1] - MOFs庞大的设计空间涵盖了数万亿种可能的构建模块组合,仅依靠实验探索效率极低 [1] - 计算生成MOFs的主要挑战是“筛选到合成”的低转化率,源于其合成可行性存在不确定性,例如已发表的数千个计算MOFs筛选中,仅约十余个伴随有MOFs合成 [1] - 自由能是评估MOFs热力学稳定性和可合成性的重要指标,但传统计算方法在大规模数据集上代价高昂,难以支持快速筛选 [2] 数据集构建 (MOFMinE) - 研究团队构建了名为MOFMinE的大规模数据集,涵盖约100万个MOFs原型,包含了从构件选择、拓扑模板映射到功能化修饰的全流程信息 [7] - 数据集生成基于ToBaCCo-3.0平台,通过将构建单元映射到拓扑模板上来生成MOF结构 [9] - MOFMinE包含1,393种拓扑模板、27种无机NBB、14种有机NBB和19种基础EBB,并涵盖13种功能化修饰,保证了化学和拓扑结构的多样性 [10] - 数据库的孔隙率范围从0.01到0.99,比表面积从26到8382 m²/g,最大孔径从2.6到127.7 Å,充分覆盖MOFs的结构空间 [10] - 在100万个MOFs原型中,有一个包含65,574个结构的子集收集了自由能数据,用于LLM的自由能预测微调和测试 [11] 模型框架与表征 (MOFSeq-LMM) - 研究团队构建了MOFSeq-LMM模型框架,核心思想是将MOFs的结构信息转化为计算机可理解的序列表示(MOFSeq),并结合大语言模型进行学习和预测 [12] - 研究人员开发了MOFSeq,这是一种新型基于字符串的序列表示方法,以优化的方式编码MOFs的局部与全局结构特征 [13] - 最终,793,079个MOFSeq预训练样本被划分为训练集634,463个、验证集79,308个和测试集79,308个;54,443个MOFSeq微调数据点被划分为训练集43,554个、验证集5,444个和测试集5,445个 [16] 模型设计与训练 (LLM-Prop) - 研究团队采用了LLM-Prop,这是一种专为材料性质预测设计的大语言模型,模型规模约3,500万参数,输入长度设为2,000 tokens [17] - 预训练阶段:训练LLM-Prop通过MOFSeq预测MOFs的应变能,取得MAE为0.623 kJ/molMOFatom,R²为0.965 [18][21] - 微调阶段:模型目标改为预测自由能,LLM-Prop设计为轻量化模型,其规模约为Llama 2的1/2000,优先考虑计算效率 [19] 模型性能评估 - 自由能预测:模型能够以0.789 kJ/molMOFatom的平均绝对误差精确预测自由能,同时取得R² = 0.990的高相关性 [21] - 合成可行性判定:将ΔL_MFFL设定为4.4 kJ/molMOFatom阈值进行二分类预测,F1分数达到97%,ROC曲线下面积高达0.98 [27][29] - 多晶型MOFs筛选:在7,490个多晶型家族中,模型能够在自由能差异仅0.16 kJ/molMOFatom的情况下以约63%的成功率选出最稳定晶型;当自由能差异增大至0.49 kJ/molMOFatom时,成功率提升至89%;总体平均成功率约为78% [30][32] - 从实际应用角度看,如果模型判断某个MOFs设计可合成,其正确性概率在约76%至98%之间 [33] 消融实验分析 - 仅局部特征:通过预训练,MAE从1.242降至1.168 kJ/molMOFatom,R²从0.971提升到0.974 [24] - 仅全局特征:性能更优,MAE下降至1.0 kJ/molMOFatom以下,R²提升至约0.980 [25] - 局部与全局特征结合:在预训练支持下实现最佳性能,MAE为0.789 kJ/molMOFatom,R²为0.990,证明两类特征的协同作用至关重要 [26] 行业研究范式转变 - 人工智能的深度介入正在重塑MOFs乃至整个材料学领域的研究范式与创新节奏 [34] - 传统研究以结构或性能为起点,通过局部变量控制和大量实验逐步逼近目标材料;新研究范式起点前移,首先构建可计算、可推理的材料表示体系,再让模型学习结构组合的物理合理性、热力学可行性与合成价值 [36] - 当模型能在百万级结构空间中快速给出可信判断时,材料研究的重心将从“如何计算与测量”转向“如何定义问题、构建表示并设定决策边界” [36] 相关并行研究进展 - 多伦多大学等机构团队提出MOF-ChemUnity知识图谱,利用LLM在文献中MOF名称与晶体结构之间建立可靠映射,当前版本集成了约1万篇科学文章以及超过1.5万条CSD晶体结构及其计算化学性质 [34][35] - 上海交通大学团队开发了数据驱动的机器学习工作流,以有机配体结构信息为输入,预测MOFs金属节点类型,在测试集上实现了91%的预测准确率、89%的精确率和85%的召回率 [35]

准确率达97%,普林斯顿大学等提出MOFSeq-LMM,高效预测MOFs能否被合成 - Reportify