Workflow
推理速度快50倍,MIT团队提出FASTSOLV模型,实现任意温度下的小分子溶解度预测
36氪·2025-08-26 15:23

研究突破 - 麻省理工学院研究团队开发了FASTSOLV模型,通过结合化学信息学工具与BigSolDB数据库,改进FASTPROP和CHEMPROP架构,实现溶质分子、溶剂分子及温度参数的多输入直接回归训练[1][2] - 在严格溶质外推场景下,优化后模型的RMSE相较Vermeire等人的SOTA模型降低2–3倍,推理速度提升最高达50倍[1][2][14] - 模型在SolProp测试集上RMSE=0.83,接近实验随机不确定极限(RMSE=0.75 log单位),且性能优于MolFormer、ChemBERTa-2等大模型[14][15] 技术架构 - 模型将溶质和溶剂分子结构映射为表征向量,与温度参数拼接后输入全连接神经网络进行logS回归训练[11] - 采用集成策略,在4个不同随机初始化条件下训练FASTPROP模型组合成FASTSOLV,有效降低随机波动风险[13] - 支持SHAP可解释性分析,并能区分结构相似的己烷与庚烷溶剂[14][20] 数据体系 - BigSolDB数据库系统收录有机固体在多溶剂及温度条件下接近沉淀极限的溶解度数据,logS分布集中在–1附近且低溶解度端呈长尾分布[6][7] - 训练采用严格以溶质为单位的数据切分:95%溶质用于训练,5%用于验证,同一溶质在不同溶剂与温度下的测量不会跨子集出现[9] - 使用ASTARTES工具包按完整实验为单位随机划分验证集,确保评测独立性[9] 性能表现 - 在Leeds数据集上,FASTPROP与CHEMPROP的RMSE分别降至0.95和0.99(Vermeire模型为2.16),P₁均超69%[14] - 模型在SolProp测试集上预测高度相关(Pearson r=0.81),温度梯度预测分布一致(EMD=0.03/0.02)[17] - 对利培酮预测RMSE=0.16(Vermeire为1.64),对L-脯氨酰胺预测RMSE=0.25(Vermeire为2.33)[20] 行业应用 - 制药行业采用高通量溶解度评估技术(如AspenTech的Aspen Solubility Modeler),基于少数溶剂实测数据预测数百种溶剂组合溶解度,在GSK和AstraZeneca等公司提升晶体筛选与工艺开发效率[25] - 材料研发领域通过数据驱动模型分析分子结构与性能数据,预测新材料特性以缩短研发周期并降低成本[25] - 化工企业利用模型预测不同溶剂和温度条件下的反应效果,优化生产工艺并提高产品质量[25] 学术影响 - 英国利兹大学开发结合人工智能与物理-化学机制的Causal Structure Property Relationship模型,在有机溶剂与水体系中实现预测精度接近实验误差水平的溶解度预测[24] - 麻省理工学院利用图神经网络Chemprop测定39,312个化合物的抗生素活性和毒性,并对12,076,365个化合物展开预测,成功应用于新抗生素挖掘[24]