2024-09-27 来源: drugdu 138
智药邦
以下文章来源于DeDrug ,作者Li's Lab
关注药物研发相关领域的研究进展,分享专业全面的文献解读;开拓学术视野,拓展思考深度。
2024年8月22日,华东理工大学/华东师范大学的李诗良/李洪林教授团队在Briefings in Bioinformatics期刊上发表了题为 "GR-pKa: A message-passing neural network with retention mechanism for pKa prediction" 的研究论文。
该论文介绍了一种创新的用于化学小分子pKa值预测的深度学习模型GR-pKa。该模型联合应用多重保真度学习 (Multi-fidelity learning) 、量子化学特征以及保留机制 (Retention mechanism) ,实现了对化学小分子pKa值的快速准确预测,为化学和药学领域的研究提供了强大的新工具。
研究背景
在药物发现和设计过程中,分子的酸碱解离常数 (pKa) 对ADMET特性(吸收、分布、代谢、排泄和毒性)及生物活性具有显著影响,因而受到高度重视。然而,传统的实验测定pKa值方法既费力又复杂。同时,现有的预测方法在训练数据的数量和质量方面以及处理复杂分子结构和物理化学性质的能力方面存在局限性,这限制了模型的预测准确性和泛化能力。因此,开发一种能够快速准确地预测分子pKa值的方法将在一定程度上有助于分子的结构改造,从而助力新药研发过程。
针对上述问题,研究团队开发了一种创新pKa预测方法——GR-pKa (Graph Retention pKa) 。该方法基于消息传递神经网络,并联合使用多重保真度学习策略,以实现对分子pKa值的高精度预测。GR-pKa模型特别集成了与分子热力学和动力学相关的五个量子力学 (QM) 特性,作为表征分子的关键特征。特别值得注意的是,该模型首次将最近提出的保留机制引入消息传递阶段中,这一创新显著提高了模型对分子信息的捕获和更新能力。经过多个数据集的测试, GR-pKa模型在宏观pKa值预测性能方面优于多个当前领先的模型。在SAMPL7数据集上的预测结果显示,该模型取得了平均绝对误差 (MAE) 0.490、均方根误差 (RMSE) 0.588以及决定系数 (R2) 0.937的高水平结果,验证了其在pKa值预测方面的高效性和可靠性。
研究方法
GR-pKa主要包含两个过程,即预训练 (Pre-training) 和微调 (Fine-tuning) 过程,如图1a所示。本研究基于Chemaxon计算所得的小分子pKa值构建了低保真度数据集,并以此对模型进行预训练。通过在这一数据量庞大的低保真度数据集上的学习,模型能够深入理解化合物分子结构与计算pKa值之间的定量构效关系。但由于计算pKa值与实验pKa值间仍然存在不可忽视的差值,仅依赖此数据集训练学习所得到的预测结果存在不准确性。为此,本研究对预训练后的模型进行微调,以提升预测的准确度。在微调过程中,本研究选用了一个由实验pKa值构成的小规模高保真度数据集,对预训练的模型进一步优化。通过这种调整,模型实现了从计算pKa值向实验pKa值的迁移,从而显著提升了模型预测的精准度。由于计算pKa值与实验pKa值之间存在高度的关联性,因此,在二者之间进行迁移是可行的,并且这种迁移能够对预测结果实现正向提升,同时又有效避免了负迁移的发生。
模型整体以消息传递网络为大框架,以分子的SMILES式作为输入,如图1b所示。首先,本方法构建了原子特征矩阵、键特征矩阵以及三个原子间矩阵,以作为分子的局部编码。同时,选用了具有明确物理化学意义的量子化学性质,作为分子的全局特征。在键特征矩阵的处理上,模型通过消息传递层中的键保留模块和键更新函数对特征矩阵进行迭代更新。消息传递阶段完成后,通过聚合传入的键隐藏状态,实现特征的整合。然后,将原子特征矩阵和多头原子保留模块进行拼接,以获得原子表示。在原子保留模块中,将距离矩阵、邻接矩阵以及电荷矩阵这三个缩放的原子间矩阵分别添加到每个保留头的权重中作为偏置项,这些矩阵分别表征了原子间的距离,相邻关系以及电荷信息。最后,将学习到的原子隐藏状态汇聚成为一个分子向量,并与预先定义好的量子化学特征进行拼接。这一组合特征随后输入到全连接层中,用于分子pKa值预测。
图1 GR-pKa方法的概况图。a: GR-pKa的多重保真度学习策略。b: GR-pKa的模型框架
研究结果
1. 方法比较
本研究首先在构建的高质量外部数据集E-pKa数据集上进行方法比较。如图2所示,在所有机器学习方法中,XGBoost表现最佳,其预测结果在一定程度上优于深度学习方法AttentiveFP。然而,从整体上来看,机器学习方法的预测效果弱于MolGpKa与GR-pKa模型,这表明采用分子图结构作为输入的深度学习模型在分子pKa值预测方面具有明显的优越性。此外,在所有比较的预测方法中,GR-pKa模型在酸性和碱性数据集上均显示出了最优的效果。在酸性数据集上,GR-pKa取得了最低的MAE、RMSE以及最高的R2,其值分别是0.528、0.758和0.939;在碱性数据集上,也同样实现了最低的MAE (0.447) 和RMSE (0.651) 以及最高的R2 (0.897) 。这些结果充分证明了GR-pKa模型在pKa值预测方面的优越性和准确性。
图2 方法在E-pKa数据集上的表现
2. 消融实验
为了进一步评估本研究中所使用的多重保真度学习、QM特征和保留机制的有效性以及其对预测准确性的贡献程度,本研究设计并实施了消融实验进行定量比较,结果如表1所示。实验结果表明,多重保真度学习的使用有效扩展了模型的预测能力,实现了低质量数据和高质量数据的有效融合。同时,先验性的引入具有明确物理化学意义的量子化学性质作为分子特征的辅助表示,同样显著提高了分子pKa值的预测准确性。此外,研究人员们普遍认同,两个原子之间所间隔的化学键数量越少,它们之间的相互作用越强,这一观点凸显了分子内部局部信息的重要性。本研究中,在特征更新学习中应用保留机制,能够更加集中地关注局部信息,这在一定程度与基本化学原理相符。因此,本研究认为,相比于注意力机制,保留机制在捕获分子信息方面具有一定的优势。消融实验研究的结果进一步证实了本研究的猜想:在信息传递阶段引入保留机制,显著提高了模型更新和学习化学信息方面的能力。
表1 模型在外部数据集E-pKa的消融实验结果
3. 外部验证
本研究还在两个公认的基准测试集SAMPL6、SAMPL7进行方法测试比较,结果如表2所示。从表中的结果可以看出,四种机器学习方法均表现较差,而其它几种基于分子图的方法则有着较好的表现。在SAMPL6数据集上,本研究的方法GR-pKa方法与MolGpKa方法均展现了较好的效果;在SAMPL7数据集中,GR-pKa方法在所有三项评估指标中均达到了领先水平,并且相较于其他方法有着较大的性能提升。此外,根据图3的SAMPL7测试集详细预测结果可以看出,除了分子SM31的预测结果超出±1这一区域,其他所有分子均处在区域内。这一现象表明,本研究方法在分子pKa值准确预测方面有着明显优势。
表2 模型在SAMPL6与SAMPL7数据集上的表现
总结
在本研究中,研究团队基于消息传递神经网络框架,成功开发了一种创新的小分子pKa值预测方法GR-pKa。针对实验pKa值数据稀少的问题,本研究采用了多重保真度学习策略,有效整合了低质量的计算pKa值数据以及高质量的实验pKa值数据,以此增强模型的泛化能力和预测精度。此外,本研究还先验性的引入具有明确物理化学意义的量子化学性质作为分子特征的辅助表示,进一步提升了预测的准确性。本项目另一创新点在于首次将保留机制应用于消息传递阶段,优化了特征的更新学习。通过系统评估,模型在一个外部数据集和两个公认基准数据集上均展现了出色的性能。此外,通过消融实验,本研究明确了不同策略对于提升预测性能的贡献,验证了所采用策略的有效性。
华东理工大学苗润雨和华东师范大学博士后刘旦麟为本研究的共同第一作者,参与工作的还有华东理工大学毛丽韫、陈星宇、张雷浩、袁珍、石姗姗。华东师范大学/华东理工大学李诗良教授和李洪林教授为该文章通讯作者。该工作得到了中国国家自然科学基金(82173690,82425104,82150208) 和国家重点研发计划 (2022YFC3400501, 2022YFC3400504) 的经费资助。