2023-05-14 来源: https://www.news-medical.net/news/20230511/A-machine-learning-approach-for-the-early-diagnosis-of-Parkinsons-disease.aspx 189
作者:Dr.Priyom Bose,博士,2023年5月11日,医学博士Benedette Cuffari审核。
在所有神经系统疾病中,帕金森病(PD)的发病率显著增加。帕金森病的诊断通常基于运动神经症状,如静息震颤、强直和运动迟缓。然而,检测非运动症状,如便秘、冷漠、嗅觉丧失和睡眠障碍,可以在几年到几十年内帮助PD的早期诊断
在最近的一项ACS中央科学研究中,新南威尔士大学(UNSW)的科学家讨论了一种基于机器学习(ML)的工具,该工具可以在首次出现症状前几年检测PD。
研究:代谢组学数据的可解释机器学习揭示了帕金森病的生物标志物。
图片来源:SomYuZu/Shutterstock.com
背景
目前,基于运动症状对帕金森病的总体诊断准确率为80%。如果根据生物标志物而不是主要根据身体症状来诊断帕金森病,这种准确性可能会提高。
几种疾病是基于与代谢过程相关的生物标志物检测到的。使用诸如质谱(MS)之类的分析工具来评估血浆或血清样品中的生物代谢产物。
使用皮肤皮脂和呼吸的非侵入性诊断方法最近越来越受欢迎。先前的研究表明,多发性硬化症可以预测帕金森病前期候选者和健康个体之间的不同代谢产物谱。
这种代谢产物谱的差异在PD临床诊断前15年就已经观察到了。因此,代谢产物生物标志物可以比最近使用的方法更早地用于检测PD。
ML方法被广泛用于使用大型代谢组学数据开发用于疾病诊断的准确预测模型。然而,基于整个代谢组学数据集的预测模型的开发与许多缺点有关,包括过度训练可能会降低诊断性能。大多数模型是使用较小的特征子集开发的,这些特征子集是通过传统统计方法预先确定的。
一些ML方法,如线性支持向量机(SVM)和偏最小二乘判别分析(PLSDA),可能无法解释代谢组学数据集中的关键特征。然而,这种限制通过先进的ML方法解决了,例如神经网络(NN),这些方法是专门为处理大数据而设计的。
神经网络用于开发具有非线性效应的模型。基于神经网络的预测模型的一个主要缺点是缺乏机械信息和无法解释的模型。
Shapley加性解释(SHAP)最近被开发用于解释ML模型。然而,这项技术尚未被用于分析代谢组学数据集。
关于研究
在当前的研究中,研究人员使用不同的分析工具,如气相色谱-质谱(GC-MS)、毛细管电泳-质谱(CE-MS)和液相色谱-MS(LC-MS),评估了从西班牙-欧洲营养与癌症前瞻性研究(EPIC)中获得的血样。
EPIC的研究提供了从两名健康候选人的血浆样本中获得的代谢组学数据,以及那些在最初采集样本后15年内后来患上帕金森病的人的血浆样本
新南威尔士大学的研究员Diane Zhang开发了一种名为分类和排名分析的ML工具,该工具使用神经网络从MS生成知识(CRANK-MS)。该工具旨在解释基于神经网络的框架,以分析分析工具生成的代谢组学数据集。
CRANK-MS由几个特征组成,包括集成的模型参数,这些参数提供了待分析的代谢组学数据集的高维度,而不需要任何预选化学特征
CRANK-MS还包括SHAP,用于回顾性探索和识别有助于准确预测模型的关键化学特征。此外,SHAP能够使用五种众所周知的ML方法进行基准测试,以比较诊断性能并验证化学特征。
通过新开发的基于ML的工具,对39名15年后患帕金森病的患者的代谢组学数据进行了研究。将39名帕金森病前期患者的代谢产物谱与39名匹配的对照患者进行了比较,这提供了一种独特的代谢产物组合,可作为帕金森病发病率的早期预警信号。值得注意的是,这种ML方法在临床诊断之前预测PD表现出更高的准确性。
在所有六个ML模型中,有五种代谢物的得分一直很高,因此表明它们在预测PD未来发展方面的潜在效用。这些代谢物的类别包括多氟烷基物质(PFAS)、三萜类、二酰基甘油、类固醇和胆甾烷类。
检测到的二酰基甘油代谢产物1,2-二酰基甘油(34:2)异构体是某些植物油,如橄榄油,在地中海饮食中经常食用。PFAS是一种环境神经毒素,可以改变神经元细胞的加工、信号传导和功能。因此,饮食和环境因素都可能有助于帕金森病的发展。
结论
CRANK-MS可供所有对使用基于代谢组学数据的ML方法进行疾病诊断感兴趣的研究人员公开使用。
CRANK-MS在检测帕金森氏症中的应用只是人工智能如何改善我们诊断和监测疾病方式的一个例子。令人兴奋的是,CRANK-MS可以很容易地应用于其他疾病,以识别感兴趣的新生物标志物。她进一步声称,该工具对于用户友好,可以“在传统笔记本电脑上不到10分钟”生成结果
期刊参考: