2024-01-28 22:40

使用机器学习预测印度尼西亚高血压患者的收缩压和舒张压变化


下载原文档:

摘要。

检讨目的

本回顾性研究调查了影响收缩压和舒张压降低发生的因素,包括社会人口统计学和经济因素、高血压病程、吸烟、饮酒、吸烟持续时间、香烟类型、运动、盐摄入量、安眠药摄入量、失眠和糖尿病。这些因素应用机器学习算法Naïve贝叶斯、人工神经网络、逻辑回归和决策树预测收缩压和舒张压降低的现实情况。

最近发现

收缩压和舒张压的升高对健康是非常有害的,因为不受控制的高收缩压和高舒张压会引起各种疾病,如充血性心力衰竭、肾衰竭和心血管疾病。已经有很多研究检查了影响高血压发生的因素,但很少有研究使用机器学习来预测高血压。

总结

机器学习模型表现良好,可用于预测具有某些特征的高血压患者在使用降压药治疗后是否会出现收缩压或舒张压下降。

介绍

收缩压和舒张压的升高对健康是非常有害的,因为高血压会引起充血性心力衰竭、肾衰竭、心血管疾病等多种疾病[1,2,3,4]。收缩压(SBP)是在心脏向全身供血时产生的,而舒张压(DBP)是在心脏休息并充满血液时产生的[5]。如果只有收缩压升高而舒张压保持不变,对个体来说仍然是非常危险的[6]。孤立性收缩期高血压(ISH)定义为收缩压≥140 mmHg,舒张压< 90 mmHg[7]。几项研究表明,孤立性全身性高血压最常见于60岁以上人群,可由动脉僵硬、甲状腺功能亢进(甲亢)、糖尿病、心瓣膜疾病和肥胖引起[7,8,9,10,11]。此外,不受控制的ISH最终会导致卒中、心肌梗死、心力衰竭、周围血管疾病、动脉瘤、慢性肾脏疾病、视网膜病变和勃起功能障碍的风险增加[12,13]。同样,孤立性舒张期高血压(IDH)(收缩期< 160 mmHg,舒张期> 90 mmHg)[14]通常与主动脉疾病的风险增加有关[15]。主动脉将血液和氧气输送到心脏;因此,舒张压升高的人通常更容易发生腹主动脉瘤,腹主动脉瘤破裂可导致死亡[16]。

因此,降低收缩压和舒张压是非常重要的。这可以通过降压药、改变生活方式(如有氧运动)、低盐(钠)饮食和保持健康的体重平衡来实现。超重,尤其是腹部超重,会导致血压在18.5 - 24.9 kg/m2之间升高,如果一个人肥胖,那么减肥就变得重要了,应限制饮酒,并应立即停止吸烟,因为它会导致动脉壁斑块积聚并导致高血压[17,18]。充足的睡眠也非常重要,睡眠专家建议每晚睡眠7 - 8小时,因为每天睡眠不足6小时可能会使血压升高,使高血压病情恶化[19]。

机器学习(ML)是一种众所周知的人工智能(AI)技术,发展非常迅速,现在是第四次工业革命(工业4.0)中最受欢迎的技术。将机器学习应用于许多通常需要使用统计学进行多个阶段计算的任务可以更快地实现[20,21]。Islam等人使用多种危险因素作为预测因子,采用决策树(DT)、随机森林(RF)、梯度增强机(GBM)、极端梯度增强机(XGBoost)、线性判别分析(LDA)和逻辑回归(LoR)等多种机器学习方法预测高血压发病率[22•••]。我们的研究将几个机器学习预测模型应用于从印度尼西亚几个社区卫生中心的医疗记录中随机选择的数据,以预测有吸烟史的高血压患者舒张压和收缩压状态的降低。

方法

本回顾性研究旨在建立一个模型,预测有吸烟史的患者服药后收缩压和舒张压是否降低。该研究涉及来自日惹Sleman Regency Gamping 1和Gamping 2健康中心的100名高血压男性患者,他们有吸烟史。这项研究得到了日惹卫生部卫生研究伦理委员会的批准(编号:No。e-KEPK POLKESYO / 0646.1 / X / 2022)。

使用机器学习将数据集分类或分组为输入和输出特征。稍后将进一步详细解释输入特征(X),输出变量(y1)为收缩压下降,(y2)为舒张压下降。输出变量称为目标特征,是二项数据。使用的模型预测算法有NB (Naïve Bayes)、ANN(人工神经网络)、LoR(逻辑回归)和DT(决策树)。

使用观测特征及其各自的标签训练逻辑回归模型,然后用于预测新数据。使用二元分类预测,即生成“是”或“否”答案,这是另一种形式的线性回归,它使用二元而不是数字类别[21]。

NB是建立在贝叶斯[23]理论基础上的一组分类算法,它计算观测值中一个样本进入特定组(类)的高概率有多大。贝叶斯方法分类模型利用训练数据集根据每一类的特征值计算其概率。当模型面对新数据时,将使用新特征来计算哪些类别可能较高。在统计学中,这一理论解释了所谓的条件概率[21],即事件B出现时事件A发生的可能性,由于事件A依赖于事件B,因此这是有条件的。

决策树是一种机器学习算法,它使用一组规则来做出具有树状结构的决策,并对可能的结果进行建模。通过根据数据属性将数据分解为更小的组,这些组的划分是重复的,以便属于同一类的所有数据元素适合一个组。这类似于人类思维方式的不同;人类基于经验进行思考,而在DT中,计算机通过测量信息增益或以特征形式输入信息来分解数据[21]。

人工神经网络是一种利用概率原理创建分类预测模型的算法,通过利用过去事件的数据,该模型可以预测未来会发生什么。该模型计算事件发生的概率,如果提供额外的支持信息,该模型可以改变[21]。人工神经网络有一个黑盒接近方法,这意味着从外部无法清楚地看到过程内部发生的事情。该模型是由复杂的数学演算形成的,很难理解,但这并不妨碍神经网络在许多科学实践中的实施,因为它们能够以良好的精度捕获操作特征[24]。

通过计算模型的百分比准确度、精度、F-1评分和灵敏度来评估模型的性能。通过测量成功预测的数据量与所有积极预测的数据量(包括真阳性和假阳性或模型的精度)来评估工作绩效。在本例中,我们根据所包含的特征预测了14个特征,以及这些特征在进入模型后是否产生了符合实际的真实输出,或者参与者在服用药物后收缩压或舒张压是否下降。还测量了这些模型算法的灵敏度或召回率,即与所有正数据相比,成功预测为正的数量。这种敏感性说明了有多少模型没有预测到服用药物后血压下降的参与者的收缩压和舒张压下降。计算F-1分数,即查准率和查全率的调和平均值,F-1分数最好为1.0,最差为0。在代表性上,F-1分数越高,说明分类模型的准确率和召回率越高。

研究人群

从2022年7月至11月期间印度尼西亚日惹几家医院的医疗记录中随机抽取了100名有吸烟和高血压史的男性的医疗记录。使用几个机器学习模型(反应变量)预测这些患者的收缩期和舒张期下降的发生率。反应变量(y1)为服用降压药后收缩压下降,y2为舒张压下降,特征预测因子(X)为吸烟相关信息、社会人口状况、高血压和其他与血压相关的几种情况(表5)。

数据准备

对100份医疗记录的原始数据进行过滤,将文本变量转换为数字、缩放数据集并进行归一化,然后进行相关统计,并为每个特征构建可视化热图(图2)。最后,进行递归特征消除(RFE),以确定产生最佳预测模型的每个特征或变量的排名(表5)。

服药前后了解收缩压和舒张压

在进一步的数据分析之前,我们确定了服用降压药后影响收缩压和舒张压降低的特征。采用t检验确定服药前后收缩压和舒张压是否有差异。

机器学习算法

为了比较机器学习算法,研究人群被分为“训练”组和“测试”数据集。“训练”组导出了算法中包含的特征。“训练”数据集来自抽取数据集的80%的随机抽样,验证集数据由剩余的20%组成。

模式e估值

使用准确性、精密度、召回率、F-1评分和灵敏度对ML分类器的性能进行比较。机器学习算法在训练和测试数据集中的开发使用Python 3.7 (Python Software Foundation, Wilmington, DE, USA)完成。采用MLP分类器(隐层大小= 3,最大迭代次数= 5)设计人工神经网络。


目录

摘要。
介绍
方法
结果
讨论
结论
数据可用性
参考文献。
作者信息
道德声明



相关的内容



#####

结果

参与者年龄在25 - 74岁之间(平均52岁),大多数参与者年龄在55 - 64岁和65岁以上(48%),退休,平均患有高血压6.49年(表1和表2)。

表1参与者特征
表2调查对象吸烟史及血压

在服用任何药物之前,他们的平均收缩压为158 mmHg,舒张压为98 mmHg。服药后,患者的收缩压降至151 mmHg,舒张压降至87 mmHg(表2)。

参与者吸烟的平均时间为10年,大多数人在寻求医疗后戒烟。大约98%的人吸烟,2%的人吸电子烟(表1),平均每天消费9支香烟(表2)。

服用降压药后收缩压和舒张压的差异如图1所示。

图1
figure 1

服用降压药前后收缩压和舒张压的变化

根据t检验分析,抗高血压药物治疗后收缩压和舒张压均有显著降低(表3)。

表3 At降压药前后收缩压和舒张压的试验分析

降压药物治疗后收缩压差异最小为- 35 mmHg,最大为+ 10 mmHg,平均为-7 mmHg。舒张压变化最小为- 20,最大为+ 30 mmHg,平均为- 3.3 mmHg。这表明,即使在降压药治疗后,患者仍会出现收缩压和舒张压升高(表4)。

表4降压药前后收缩压和舒张压的差异

图2概述了服用降压药后收缩压和舒张压降低与排除特征的相关性。

图2
figure 2

基于特征的收缩压和舒张压下降的多元线性回归。收缩压和舒张压下降与所包括特征的相关性。热图提供了不同变量的相关矩阵的图形表示。高相关性用深橙色表示

从100份随机病历中获得的特征中,与服用降压药后收缩压降低最相关的10个因素依次为年龄、高血压持续时间、职业、身高、糖尿病、体重、吸烟持续时间、运动、每天吸烟数量和高盐饮食。相比之下,与舒张压下降最相关的因素是年龄、吸烟持续时间、盐摄入量、职业、运动、服用安眠药、失眠、体重、饮酒和身高(表5);表6显示了收缩压下降的输出变量(y1)和舒张压下降的输出变量(y2)。

表5输入变量(X)和命令基于与输出变量SBP (y1)及DBP (y2
表6输出(y1 和y2)变量

NB、DT、ANN和LoR的机器学习性能良好,对收缩压和舒张压的精度(≥90%)、准确度(≥84%)和灵敏度(≥80%)较高(表7)。

表7机器学习性能

讨论

结果表明,本研究中使用的降压药不一定能降低收缩压和舒张压。这与Marco等人对降压药平均降低收缩压和舒张压的研究一致,该研究表明,性别、种族和肥胖等社会人口因素与降压反应有关[25]。

机器学习在预测具有某些特征的高血压患者在服用降压药后是否会出现收缩压和舒张压下降方面表现良好。机器学习可以用于非常大的数据集,当与确定为影响血压的特征一起使用时,它是一个有效的预测器。从精密度、正确率、精密度和召回率、灵敏度等性能指标来看,逻辑回归的性能最稳定,其次是决策树、人工神经网络和Naïve贝叶斯。人工神经网络和逻辑回归在预测收缩压下降方面同样好,而逻辑回归在预测舒张压下降方面更好。

强度

这是第一个使用机器学习模型研究有吸烟史的男性高血压患者收缩压和舒张压降低的研究。这是一项真实的研究,因为参与者是从公共卫生中心(puskesmas)在2022年7月至11月期间的医疗记录中选择的高血压男性。

限制

样本相对较小,因此应该使用更大的数据集和更多的特征来训练和测试机器学习模型,以确认这些结果并提高预测的准确性。在这项研究中,并非所有的血压数据都是用计数员测量的,因为参与者是由医生开处方治疗高血压的。

结论

机器学习模型Naïve贝叶斯、人工神经网络、逻辑回归和决策树可用于预测高血压患者服用降压药后收缩压和舒张压的降低。由于收缩压和舒张压的降低可能受到许多本研究未考虑的因素的影响,如患者服药依从性、肥胖、药物类型等,因此需要未来涉及更大数据集和更多特征的研究。