1、第 卷第期 年月沧州师范学院学报 ,基于 和逻辑回归的糖尿病数据分析与研究张侠(合肥学院 人工智能与大数据学院,安徽 合肥 )摘要:糖尿病是一种血糖代谢障碍的慢性疾病,可以引起高血压、心血管病变等并发症,严重影响患者的预期寿命 基于 平台提供的糖尿病数据集,首先进行探索性数据分析,然后采用支持向量机()和逻辑回归模型对其进行分类预测,以准确率和召回率为评估指标,对比分析两个算法的优缺点,同时分别采用正则化和网格搜索优化逻辑回归和 模型,并在不同数据集上做了验证 结果表明,相对于传统的 和逻辑回归,优化后的 和逻辑回归模型准确率分别提升 和 ,召回率分别提升 和 优化后的 模型准确率较高,逻辑回
2、归模型召回率较高,两个算法各有优点关键词:糖尿病;数据分析;逻辑回归中图分类号:文献标识码:文章编号:()糖尿病在临床上分为型糖尿病和型糖尿病 型糖尿病由于身体机能损伤等原因,血糖不能进入细胞,导致体内葡萄糖含量高 胰岛素是体内唯一可以降低血糖浓度的激素 由于胰腺细胞受到自身免疫系统攻击,导致体内胰岛素分泌不足,血糖无法降低,从而导致型糖尿病 型糖尿病产生的原因是胰岛素抵抗异常 胰岛素抵抗是指体内可以正常分泌胰岛素,但其不能有效调节体内葡萄糖 糖尿病患者身体不仅会表现出血糖升高,还伴有一些其他的并发症,如高血压、心脏病、视网膜病变等,这会给患者带来非常大的打击因此,有效识别分析造成糖尿病的因素
3、,对减少糖尿病患病率、延长患者预期寿命具有重要意义相关工作在糖尿病分析与预测领域,随着各类公开数据集的出现,国内外学者对糖尿病的研究也逐渐增多 等采用邻域成分分析从印度糖尿病数据集中选择特征,输入到随机森林(,)和支持向量机(,)分类器中对数据进行了分类预测;等针对糖尿病数据使用 和 选择特征,然后使用前向选择算法建立模型,评估影响糖尿病血糖的因素;等提出了一种 技术与 均值聚类算法之间的整合方法,用于诊断糖尿病,与传统诊断方法相比,该方法在区分糖尿病和非糖尿病患者隐藏模式方面具有很高的准确性;等通过应用逻辑回归模型估计变量的系数,评估了 名男性和女性的糖尿病风险,并用贝叶斯逻辑回归模型估计由
4、逻辑回归模型确定的重要变量;黄国宝等建立差分自回归移动平均(,)模型,并使用组合模型 对上海市型糖尿病患者肺结核发病率进行预测,实验表明相对于单一的 模型,组合模型表现更优;许浩等使用多元逻辑回归分析方法,探索江苏省部分省直机关公务员心血管健康早期风险因素与日常生活方式的关系;等使用由多名女性糖尿病患者信息特征组成的数据集,以赤池信息准则和接受者操作特性曲线下的面积为评价标准,比较了几种常用的特征选择方法来预测糖尿病基于相关的研究基础,本文开展了基于 和逻辑回归的糖尿病数据分析与研究文章主要贡献为:()对糖尿病数据进行探索性数据分析,使用可视化方法展示特征变量之间的相关性和部分特征变量的分布(
5、)采用基于 和逻辑回归的方法,对糖尿病数据进行分类预测,并计算其准确率和召回率()对 和逻辑回归分别采用网格搜索和引入正则项进行模型优化,并且使用不同的数据集进行了验证,结果收稿日期:作者简介:张侠(),女,安徽亳州人,合肥学院人工智能与大数据学院在读硕士研究生,研究方向:数据挖掘、故障诊断DOI:10.13834/ki.czsfxyxb.2023.01.018表明优化后的 模型的分类准确率和召回率均达到了 以上探索性数据分析 实验数据实验数据来自由加州大学欧文分校(,)提出的用于机器学习的数据库和 上广泛使用的标准数据集,代表不同种类疾病,分别命名为 ,为糖尿病数据集,属性信息包括糖尿病家族
6、史、小时内口服葡萄糖实验中血浆葡萄糖的浓度、血压、身体质量指数(,)等,两个类别分别为健康和患病;为肿瘤数据集,属性信息包括团块厚度、细胞大小和形状的均匀性、细胞核大小、单层上皮细胞大小等,两个类别分别为良性和恶性;为心脏病数据集,属性信息包括胸痛类型、患者入院时的静息血压、静息心电图结果、达到的最大心率等,两个类别分别为健康和患病;为哈伯曼癌症生存数据集,属性信息包括检测到的阳性腋窝淋巴结数和年龄等,两个类别分别为患者存活年或更长时间和患者年内死亡;为乳腺癌数据集,属性信息包括体质指数、抵抗素和脂联素含量等,两个类别分别为健康和患病;为帕金森病数据集,属性信息主要包括平均人声基频、基频变化的
7、度量等,两个类别分别为健康和患病;为乳房 光肿块数据集,属性信息包括肿块的形状、边缘、密度等,两个类别分别为良性和恶性;为肝炎数据集,属性信息包括是否患有静脉曲张、胆红素含量等,两个类别分别为存活和死亡;为肝病患者数据集,属性信息包括结核总胆红素、碱性磷酸酶含量等,两个类别分别为肝病患者和非肝病患者实验所用到的糖尿病数据集 ,来自 位皮马印第安 周岁以上的女性身体特征信息,共包括个属性信息,其中 ()表示怀孕的次数,表示小时内口服葡萄糖实验中血浆葡萄糖的浓度,表示血压,表示皮脂厚度,表示小时内身体胰岛素含量,表示体质指数,()表示糖尿病家族史,表示年龄大小,最后一个 表示类别变量,其中表示糖尿
8、病患者,表示健康 变量相关性分析对该数据集进行相关性分析并可视化展示,见图数值越接近于,表明数据之间的相关性越高从图可以看出,各特征变量之间的相关性比较低 分析年龄和小时内口服葡萄糖实验中血浆葡萄糖的浓度之间的关系,结果见图 可以明确看出,患者()体内葡萄糖浓度明显比健康()人体内葡萄糖浓度略高,只有少数健康人体内葡萄糖浓度比较高分析小时内口服葡萄糖实验中血浆葡萄糖的浓度和 的密度关系,见图和图图中竖直虚线的值为 ,可以看出健康人体内(虚线区域)葡萄糖浓度集中在 ,而糖尿病患者(实线区域)体内葡萄糖浓度大多集中在 到 ,这再一次表明了患者体内葡萄糖浓度偏高 图中竖直虚线值为,看出健康人(虚线区
9、域)大多集中在 到 之间,而糖尿病患者(实线区域)大多在 到 之间 因此,可以通过探索性数据分析方法,直观地看到患者和健康人体内某些成分含量的区别,初步判断此人是否可能是糖尿病患者,进而可以做出下一步的安排图特征变量之间的相关性图年龄和葡萄糖含量散点图图葡萄糖含量密度图图 密度图 变量重要程度分析特征变量重要度分析主要采用梯度提升决策树(,)和逐步回归分析 基于决策树思想,根据分裂节点均方误差的减少量来评估特征的重要程度,如果某个特征被分割的次数越多,则认为此特征越重要,通过该特征在所有单棵树中的相对影响的平均值来衡量 逐步回归分析的指标为赤池信息量准则(,),它的创立和发展来源于日本统计学家
10、赤池弘,是用来衡量统计模型拟合是否良好的一种标准,能够提供用来解释响应变量最少的自由参数信息,降低图特征变量的相对影响多重共线程度 的计算见公式()()()其中为拟合模型中参数的数量,是似然函数采用 算法对数据的变量特征进行重要度分析,结果见图从图可以看出,对糖尿病的影响占了很大比重,其次是 和 使用逐步回归分析进行模型选择,结果见表由表可以看到,逐步回归自动进行了三次分析,确定自变量个数为六个,分别为 (),()和 结合梯度提升决策树算法和逐步回归分析算法,选择自变量个数为六个进行分类预测表逐步回归分析选择模型步骤 公式 算法模型优化及结果分析 算法原理 是一种有监督的机器学习模型,具体原理
11、见图 算法的基本思想是针对输入的样本点,根据样本点特征信息建立多个决策边界(图实线),再根据多个决策边界建立一个最优超平面(图虚线),分类器建立的求解目标是为了使得两边实线到中间虚线的距离最大 逻辑回归是一种分类回归模型,用回归的思想来做分类,利用现有的数据对分类边界建立回归方程,以此实现分类问题 具体来说,首先通过自变量利用回归分析的思想得到因变量的预测值,然后通过逻辑函数把线性回归的结果从逻辑函数映射到概率值属于(,)之间,最后根据设定的阈值进行判别,实验中设置大于.为健康,小于.为糖尿病患者.逻辑函数的图像如图所示,可以看出的取值为(,),预测值和逻辑函数的计算方法见公式()和公式().
12、()()()其中,是自变量,是预测值,是待求系数,图 原理图逻辑函数图像 模型优化对于 模型,通过改进 模型超参数对 模型进行优化,使用网格搜索的方法寻找使得模型误差最小的超参数组合 大部分网络模型在训练集上表现良好,但在测试集上表现很差,此时会出现过拟合,还有一些在训练集上表现不好,在测试集上表现也较差,此时称之为欠拟合在实验中,需要不断选择适当的参数继续拟合,以此来保证模型尽量不出现过拟合和欠拟合两种情况网格搜索是一种常用的调参方法,根据给定超参数的范围,模型自动选择网格中每一个超参数进行拟合,记录每次在测试集上的误差表现,选择误差最小的超参数组合,获得最优 模型对于逻辑回归模型,在机器学
13、习中,模型以最小化损失函数为目标,以减少误差然而,最小化损失函数的过程,经常会由于过拟合而导致误差变大为了调节参数防止出现过拟合,引入正则项,称之为正则化,实验中将正则项引入逻辑回归损失函数,此时损失函数的计算公式为()()其中,()为逻辑回归损失函数,超参数为惩罚系数,为待求系数 模型评估和结果分析采用两个评价标准,分别是准确率和召回率,准确率反映了模型分类正确的概率,召回率反映了实际诊断出患病与被预测为患病的概率 准确率和召回率的计算公式分别为 ()()其中,为检测正确的患病人数,为检测错误的健康人数,为检测正确的健康人数,为检测错误表基于 和逻辑回归模型的准确率和召回率模型准确率()召回
14、率()逻辑回归 正则化逻辑回归 参数优化 的患病人数以准确率和召回率为指标,基于、逻辑回归和优化后的模型建模,结果见表 实验表明,优化后的 模型相对于传统的 模型,准确率提高了,且准确率和召回率均达到了 以上为了验证模型的泛化能力和分类器的性能,使用多个数据集进行对比,对建模结果取平均,数据见表和表 为了防止结果的偶然性,实验重复进行三次 从表和表中的数据可以看出,优化后的模型,其准确率和召回率均有提高,逻辑回归模型准确率提高了 ,召回率提高了 ;模型准确率提升了,召回率提高了 优化的 模型准确率提升较高,逻辑回归模型召回率较高表基于逻辑回归模型的准确率和召回率()数据集逻辑回归准确率召回率正
15、则化逻辑回归准确率召回率 均值 表基于 模型的准确率和召回率()数据集 准确率召回率超参数优化 准确率召回率 均值 结论首先对糖尿病数据进行探索性分析,主要分析了特征变量之间的相关性,采用 算法和逐步回归分析了特征变量的重要性,并且对数据特征进行可视化展示,直观地显示数据变量之间潜在的关系,从而做出初步判断;然后分别使用正则化和网格搜索对逻辑回归和 模型进行优化;最后对比分析了多个数据集在 和逻辑回归模型上的表现实验数据表明,基于 模型的分类准确率较高,基于逻辑回归模型的召回率较高,在二分类问题上,两个算法各有优点参考文献:,():,():,(),():,():黄国宝,黎衍云,吴菲,等 模型和
16、 模型对上海市型糖尿病患者肺结核发病的预测效果复旦学报(医学版),():许浩,黄晖明,汤强,等江苏省公务员心血管健康风险因素的逻辑回归分析体育与科学,():,:,():(,):,(),(下转第 页)高玲,李爽,李国莲 青少年友谊嫉妒对攻击行为的影响:自尊与自我控制的链式中介作用 中国临床心理学杂志,():金盛华 社会心理学 北京:高等教育出版社,刘艳网络暴力问题的危害、成因及预防金华:浙江师范大学,袁梦 刘苏 不同情境下师范大学生的从众行为研究 湖南第一师范学院学报,():于斌乐国安刘惠军自我控制的力量模型心理科学进展,():陈芸莉,严万森 高中生非自杀性自伤行为与家庭和校园氛围及自我控制系统的关系 中国健康心理学杂志,():桑青松,康琪,魏华,等公正世界信念与大学生网络攻击行为的关系:自我控制的中介作用 第二十二届全国心理学学术会议摘要集 杭州:中国心理学会,杭州师范大学,:,():李朔 从众行为的心理分析 辽宁行政学院学报,():贺世杰压力知觉与自尊对从众行为的影响石家庄:河北师范大学,(,):,:,:()(.,);(.,);(.,)()(.,);(.,);(.,)(.,);(.,