半失能老人远程健康监测大数据缺失处理

资源描述

1、数据库系统设计Database System Design电子技术与软件工程Electronic Technology&Software Engineering204数据丢失会影响半失能老人远程健康监测大数据质量控制。在远程健康监测数据传输、存储等转移过程中发生丢失，导致数据缺失1，数据缺失问题是数据质量问题中的关键因素2。填充缺失数据时通常会选取多重填补、聚类填充、期望最大值填充等策略，对于不同的数据集，不同的填充策略通常会影响填充效果的好坏。多重填补基于随机缺失假定，通过现有数据值来进行评估，先生成多个估计填补值，产生相应完整数据集，再确定估计填充值3。多重填补法应用的例子有：V.Anan

2、d4等人在 20 个真实世界营销数据集上评估了平均插补、多元填补、顺序回归树插补和顺序随机森林插补。结果表明，多重填补和顺序随机森林插补比所考虑的其他方法表现更好。聚类填充先通过聚类的方法把数据集分类成不同的簇，接着按照不同的分类情况进行相似填充5。对于每一个缺失数据，选取和它最为相似的分组，然后把组内数据的属性均值填充给该缺失数据。聚类填充法应用的例子有：因为高维空间的聚类计算复杂度高，卢继哲6等人采取自编码器来降低维度，解决长时间序列导致的聚类困难问题，提高了聚类性能。EM 算法有两个步骤。期望步，通过隐藏变量的现有估计值，计算最大似然估计值。最大化步，求出模型参数。重复交替进行期望步和最

3、大化步，不断更新缺失数据值7。期望最大值填充法应用的例子有：文献8通过插补不同程度的缺失数据，旨在比较 EM 算法和矩阵补全算法的性能。结果表明，EM 算法在理论和应用模型均优于矩阵补全。一般情况下，聚类填充可以有效地填充缺失数据，但是半失能老人远程健康监测大数据的维度较高，无法衡量数据间的相似度。由于 EM 填充策略具有很好的随机性，不会过度破坏数据集的变异程度，本文采用聚类填充结合 EM 填充的缺失数据填充算法。1 基于改进K-means蚂蚁聚类算法蚂蚁聚类算法将数据集分类，但其易出现早熟和收敛速度慢的问题9。可以利用 K-means 算法先将数据集聚类分组，得到粗略的聚类结果，并用于蚁群

4、聚类算法，进行更精确的聚类操作，从而提高分类精度。数据集 X 有 n 个数据样本，对应 n 只蚂蚁，每只蚂蚁有 m 个属性，聚类个数为 K，数据样本记为 xi=xi1,xi2,xij,(i=1,2,.,n),(j=1,2,.,m)；数据集X=x1,x2,xn；聚类中心 w=w1,w2,.,wk；聚类结果W=W1,W2,.,Wk。基于改进 K-means 蚂蚁聚类算法步骤如下：（1）利用 K-means 算法先将数据集聚类分组，粗略得到簇类中心点；（2）对每只蚂蚁进行有条件的信息素初始化，如果一个蚂蚁属于某一分类簇，则通往该簇类中心点的路径信息素初始值高，反之则较少。初始化蚁群参数，如蚂蚁数量n

5、、信息素挥发系数、分配阈值q0等、参数Q，信息素 ij初始化；半失能老人远程健康监测大数据缺失处理王泽荣蔡延光（广东工业大学自动化学院广东省广州市 510006）摘要：本文对传统蚂蚁聚类算法易出现早熟和收敛速度慢的问题，提出了基于改进 K-means 蚂蚁聚类算法，并将优化后的聚类算法与优化填充策略结合，对半失能老人远程健康监测缺失数据进行填充。仿真结果说明：改进 K-means 蚂蚁聚类算法的分类精度有所提高，基于改进 K-means 蚂蚁聚类的缺失数据填充算法的填充效果有所改善，可以有效填充半失能老人远程健康监测的缺失数据。关键词：优化蚂蚁聚类算法；缺失数据；聚类填充；EM 填充数据库系

6、统设计Database System Design电子技术与软件工程Electronic Technology&Software Engineering205（3）对于每只蚂蚁，随机生成一个 0 到 1 的常数 p，如果 p 值小于给定的分配阈值 q0，则该蚂蚁通往路径信息素最高的分类簇，否则该蚂蚁根据轮盘赌公式（1），选择聚类到某分类簇；（1）其中，ij是蚂蚁 i 到聚类中心 j 的信息素，dij代表蚂蚁 i 到聚类中心 j 聚类中心 Wj的距离。（4）根据式（2）计算目标函数和式（3）更新簇中心；（2）（3）式（2）中，Wj表示第 j 个分类簇，xWj表示属于簇 Wj的蚂蚁，wj表示簇 W

7、j的簇中心。式（3）中，num(xWj)表述簇 Wj中的蚂蚁个数。（5）根据式（4）更新路径信息素；（4）（6）达到预定的迭代次数或不再前进，输出最好解；否则转到步骤（3）。2 基于改进K-means蚂蚁聚类的缺失数据填充算法聚类填充的核心思想是先通过聚类的方法把数据集分类成不同的簇，然后用同类簇簇内数据的属性均值填充缺失数据值，但该方法会破坏样本数据属性之间的联系和同化样本数据10。EM 填充的核心思想是首先估计出缺失数据初值，通过引入潜在变量计算出模型参数的值，然后重复交替进行期望步和最大化步，不断更新缺失数据值，直到收敛11-13。设半失能老人远程健康监测完全数据集为 Xall，数据包括

8、两部分，Xall=Xobs+Xmiss。EM 填充策略步骤如下。（1）确定缺失数据初始预估值。第一次进行期望最大值算法，设缺失数据初始预估值 0。0=Xfill0 （5）其中，Xfill0为初始填充值，本文用基于改进 K-means蚂蚁聚类后的簇内数据属性均值。（2）定义似然函数。（6）其中，联合分布f(Xobs,Xmiss|)取决于。寻求合理的，使得似然函数 L(|Xobs)取得最大值。（3）期望步。当第 k 次进行期望最大值算法，求对数似然函数L(|Xobs,Xmiss)期望。图 1：基于改进 K-means 蚂蚁聚类的缺失数据填充算法流程图数据库系统设计Database System D

9、esign电子技术与软件工程Electronic Technology&Software Engineering206EXfill|Xobs,k=Elg(f(Xobs,Xmiss|)（7）（4）最大化步。求 EXfill|Xobs,k 关于参数的最大值 k+1，使得k+1=argmax(EXfill|Xobs,k)（8）（5）重复交替进行期望步和最大化步。（6）如果前后两次填充值的差值 t小于预定阈值，停止，输出缺失数据填充值。本文采取了聚类填充结合 EM 填充的优化填充策略。xjt和 xje分别是聚类填充和 EM 填充的缺失数据的第 j 个属性。优化填充策略的公式如下：（9）其中，xj是最

10、终缺失数据填充值的第 j 个属性。基于改进 K-means 蚂蚁聚类的缺失数据填充算法具体步骤如下：（1）执行基于改进 K-means 蚂蚁聚类算法；（2）利用聚类结果进行聚类填充和 EM 填充；（3）利用优化填充策略填充缺失数据的属性值。基于改进 K-means 蚂蚁聚类的缺失数据填充算法流程如图 1 所示。3 实验与分析本文选取式（12）的均方根误差 RMSE 来评估缺失数据的填充效果。（12）其中，Xfill为算法填充值，Xmiss为缺失数据值，p 为缺失数据个数。RMSE 越小，填充效果越好。从半失能老人远程健康监测数据集中随机抽取 5 组样本数为 4000 的测试数据集，以完全随机丢

11、失的方式丢失一定数量的数据样本，分别产生 10 个缺失数据个数为 200，400，800，1200，1600 的测试数据集。通过对比实验验证基于改进 K-means 蚂蚁聚类的缺失数据填充算法（KACC-优化填充）具有良好的填充效果，将该算法与蚂蚁聚类算法结合聚类填充策略（ACC-CI）、蚂蚁聚类算法结合 EM 填充策略（ACC-EMI）和 KNN填充算法进行仿真实验对比，各自进行 10 次实验并记录 10 次实验的 RMSE 平均值，实验结果如图 2 所示。由图 3 可知，KACC-优化填充算法得到的 RMSE值均小于其它算法，说明 KACC-优化填充算法的缺失数据填充效果优于传统的蚂蚁聚类

12、缺失数据填充算法图 2：缺失数据的填充效果对比图数据库系统设计Database System Design电子技术与软件工程Electronic Technology&Software Engineering207ACC-CI。这是因为单一的聚类填充策略容易破坏样本数据属性之间的联系和同化样本数据，当数据样本数量大且缺失比例较高时，很难准确地填充缺失数据。KACC-优化填充还引入了 EM 填充策略，可一定程度提高填充精度，可以有效地处理半失能老人远程健康监测大数据缺失的问题。4 总结利用 K-means 算法先将数据集聚类分组，再将聚类结果用于蚁群聚类算法，进行更精确的聚类操作。聚类填充策略容

13、易破坏样本数据属性之间的联系和同化样本数据，为提高填充精度，本文采取了聚类填充结合 EM填充的优化填充策略。在基于改进 K-means 蚂蚁聚类算法对数据集聚类的基础上，利用优化填充策略填充缺失数据的属性值。实验结果表明，改进 K-means 蚂蚁聚类算法分类精度有所提高，基于改进 K-means 蚂蚁聚类的缺失数据填充算法的填充效果有所改进，可以有效地处理半失能老人远程健康监测大数据缺失的问题。参考文献1 熊中敏,郭怀宇,吴月欣.缺失数据处理方法研究综述J.计算机工程与应用,2021,57(14):27-38.2 闫世艳,郭中宁,何丽云等.临床研究缺失数据多重填补敏感性分析方法 J.世界科学

14、技术-中医药现代化,2020,22(03):823-828.3 焦志刚,凡如,许碧云等.临床纵向数据缺失的多重填补及其敏感性分析 J.中国临床药理学与治疗学,2021,26(09):1037-1041.4 V.Anand and V.Mamidi.Multiple Imputation of Missing Data in Marketing,2020 International Conference on Data Analytics for Business and Industry:Way Towards a Sustainable Economy(ICDABI),Sakheer,Bah

15、rain,2020,pp.1-6.5 黄紫成,李影.基于模糊 C-均值聚类的缺失数据填充方法J.吉首大学学报(自然科学版),2020,41(02):23-26.6 卢继哲,刘宣,唐悦等.基于聚类和 LSTM 的电力分钟冻结数据缺失值填充方法 J.控制工程,2022,29(04):611-616.7 陶叶辉,赵寿为.基于改进 EM 算法的高斯混合模型图像聚类方法J.软件导刊,2022,21(12):182-186.8 E.Thulare,R.Ajoodha and A.Jadhav.An Empirical Analysis and Application of the Expectation-

16、Maximization and Matrix Completion Algorithms for Varying Degrees of Missing Data,2021 Southern African Universities Power Engineering Conference 2021,pp.1-7.9 李振.K-Means 算法研究及其与智能算法的融合D.安徽大学,2016.10 林枫,蔡延光,蔡颢,等.基于布谷鸟算法优化K-means 聚类的缺失数据填充算法 J.自动化与信息工程,2020,41(06):13-17+27.11 孙华艳,李业丽,字云飞,等.基于分类的加速EM 缺失数据填充算法 J.北京印刷学院学报,2019,27(02):61-65.12 邓子畏,唐朝晖,朱红求,等.基于改进 EM 算法的混凝土泵车数据治理 J.中南大学学报(自然科学版),2021,52(02):443-449.13 邹薇,王会进.基于朴素贝叶斯的 EM 缺失数据填充算法 J.微型机与应用,2011,30(16):75-77.作者简介王泽荣（1997-），男，硕士学位。研究方向为大数据

展开阅读全文

半失能老人远程健康监测大数据缺失处理_王泽荣.pdf