基于SMOTE不平衡扩充采样算法的改进_宣晶雪.pdf-资源下载-蜗牛文库-知识共享服务平台

基于SMOTE不平衡扩充采样算法的改进_宣晶雪.pdf

1、：基于不平衡扩充采样算法的改进宣晶雪张权李晓红王书宜齐齐哈尔大学理学院黑龙江齐齐哈尔摘要：针对不平衡数据集少类样本分类精度低的现象，本文提出了一种新的不平衡数据扩充采样算法。改进算法通过距离度量，在少类样本中心与其近邻间进行随机线性插值，使数据平衡。改进算法与算法、算法分别对个不平衡数据集进行扩充分类对比实验，基于、值与值评价指标及成对样本检验，证明改进算法能有效缓解类不平衡，并具有更优异的不平衡数据处理性能。关键词：不平衡数据；算法；安全点；噪声点；随机森林算法随着人工智能领域的飞速发展，基于大数据的分类研究被认为是可期待的新技术。由于采样环境差异，大数据通常存在类

2、不平衡。类不平衡问题会产生许多标准学习算法分类性能的严重障碍。分类器进行训练时，往往更易学习多类（负类）样本的特性，从而引起少类（正类）样本被误分，导致严重后果。例如，医学研究的分类问题中，如若有正常样本个，患病样本个，即使所有的患病样本都被误分，分类模型的准确率仍能达到。但就实际问题而言，误诊会产生严重影响。因此，不平衡数据集的扩充分类显得尤为重要。算法分析算法是由提出的不平衡数据扩充的常见算法。其基本原理是在少类样本与其近邻样本间进行随机的线性插值来完成数据扩充，以达到一定的不平衡比率。不平衡比率为样本集合中少类样本数目与多类样本数目的比值。算法的具体步骤为：对任意的一个少类样本（

3、，），计算与其他少类样本的距离，得到样本的个近邻。再从个近邻中任意选取个近邻样本，记作（，），通过在与之间进行随机的线性插值构造新的少类样本。插值公式为：（，）（）其中表示人为构造的少类样本，是区间，上满足均匀分布的随机数。改进算法改进算法设计首先，算法虽在一定程度上改善了不平衡数据集的分类效果，但其值需人为确定，具有一定的盲目性。其次，对于边缘点而言，经算法扩充后的样本点仍可能是边缘点，导致扩充数据边缘化，且易模糊正负类边界。本文提出改进算法，依据一定的划分规则，将少类样本划分为安全点与噪声点，仅在安全点与少类样本中心点（少类样本均值）间以线性插值的方式构造少类样本。使得

4、扩充的少类样本分布在原始少类样本中心点附近，有效避免扩充数据边缘化，且规避算法中值选取的不确定性。改进算法流程假设原始数据维度为，为样本总个数，为样本特征总个数。其中少类样本维度为，多类样本维度为（）。（）归一化预处理。分别对少类、多类样本进行归一化处理，使所有样本取值介于，之间，避免量纲差异产生误差。其中为已进行归一化预处理后的第个特征属性下的第个样本，为原始数据中第个特征属性下的第个样本，为样本基于第个特征属性下的最大值，为样本基于第个特征属性下的最小值。（）计算少类样本中心点。依据下式，取归一化后各特征属性下的均值为少类样本中心点，记作。（，）其中是为已进行归一化预处

5、理后的第个特征属性下的第个样本，为少类样本个数。（）划分少类数据为安全点和噪声点。计算少类样本中心与每个少类样本点之间的欧氏距离，记作（，）。并计算少类样本中心与多类样本点间欧氏距离的平均值，记作。若，则第个少类样本点记为噪声点；若，则第个少类样本点记为安全点。（）数据扩充。在少类样本中心点与安全点之间通过如下公式进行数据扩充。科技风年月科技创新（，）（）其中为新扩充的少类样本，为安全点集合中的少类样本，是区间，上满足均匀分布的随机数。（）选取不平衡比率。文献中研究表明不平衡比率为时，扩充融合数据分类效果最优。故本文当不平衡比率达到时停止扩充。（）更新总数据集。将扩充

6、后的少类样本与预处理后的数据集合融合，随机抽样划分训练集与测试集为，并利用随机森林模型对更新后的数据集进行分类。改进算法流程图如图所示：图改进算法流程图对比实验分析实验评估指标本文不平衡数据扩充分类实验中的评价指标为值、袋外误差、值与值。实验环境实验数据来源于数据库中、个不平衡数据集，表为其具体信息。本文提出的改进算法由、与共同实现。用于划分安全点与噪声点，扩充算法由与共同实现，随机森林算法使用软件编程实现，成对样本检验通过实现。随机森林模型进行分类时，采用折交叉验证防止过拟合，通过指数选取最优特征，每棵决策树选取的特征个数依据经验公式计

7、算，为每个数据集中总特征个数，每棵决策树选取的个特征是随机的。表不平衡数据集特征数据集合样本个数正类个数负类个数特征属性个数不平衡比率数值实验本文提出改进算法与算法、算法分别对个不平衡数据集进行扩充，并用随机森林模型对扩充后的融合数据分类。为获取科学准确的实验结果，重复扩充分类实验次，取其平均值为最终实验结果。实验结果分析对比试验结果分析、和数据集的实验结果如图图所示，粗体表示实验效果较好的数据组。图实验结果图图实验结果图图实验结果图图实验结果图科技创新科技风年月图实验结果图根据图图可知，对于个数据集合而言，均是改进算法组对应的值、值、值最高，值最低。

8、因此本文提出的改进算法对应的扩充分类效果优于原始未扩充数据、算法和算法。成对样本检验分析为了进一步说明改进算法较算法具备更良好的不平衡扩充性能，采用成对样本检验对其进行验证。双侧值是成对样本检验的主要评价指标，若双侧值小于，则配对样本有显著性差异，否则不具有显著性差异。配对样本为个不平衡数据集基于改进算法与算法连续次扩充分类实验的值，表为组数据的成对样本统计量表格，粗体为实验效果较好的数据组。表为组数据成对样本检验结果。表成对样本统计量配对数据集算法均值样本数标准差标准误差均值改进算法改进算法改进算法改进算法改进算法表成对样本检验结果配对数据集算法均值标准差置信

9、区间下限上限双侧改进改进改进改进改进根据表可知，改进算法组对应的泛化误差更小，标准差与标准误差更低。即与算法相比，改进算法对应的扩充分类效果更好，对不平衡数据的处理能力更优。根据表可知，组配对样本数据的双侧值均小于，因此改进算法与算法分别对个不平衡数据集进行扩充，再经随机森林模型进行分类，其分类效果具有显著性差异。结语本文提出了一种基于算法的不平衡数据扩充采样算法。基于数据层面，模拟原始少类样本的分布特性，围绕少类样本中心，在安全点内线性插值构造数据，使得扩充数据分布在中心点附近，有效克服扩充数据边缘化。实验表明，改进算法显著提升不平衡数据集的分类效果，有效缓解了不平衡

10、数据集分类难的现象。不平衡数据扩充其本质是希望提高原始少类样本的分类效果。未来，可从原始少类样本角度出发，尝试增加仅评估原始少类样本分类效果的评价指标，对算法扩充性能进行验证。参考文献：唐思均基于优化算法的非平衡大数据集分类研究沈阳工程学院学报（自然科学版），（）：，（）：张天翼，丁立新一种基于的不平衡数据集重采样方法计算机应用与软件，（）：，：，（）：李志强，余炫朴基于的大学生学术失信预测研究东北师大学报（哲学社会科学版），（）：王文博，曾小梅，赵引川，等基于的变压器缺陷预测华北电力大学学报（自然科学版），（）：基金资助：黑龙江省省属高等学校基本科研业务费科研项目（）作者简介：宣晶雪（），女，汉族，黑龙江齐齐哈尔人，硕士，助教，研究方向：系统分析与优化研究。科技风年月科技创新

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？