1、 年月第 卷第期计算机工程与设计 面向失衡数据的自适应加权 分类算法孙中强,应文豪,毕安琪,王骏,龚声蓉(苏州大学 计算机科学与技术学院,江苏 苏州 ;常熟理工学院 计算机科学与工程学院,江苏 苏州 ;上海大学 通信与信息工程学院,上海 )摘要:为提高极限学习机在失衡数据中的整体分类性能,提出一种基于代价敏感学习的自适应加权极限学习机分类算法。考虑各类间样本的差异性和同一类内样本的丰富性,利用类样本数量差异构造初始惩罚权重,分析样本附近异类样本数量确定额外代价权重,将两种代价权重相加构建自适应代价敏感惩罚矩阵。在公共数据集上的一系列对比实验结果表明,采用的自适应加权策略兼顾了不同类别样本的分布
2、,在不平衡数据集上有效提高了算法整体分类精度。关键词:不平衡数据;加权极限学习机;代价敏感学习;自适应;分类;惩罚矩阵;类分布中图法分类号:文献标识号:文章编号:():收稿日期:;修订日期:基金项目:国家重点研发计划基金项目();教育部人文社科基金项目();江苏省教育科学十三五规划基金项目()作者简介:孙中强(),男,河南驻马店人,硕士研究生,研究方向为机器学习与数据挖掘;通讯作者:应文豪(),男,江苏苏州人,博士,副教授,硕士生导师,会员,研究方向为数据挖掘、机器学习和大数据分析;毕安琪(),女,江苏无锡人,博士,讲师,研究方向为模式识别;王骏(),男,江苏苏州人,博士,副教授,硕士生导师,
3、高级会员,研究方向为模式识别、机器学习、医学图像处理;龚声蓉(),男,黑龙江大庆人,博士,教授,博士生导师,高级会员,研究方向为数据挖掘与计算机视觉等。:,(,;,;,):(),:;引言现有学者已从数据层和算法层提出多种针对不平衡数据分类的方法。数据层面的方法倾向应用采样策略重新平衡类之间的分布。在文献 中介绍一种插值生成少数类样本的经典方法,有效丰富了样本数据。在文献,中提出仅在识别的边界样本集合中合成实例,该方法提高了分类准确度并减少了时间消耗。算法层面的方法试图设计新的分类器或引入错分代价矩阵来提升对少数类 的识别精度。代价敏感学习 是最常用的算法修改策略。文第 卷第期孙中强,应文豪,毕
4、安琪,等:面向失衡数据的自适应加权 分类算法献 基于代价敏感学习,在传统 基础上提出优化的加 权 极 限 学 习 机(,),通过最小化加权的最小二乘误差以处理类不平衡问题。但 使用固定且相等的惩罚权重分配给不同类别的样本,而未考虑类别内样本之间的差异。王大飞等 介绍一种确定类内样本权重的方法,但该方法对结果影响较大的聚类数目不易确定。文献 提出一种基于边界理论的优化分类算法,但方法局限于未研究样本整体不平衡性和关键多数类样本对决策的影响。本文在采样边界样本的数据层面方法中得到启发,提出一种改进的自适应加权极限学习机分类算法。传统加权 分类算法极限学习机(,)是 一种用于分类和回归的单隐层前馈神
5、经网络,其摆脱了基于梯度反向传播更新权值迭代耗时的训练过程,具有良好的泛化性能和快速计算的优点。然而,传统 假定训练数据类别之间均衡而忽视了不平衡数据的分类问题。是变体 算法,通过将不同类别样本的权重分配为对应类别数量的倒数,加大对少数类的误分类惩罚,从而提高了这类样本的识别准确率。在数据集样本 (,)中,为输入的样本,和分别为样本数量和特征维数,为对应输出标签向量,为输出神经元数。因此,的目标损失函数定义如式()所示 :(),()其中,是 连 接 隐 含 层 和 输 出 层 的 权 重 向 量,(),是用于加权的对角矩阵,是正则化参数,是误差向量。当隐含 神 经 元 数 量 为时,等 进 一
6、 步 确 定 了式()中的矩阵解如式()所示(),(),()其中,是正则化参数,是对应维度的单位矩阵,即 (,)。在 中 给 出 两 种 加 权 方 案,如式()和式()所示()()()()()其中,(),表示属于类的总样本数量,表示所有类的平均样本数如式()所示 ()()从以上两种加权方案可以看出,当在极度不平衡的数据中,为极少的少数类样本分配远超多数样本的权重,虽然可以提高少数类的分类精度,但它也同样显著降低了对多数类的准确识别。因此,在不平衡分类中设计合适的加权策略能够更好地获得整体分类性能。改进的自适应加权 为解决现有加权极限学习机存在的不足,考虑数据层面关注边界样本重要性的基础上,本
7、文提出一种面向失衡数据的自适应加权极限学习机(,)。与深度学习训练网络权重不同,中的权重为基于代价敏感学习解决不平衡数据分类的惩罚权重,其首先根据不同类别样本数量和整体样本数量对所有样本进行初始权重的设定,然后搜索计算得到每个样本的近邻中异类样本所占的比率,最后对信息丰富的样本做额外的权重相加。样本初始惩罚权重的设定定义设训练样本(,),对应标签,;少数类样本集,多数样本集,;样本总数量为;,分别是少数类和多数类的数量,加权对角矩阵为。基于类别数量的初始权重定义如式()所示,()其中,代表了类别数量对分类的影响程度,对应的少数类较大,对少数类的惩罚也较大,有利于对少数类样本的分类。文献 定义的
8、 权重设定方法仅研究单一类别数量的倒数作为对应类的惩罚权重,而定义中将样本总体数量同样考虑在内,设计单个类数量()与的比值作为惩罚对应类权重的方法,能够充分兼顾训练数据集的整体规模和类数据量大小对分类器的影响,自适应于不同数据集的不平衡分类,相对设计更为合理。信息丰富样本的额外权重近邻搜索所有样本的近邻样本,将异类样本所占的比例与不平衡率相乘构造额外权值。定义和 分 别 设为多数 类 和少 数类集 合;C()代表集合的补集;为集合,中的实例样本;(,)表示属于集合中点实例的最近邻子集。则样本的额外权重定义如式()所示计算机工程与设计 年 (,C(),()其中,为搜索近邻的超参数,()表示样本的
9、最近邻样本中属于异类集合的个数。如图所示,当取时,表示对样本查找最近的个样本,的最近邻样本中有一个是异类样本,实例有一个异类近邻,而距离样本没有异类近邻。图样本的近邻(对于)从样本分布角度和边界理论来看,靠近数据分布边界的样本比靠近数据分布中心的样本对分类器决策边界的影响更大。事实上,有学者研究发现错误分类经常发生在类边界附近,这为我们针对不平衡分类问题在边界样本设计额外权重提供了动机。从图可以看出,额外权重不为的样本大概率靠近决策边界,如点,;而远离决策边界的样本的额外权重往往为,如点,。定义设计的额外权重体现了每个类内样本对决策面的影响程度,额外权重越大则类内样本的丰富性就越高,通过加大此
10、类样本的错分惩罚,使分类器更加关注边界样本,有利于找到优越的分类决策边界。由定义和定义,可得到本文提出的新的加权方法如式()和式()所示 ()()其中,为数据的不平衡率,即少数类和多数类在数量上的比值。引入不平衡率综合考虑了数据的整体分布信息,即值越大代表数据集越倾斜,样本的额外权重会相应有更大的概率影响整体性能。因此,定义理论上能在不同失衡程度的数据集中提升构造额外权重的自适应性。分类算法本文提出的 的具体过程如算法所示。算法:算法输入:训练数据(,)(对应标签,;少数类样本集,多数样本集,;样本总数量;少数类和多数类的数量,),隐含神经元数;最近邻搜索参数。输出:输出权重。步骤基于均匀分布
11、在,随机生成输入权重和隐含偏置。步骤使用式()、式()计算隐含层输出,其中,是第个隐含层结点与输入层之间的连接权重,是隐含层偏置,是隐含层激活函数,()(),()步骤使用式()计算隐含层和输出层之间的权重(),(),()在步骤得出值后,可应用式()完成对一个给定的训练样本输出其向量表示()(),()()其中,()是输出向量函数,是输出神经元数。在 理论中,输出函数值最大的节点可以代表分类中预测的类标签,因此可得输入对应的预测标签如式()所示 ()(),()实验 数据描述和参数设置本文对取自 数据库里的 个分类数据经过处理后进行实验。如表所示,提供了这些数据集的详细介绍,其中数据集是经处理的二分
12、类数据集,如 表示数据 中分别取类别和类别 为多数类实例和少数类 实 例,同 类 型 数 据 集 有 、;对于其它数据如 ,其表示为数据 中取类别为少数类样本,而剩余类别为多数类。实例数表示数据集的总数量,特征数表示数据的维度,不平衡比率表示数据的不平衡程度,数学表达式如式()所示。将所有数据归一化到,之间,为了验证针对不平衡分类问题优化的 的性能。如表所示,本文选择与其它算法在指定的参数范围网格搜索最优结果进行对比。算法的隐含层均使用 激活函数,为了降低输入层与隐含层不同初始化参数和数据随机划分对性能的影 响,对 每 种 方 法 执 行 次 五 折 分 层 交 叉 验 证 输 出 和 的平均
13、结果。评价指标分类任务中,通常使用混淆矩阵对分类器进行评估,见表。在 类 不 平 衡 问 题 中,根 据 式()得 到 的 通常不能对分类器做出良好的评价,它在大多数类表现显著的情况也能取得较高的值,掩盖了少数类分类错误的情况第 卷第期孙中强,应文豪,毕安琪,等:面向失衡数据的自适应加权 分类算法表实验数据集介绍数据集实例数特征数不平衡比率()表算法参数取值范围算法参数取值范围 隐含层,正则项 ,隐含层,聚类数,正则项 ,隐含层,正则项 ,近邻数,表二类数据集的混淆矩阵预测正类()预测负类()实际正类()实际负类()()在不平衡问题中,准确检测少数类至关重要。为了评估分类器的性能,本文探究以下
14、性能度量指标如式()至式()所示 ()()()其中,和 分别为灵敏度和特异度,通常用来表示分类器对多数类和少数类的识别水平。式()中的 根据正负类精度乘积的开方能够反映算法的总体性能。因此,本文以 为主要度量标准,取值越大,代表算法的分类性能越好,识别水平越高。为了研究不同算法对少数类的预测能力,本文还比较了在 指标的得分。实验结果本文 实 验 算 法 基 于 语 言 实 现,硬 件 环 境 为 ()()。为了验证算法的有效性,本文进行了以下实验:()探究 与 和单一考虑少数类局部信息的 在人工数据中的分类决策边界比较。()将提出的 与种算法在 个不平衡数据集中进行对比。()所提 与数据层面的
15、方法进行比较。与其它算法分类边界比较本文将提出的 与 和单一考虑少数类局部信息的 在人工数据中进行消融实验,对生成的模拟决策边界进行分析。其中,为提出修正的对比算法,与 不同之处在于,只对丰富少数类进行额外加权,见式()(,C(),()设计 目的是探究同时考虑丰富多数类和少数类与仅考虑单一关键少数类对分类器决策面的影响。种算法在分类人工数据时设置相同的隐含层数和正则项,激活函数使用 ,和 参数设置为。为了更好地理解分类算法的原理,绘制不同算法在二维人工数据中的决策边界。其中,灰色阴影部分为少数类样本集所在区域,白色为多数类样本所在区域,灰色与白色交界处为对应算法的分类决策面。如图所示,从实验选
16、择的 指标可以看出,取得了最高得分,结果优于。从图()中可以看出,保证了大部分少数类样本正确分类,但牺牲了部分多数类样本的分类精度,决策边界将一些多数类样本被错误的分类为少数类。采用为类内所有样本分配相同惩罚权重的固定权重分配方法,不善于识别重叠度较高的数据集,由于少数类的惩罚力度比多数类高,将造成多数类样本被误判。图()加强了丰富少数类样本的惩罚权重,分类器能够正确识别靠近边界的少数样本,此时分类决策边界局部性地向少数类移动,但仍有部分多数类样本被分类错误。为边界少数类样本分配额外权重在算法优化中能够加深分类器对边界少数样本的感知,从而提高对少数类样本的识别性能。计算机工程与设计 年图种算法在人工数据中的决策边界分布比较图()是使用 方法,显示的决策边界更加合理,原因在于 综合考虑多数类和少数类样本的类内分布对分类的影响,引入额外权重对靠近或位于决策边界的关键丰富性样本都进行了额外加权,在算法优化参数过程中重点学习边界样本的数据分布特征,使分类平面移动 到 较 合 理 的 位 置,从 而 获 得 更 好 的 整 体 分 类性能。与种算法比较为验证本文提出的额外加权方法的有效性,使用