1、 :基金项目:国家自然科学基金();赣南师范大学研究生创新基金项目()()()通信作者:汪廷华()基于加权马氏距离的模糊多核支持向量机戴小路汪廷华周慧颖赣南师范大学数学与计算机科学学院江西 赣州 ()摘要模糊支持向量机通过引入模糊隶属度有效区分不同样本的重要程度,降低了传统支持向量机对噪声数据的敏感性。针对基于欧氏距离设计的隶属度函数忽略了样本的总体分布,且未考虑样本特征重要性的区分,提出了一种基于加权马氏距离的模糊支持向量机方法。首先应用 算法计算样本特征权重,然后基于该权重计算样本距其类中心的加权马氏距离,最后根据该距离值度量样本隶属度。在此基础上,考虑到核函数及其核参数难以确定,将模糊支
2、持向量机与多核学习方法相结合,提出基于加权马氏距离的模糊多核支持向量机,采用加权求和形式构建多核,并遵循中心核对齐原则确定每个核的权重。该方法不仅降低了弱相关特征对分类效果的影响,而且使数据表达更加全面准确。实验结果表明,基于加权马氏距离的模糊支持向量机的分类精度高于基于欧氏距离和基于马氏距离的模糊支持向量机,且基于加权马氏距离的模糊多核支持向量机的分类性能较单核模型更优。关键词:支持向量机;中心核对齐;加权马氏距离;多核学习;隶属度函数中图法分类号 ,(),(),(),引言支持向量机(,)以结构风险最小化为基准,通过构建最佳分类超平面有效提升学习机的泛化性能,在小样本、非线性问题等方面表现出
3、色,现已广泛应用于诸多实际领域。然而 对噪声和离群点十分敏感,对此 等提出了模糊支持向量机(,),引入模糊隶属度实现样本的重要性区分,对降低异常值的影响卓有成效。大多数 的隶属度函数都是基于欧氏距离设计的,未考虑到样本的总体分布,提出的基于马氏距离的 探索了样本的全局信息,但忽略了样本各特征对训练的贡献不同这一特点,没有对特征的重要程度进行有效区分。基于此,本文提出一种基于加权马氏距离的模糊支持向量机方法。首先采用 算法对各样本 由数模加油站搜集整理,获取更多数学建模相关资料关注【公众号:数模加油站】由数模加油站搜集整理,获取更多数学建模相关资料关注【公众号:数模加油站】特征的重要程度进行评估
4、,得到相应权重,并根据该权重求得各样本距其类中心的加权马氏距离,进而计算样本的模糊隶属度值。另外,针对 核函数选择困难以及对多源异构数据解释性 不 足 等 缺 陷,多 核 学 习(,)运用多个或多种核函数的组合形式,使数据的相似性描述更加准确,模型灵活性更强、可解释性更高。模糊多核支持 向量机(,)将 与 相结合,同时利用隶属度函数和多核组合形式更大程度地改善了模型性能,给 的研究提供更多元的设计思路 。将基于加权马氏距离的模糊支持向量机方法拓展到多核维度,本文提出基于加权马氏距离的模糊多核支持向量机,以加权求和的方式构建多核组合函数,其中多核权重系数依据中心核对齐方法进行判定。通过实验对比,
5、该方法的分类精度优于单核的 ,并且基于加权马氏距离的 比基于欧氏距离和基于马氏距离的 分类准确率更高,说明了所提方法行之有效。模糊支持向量机以二分类问题为例,假设训练集:(,y,),(,y,),y,()其中,代表样本点,y表示样本的类别标签,模糊隶属度意味着样本归属于某一类的可靠程度,为一个任意小的正数。与标准支持向量机类似,模糊支持向量机算法的目标也是寻找一个最优分类超平面使分类间隔最大化,求解最优分类面可以形式化为如下的优化问题:y(),()其中,分别代表分类超平面的法向量和偏移量;惩罚因子为常数,用于控制超平面间距最大化和误差最小化之间的平衡,值越大,对误分类样本的约束就越大;表示分类误
6、差项,加权误差项用于衡量权重不等的样本的误分类程度,样本隶属度越小,加权误差项的作用就越小,则样本分类贡献率越低。与标准 求解方法类似,通过构建拉格朗日函数和鞍点条件获得 原问题的对偶形式:yy(,)y,()其中,(,)为核函数,故而得出对应最优分类面的判别函数为:()(y(,)()加权马氏距离模糊隶属度 特征加权 算法是 等 在 世纪 年代提出的一种过滤式特征选择算法,最初主要针对二分类问题。该算法根据同类及异类近邻样本间的特征距离差异来判定其重要程度,当某一特征在同类近邻样本间的距离很小,而在不同类的最近邻样本之间距离差异很大时,说明该特征于分类有益,则赋予该特征较大的权重;反之使该特征权
7、重减小。算法的时间复杂度只受样本的特征总数及抽样次数影响,十分高效。算法(具体见算法)拓展了 算法的适用范围,能够实现多类别样本的特征处理,特征权重计算式如下:()()(,)y ()(y)(,(y)()()其中,代表样本的抽样次数,为最近邻样本个数,(y)表示样本属于类别y的概率,是类别相同的最近邻样本集,(y)则为类y的异类近邻样本集合,(,)表示样本和样本在特征上的差,其计算式如下:(,)()(),()其中,表示样本在特征上的取值。算法 算法输入:训练数据集,样本抽样次数,最近邻样本个数输出:特征权重 将每个特征的权重初始化置 从 中随机抽取任一样本,查找个与类别相同的最近邻样本,构建同类
8、最近邻样本集(,),同理从的每个异类样本集中搜寻个最近邻得到异类近邻样本集();依据式()对特征权重进行更新;重复步骤和步骤次,取次计算结果的平均值作为最终特征权重。加权马氏距离大多隶属度构造都是基于样本间的欧氏距离进行判定,这种方式忽略了样本属性之间的关系,未考虑到样本总体分布对距离造成的影响。不同于欧氏距离,马氏距离 是基于样本的全局信息计算出来的,代表数据的协方差距离,可以有效解除属性间的关联性干扰,且独立于样本数据的测量尺度,消除了量纲性。马氏距离计算如下:(,)(,)(,)()其中,为样本的总体协方差矩阵。根据 算法求得的样本特征权重构造特征加权矩阵:()上述矩阵为对角矩阵,其中表示
9、特征的权重,代表特征的总个数。则样本与类中心的加权马氏距离计算式为:(,)()()()()其中,表示矩阵的乘积运算,基于加权马氏距离的隶属度 计算机科学 ,由数模加油站搜集整理,获取更多数学建模相关资料关注【公众号:数模加油站】由数模加油站搜集整理,获取更多数学建模相关资料关注【公众号:数模加油站】函数根据样本点到其所属类中心的加权马氏距离确定样本重要性,距离越小,则赋予该样本越大的隶属度值。基于加权马氏距离的隶属度函数表达式如下:(,)()其中,(,)表示类半径,为样本类中心。基于中心核对齐的多核构造核函数的选取于 而言十分关键,但现阶段该方面尚无明确的理论依据,通常根据经验或采用穷举法选取
10、分类性能最优的核函数。常用的核函数如表所列。表常用核函数 核函数公式线性核(,)()多项式核(,)(),径向基核(,),核(,),考虑到核选择的困难性及单核学习的局限性,多核学习利用多个核函数不同的映射能力使数据表达更加准确,模型更加灵活,本文将基于加权马氏距离的模糊支持向量机扩展到多维特征空间,采用加权求和的方式 构建多核:(,)(,),()其中,表示不同的核函数,总数为个,代表多核对应的权重向量。本文采用启发式方法计算多核权重系数,提出基于中心核对齐(,)的多核学习方法。利用每个核与理想核之间 的大小来确定其相应的核权重系数,当某一核相对于理想核的中心核对齐值越大时,说明其对分类贡献率越大
11、,则为该核分配较大的权重。核对齐(,)作为两个核矩阵之间相似度的度量准则,定义如下:(,),()其中,与分别表示核函数和映射后的核矩阵,为两矩阵间的 内积:,(,)(,)()在 的基础上增加了对核矩阵的中心化操作,可有效解决样本在特征空间距原点较远及类分布不平衡等问题,使数据得到更加充分的表达。核矩阵的中心化矩阵定义如下:()其中,矩阵 ,表示阶单位矩阵,为维的全列向量。则与之间的中心核对齐定义为:(,),()根据核函数与理想核之间的中心核对齐值判定其对应的核权重:(,)(,)()其中,标签矩阵 是基于数据集的理想核矩阵,y,y。将求得的多核权重系数,代入式()可得组合核函数。将组合核函数引入
12、模糊支持向量机中即得基于加权马氏距离的模糊多核支持向量机,其优化问题变为:()y(),()其中,表示第个核函数的权重,映射函数()将样本映射到个高维特征空间中:(),()决策函数相应如下:()(y(,)()其中,(,)为多核组合函数。基于加权马氏距离的模糊多核支持向量机算法的主要算法框架如下:()数据预处理,划分训练集与测试集;()基于 方法确定特征权重,构建特征加权矩阵;()构造特征加权马氏距离隶属度函数,计算样本隶属度值;()选择基础核函数,计算中心核对齐值,得到核权重,构建加权求和的多核组合形式;()通过交叉验证法寻找参数的最优值;()型的训练与预测,相关性能评估。实验结果与分析为验证所
13、提方法的有效性,从 机器学习数据库 中选取了个数据集,数据信息如表所列。表数据集信息 序号数据集样本总数特征数类别数 实验开发环境为 ,计算机配置为 处理器、频率 、内存()、操作系统为 。在上述个数据集上分别对本文提出的基于加权马氏距离的模糊支持向量机()与传统支持向量机()、基于欧氏距离的 ()、基于马氏距离的 ()的分类性能进行对比实验,同时将基于加权马氏距离的模糊多核支持向量机()与基于欧氏 距 离 的 ()、基 于 马 氏 距 离 的 ()进行比较,以分类精度作为性能评价指标。选用多个不同核参数的径向基核与多项式 核 组建多核函数,其 中 高 斯 核 参 数设置 为,戴小路,等:基于
14、加权马氏距离的模糊多核支持向量机由数模加油站搜集整理,获取更多数学建模相关资料关注【公众号:数模加油站】由数模加油站搜集整理,获取更多数学建模相关资料关注【公众号:数模加油站】,多项式核参数为,。惩 罚 参数的 选 取 由 交 叉 验 法 确 定,其 取 值 范 围 为,。实验中所有数据都经过标准化处理,训练集与测试集分别按 ,的比例进行基于类别比例的随机划分,实验结果以 次实验的均值为准,结果分别如表表所列。表分类准确率对比()()(单位:)表分类准确率对比()()(单位:)表分类准确率对比()()(单位:)从实验结果可以看出,本文提出的基于加权马氏距离的 方法在选定的个数据集上的分类准确率
15、均高于传统,也优于基于欧氏距离和基于马氏距离的 方法。同时,多核的加权马氏距离 方法的分类性能较单核 而言 更 为 优 异,也 比 基 于 欧 氏 距 离 和 马 氏 距 离 的 分类效果更好。纵向对比整体实验,算法的分类精度随着训练集占比的增多而明显提升,这说明,就同一数据集而言,划分的训练集越多,模型训练越充分,学习效果越好。但不排除随着训练集的增多会出现过拟合现象,导致模型泛化性能变差,因此在模型训练中要合理设置训练集的大小。上述结果进一步证实了 的有效性,它进一步提升了支持向量机算法的分类精度,使模型分类性能更优,更具优势。结束语针对传统支持向量机对噪声的敏感性及核选择的困难性,本文通
16、过分析支持向量机的特性,将 算法与中心核对齐方法应用于 中,提出了一种基于加权马氏距离的模糊多核支持向量机方法,以降低弱相关或不相关特征对分类效果的影响,减弱噪声的影响并避免核选择难题,使数据表达更充分。相关实验验证了改进算法在一定程度上提升了分类性能,说明了其可行性与有效性。目前关于隶属度构造及多核学习尚未出现标准化的准则,现有方法各具利弊。因此,进一步改善模糊隶属度计算方法以及探索更好的多核组合形式是我们今后努力的研究方向。同时,鉴于本文主要集中于 同类策略算法间的横向比较,在算法多元性上略有欠缺,后续也将着眼于最新非 算法的探索与研究,以纵向比对增强相关改进算法的分类性能。参 考 文 献 ,():,计算机科学 ,由数模加油站搜集整理,获取更多数学建模相关资料关注【公众号:数模加油站】由数模加油站搜集整理,获取更多数学建模相关资料关注【公众号:数模加油站】,():,():,:,():,():,():,:,:,():,():,():,():,():,():,():,():,():,():,:,:,():,:,戴小路,等:基于加权马氏距离的模糊多核支持向量机由数模加油站搜集整理,获取更多数学建模相关资料关注【公众号:数模加油站】由数模加油站搜集整理,获取更多数学建模相关资料关注【公众号:数模加油站】