基于组标签的多标签流特征选择算法

资源描述

1、第 59 卷第 1 期2023 年 1 月南京大学学报（自然科学）（NATURAL SCIENCE）Vol.59,No.1Jan.,2023JOURNAL OF NANJING UNIVERSITY基于组标签的多标签流特征选择算法张展云1,罗川1*,李天瑞2,李红梅2,刘盾3（1.四川大学计算机学院，成都，610065；2.西南交通大学计算机与人工智能学院，成都，611756；3.西南交通大学经济管理学院，成都，610031）摘要：流标签是当前多标签学习领域中一个较新颖的挑战性问题，存在标签空间未定、标签数量不断增加甚至趋于无穷等问题.在多标签学习的特征选择中，每当有新的标签到达时标签空间都

2、将发生改变，传统的多标签特征选择算法需重新进行特征选择，所以不适用.针对此问题，采用将流标签进行分组批量处理的方式，并考虑标签之间的相关性，提出一种新的流式多标签特征选择方法，考虑分组后每组标签内部潜在的关联结构和不同标签组之间的标签差异性，赋予每组标签不同的权重来计算每个特征与标签空间的模糊互信息.同时，结合 mRMR（MaxRelevance and MinRedundancy）的特征选择策略进行冗余特征的剔除，从而挑选最优的特征子集.该方法同时适用于固定标签空间和流式标签空间中的特征选择问题.最后，选取八个多标签基准数据集，采用四种评价指标与已有相关的多标签特征选择方法进行对比实验，实验

3、结果证明了提出方法的有效性和高效性.关键词：多标签学习，特征选择，标签分组，流标签，互信息中图分类号：TP391 文献标志码：AMultilabel streaming feature selection based on group labelsZhang Zhanyun1,Luo Chuan1*,Li Tianrui2,Chen Hongmei2,Liu Dun3(1.College of Computer Science，Sichuan University，Chengdu，610065，China；2.School of Computing and Artificial Intelli

4、gence，Southwest Jiaotong University，Chengdu，611756，China；3.School of Economics and Management，Southwest Jiaotong University，Chengdu，610031，China)Abstract:Streaming labels are currently a relatively new challenge for multilabel learning，which means that the label space is uncertain，that is，the number

5、 of labels is constantly increasing，and even tends to be infinity.In the problem of multilabel feature selection，because the label space changes whenever a new label arrives，traditional multi label feature selection algorithms need to reselect the feature，so it is not applicable.Aiming at this probl

6、em，this paper proposes a novel streaming multilabel feature selection method by grouping streaming label and considering the correlation between labels.This method considers the potential association structure within each group of labels after grouping and the label differences between different gro

7、ups，and assigns different weights to each group of labels to calculate the fuzzy mutual information between each feature and the label space.At the same time，the feature selection strategy of mRMR(MaxRelevance and MinRedundancy)is combined to consider the redundancy of the features to select the opt

8、imal subset of features.And this method applies both the traditional fixed label space and the novel streaming label space.Finally，we selected eight multilabel reference datasets and 4 kinds of indicators for simulation experiments，the experimental results proved the effectiveness of the proposed me

9、thod by comparing with the existed multilabel feature selection methods.Key words:multilabel learning,feature selection,label grouping,streaming labels,mutual informationDOI：10.13232/ki.jnju.2023.01.007基金项目：国家自然科学基金（62076171，61573292，61976182），四川省自然科学基金（2022NSFSC0898）收稿日期：2022-09-26*通讯联系人，Email：南京大学

10、学报（自然科学）第 59 卷随着数据融合技术和关联模型应用的快速发展，数据语义日益呈现多样化和粒度化的趋势.实际应用中，一个实例可能同时与多个标签相关联，且标签之间存在交叉、共现和相关等特性.例如，一个基因可能同时与新陈代谢、转录和蛋白质合成等功能类相关1，一篇文档可能同时包含经济、文化和城市等主题2-3，一首歌可能同时包含悲伤和快乐等情绪4.多标签数据中存在的大量冗余或不相关特征会使模型的复杂度和计算时间大大增加，严重影响多标签学习的分类性能.特征选择可以通过剔除冗余或不相关的特征来缩小原始特征空间的维度，从而保留数据集中最有用的语义信息，提高模型的计算效率、可解释性和分类能力.通常，特征选

11、择可以被广泛地归纳为过滤法、包装法和嵌入法三种类型.过滤法通过一些特征评价准则，例如互信息5-6、最大化间隔7和依赖性8等来选择具有代表性的特征子集.包装法将分类器看作一个黑盒子，通过多次运行预先确定的分类器评价候选特征的分类质量，选择最优的特征子集.嵌入法在执行模型拟合的同时，通过最小化经验错误和惩罚项寻求特征子集.这三种特征选择方法中，过滤法因其高效性和鲁棒性受到越来越多的关注.目前，很多有效的多标签特征选择算法被提出，代表性的有 RFML7，MDDM9，SCLS5和MUCO6等.这些算法能够挑选出优秀的特征子集，从而提高多标签学习的分类性能.然而，这些特征选择算法需要将标签空间拆分成一个

12、个独立标签进行单独处理，忽略了标签之间潜在的关联结构.为了充分利用标签之间的关联结构，Yu et al10基于标签间的相关性以及标签空间之间的不确定性，构建了一种多标签分类方法.Liu et al6提出一种数据表示方式，可以更精确地计算标签之间的相似性，进而为整个标签空间的所有实例构建模糊关系矩阵.Zhu et al11基于学习底层标签表示和优化标签多样性，利用全局和局部标签相关性，提出一种新的多标签学习方法.现有的大部分特征选择算法将整个标签空间看作整体，一旦标签空间发生了变化就需要完全重新进行特征选择过程，所以不适用于标签空间未知的场景.目前还没有研究对标签空间分组进行批量处理，但已有相关

13、工作对特征空间进行分组处理.Liu et al12提出一种新的在线多标签组特征选择算法（OMGFS），包括两个阶段：在线组选择和在线组间选择.在组选择中，OMGFS 通过设定的条件来选择对标记集重要的特征组；在组间选择中，OMGFS 考虑特征交互和特征冗余来选择最佳特征组.流标签问题是当前多标签学习中一个较新颖的挑战.流标签指整个标签空间未知，标签空间随着时间而增大，并且标签数量不定，甚至趋于无穷.标签空间虽然未知，但特征空间固定不变，这种流标签场景使多标签学习下的特征选择问题变得更加困难.传统多标签学习下的特征选择算法虽然可以在每次标签到达时重复运行学习模型得到特征子集，但这种方式不考虑流标

14、签的到达顺序，并且在计算时间上的消耗巨大，所以基于流标签的特征选择研究成为当前多标签学习领域的热点方向之一.Lin et al13提出流标签场景下的多标签特征选择算法 MLFSL，通过最大限度地减少所有单个特征排序列表和最终特征排序列表之间的总体加权偏差来得到最终的特征排序列表.但MLFSL 算法每到达一个标签时都需要重新计算这个标签的单个特征排序列表，忽略了标签之间的关联结构，耗时巨大.本文提出一种新颖的基于标签分组的多标签特征选择算法（WGLFS），它不仅在传统的固定标签空间的场景下拥有十分优异的性能表现，在标签空间未知的流标签场景下也同样表现优异.在传统的固定标签空间场景下，WGLFS

15、将整个标签空间分组，考虑一组标签中潜在的标签关联结构和不同标签组之间的标签差异性，评价并选择最优的特征子集.在流标签场景下，WGLFS对一个个到达的新标签进行缓冲，达到一定条件时再将其取出作为一组标签集合，在已知的标签空间下，WGLFS 以同样的方式选择最优的特征子集.1 基本概念 1.1多标签学习假设T=U，F，L是一个多标签决策表，其中，U 是有 n个实例的实例集，F=68第 1期张展云等：基于组标签的多标签流特征选择算法f1，f2，fm是有 m个特征的特征集，L=l1，l2，lk是有 k 个标签的标签集.实例关联的标签集合表示为多维二元向量y=()y1，y2，yk=0，1k.多标签学习的

16、分类任务旨在学习映射函数h：U 2L，对于未知实例 x 作出预测h()x L，即与实例相关的标签子集.1.2模糊熵与模糊互信息假设 R 是 U 上由 F生成的模糊等价关系，则模糊关系矩阵M()R定义为：M()R=r11r12r1nr21r22r2nrn1rn2rnn（1）其中，rij0，1是xi和xj的模糊关系值.实例xi在模糊关系 R下的模糊等价类为：xiR=xiF=ri1x1+ri2x2+rinxn(2)其中，rij表示xi等价于xj的模糊隶属度.模糊等价类xiR的势由下式计算：|xiR=|xiF=j=1nrij(3)熵是描述体系混乱度的量度，从统计学角度来说，熵是描述指标离散程度的度量.熵越大说明体系越混乱，携带的信息越少；熵越小说明系统越有序，携带的信息越多.定义 1 给定一个多标签决策表U，F，L，F的模糊信息熵定义为：FH()R=FH()F=-1ni=1nlg|xiRn(4)定义 2 假设F1和F2是 F 的两个子集，则两者的模糊联合信息熵为：FH()F1,F2=-1ni=1nlg|xiF1xiF2n(5)其中，xiF1xiF2=minxiF1xiF2定义

展开阅读全文

基于组标签的多标签流特征选择算法_张展云.pdf