1、第 59 卷 第 1 期2023 年 1 月南京大学学报(自然科学)(NATURAL SCIENCE)Vol.59,No.1Jan.,2023JOURNAL OF NANJING UNIVERSITY基于弱监督对比学习的弱多标记特征选择王津1,谭安辉1,2*,顾沈明1,2(1.浙江海洋大学信息工程学院,舟山,316022;2.浙江省海洋大数据挖掘与应用重点实验室,浙江海洋大学信息工程学院,舟山,316022)摘要:多标记特征选择已被广泛应用于医疗诊断、模式识别等领域,然而现实中的数据往往存在维数灾难以及标记大量缺失等问题,现有的弱多标记特征选择算法又普遍易受缺失标记和噪声的干扰,使算法模型难以
2、准确地选择重要特征针对上述问题,提出一种用于弱多标记数据集特征选择的弱监督对比学习方法,旨在缺失和含噪声标记数据集中选择优质特征,同时挖掘少量人工标注数据中潜在的类间对比模式该方法包括三个步骤:首先,设计一种弱监督预训练策略,通过利用实例相似性以及稀疏学习方法获取每个类标记类属属性,用于恢复缺失标记;其次,引入对比学习策略来捕获少量有标记数据的对比模式来削弱噪声数据的影响;最后,选取 10组多标记数据集以及四个评价指标进行实验.实验结果证明,与多个先进多标记特征选择算法相比,提出的方法分类性能更优关键词:多标记学习,特征选择,缺失标记,弱监督学习,对比学习中图分类号:TP181 文献标志码:A
3、Weak multilabel feature selection based on weaklysupervised contrastive learningWang Jin1,Tan Anhui1,2*,Gu Shenming1,2(1.School of Information Engineering,Zhejiang Ocean University,Zhoushan,316022,China;2.Key Laboratory of Oceanographic Big Data Mining and Application of Zhejiang Province,School of
4、Information Engineering,Zhejiang Ocean University,Zhoushan,316022,China)Abstract:Multilabel feature selection has been widely used in many fields,such as medical diagnosis and pattern recognition.However,most weak multilabel data often suffer from many problems,such as curse of dimensionality and no
5、isy/missing labels in reality.Existing weak label feature selection algorithms are generally vulnerable to missing and noisy labels,which makes it difficult for algorithms to accurately select important features.To solve these problems,we present a weakly supervised contrastive learning method for f
6、eature selection from large weak multilabel data with missing labels that aims at selecting a large number of highquality features and also exploits interclass contrastive patterns hidden in a small amount of humanannotated labels of data.The method consists of three steps.Firstly,we design a weakly
7、supervised pretraining strategy,which select the labelspecific feature for each class label via sparse learning method,and constructs the correlation between instance and labelspecific feature,which can be used to recover the missing label space.Then,we introduce the contrastive strategy to capture
8、the contrast patterns in a small labeled data,which reduces the influence of noisy labels.In the end,experiments are performed on ten multilabel data sets in terms of four evaluation metrics.Experimental results show that our approach outperforms the other stateoftheart multilabel feature selection
9、algorithms.Key words:multilabel learning,feature selection,missing labels,weaklysupervised learning,contrastive learningDOI:10.13232/ki.jnju.2023.01.009基金项目:国家自然科学基金(62076221,61976194)收稿日期:2022-09-30*通讯联系人,Email:南京大学学报(自然科学)第 59 卷真实情景中,单个实例通常会同时呈现多个不相同的类别标记1,仅靠单个标记无法完整描述其语义,因此,多标记学习框架应运而生.这种学习框架更适用于
10、现实任务的多义性,且已广泛应用于众多领域,如图像自动标注、文本分类和情感分析2等.和单标记学习不同,多标记学习中经常会遇见具有成百上千特征的高维数据3,若直接在原始数据上进行学习,容易出现过拟合以及泛化能力差等问题.因此,特征维数灾难是多标记学习的重要挑战之一4.为了缓解这一问题,大量关于多标记降维的方法5-6被提出,这些方法大致分两类,一类是多标记特征抽取方法7,另一类是多标记特征选择方法8-9.特征抽取指对原始特征空间进行特定组合,将其映射到一个低维空间,通常可以有效降维并取得不错的分类效果,但不能保留原始特征的物理意义,对应的分类过程不具有解释性.和特征抽取相比,多标记特征选择通过某种度
11、量标准对特征进行排序或者选择特征子集,可以有效去除特征空间中冗余、无关特征,而且保留了原始特征的物理意义,具有更好的解释性,在很大程度上降低了维度灾难对多标记学习的影响.根据是否依赖特定的学习器,现有的多标记特征选择算法大致分三类:过滤式、包裹式和嵌入式.过滤式方法需要基于数据集完成特征的正确筛选,再选择合适的训练学习器.Lin et al10通过最大化特征的依赖度的同时最小化特征间的冗余度来进行特征选择.包裹式方法利用最后能用到的学习器的性能作为特征子集的评价准则.Gharroudi et al11提出基于随机森林和标记依赖性的多标记特征选择算法.嵌入式方法把特征选择过程与学习器训练过程看作
12、一个整体,共同优化,在学习器训练的同时挑选最有意义的特征.Zhang et al12提出基于流行正则项约束的多标记特征选择算法.尽管上述算法在多标记学习中有不错的表现,但模型性能大多依赖具有大规模高质量人工标注的数据.然而,人工标注多标记数据集不仅耗时费力,还会因为类标记之间的歧义性容易出现漏标的情况,导致标记一致性较低,因此,直接使用弱多标记数据训练多标记学习模型会极大影响模型性能的准确性13.针对上述问题,本文提出一种用于弱标记数据集特征选择的弱监督对比学习(WeaklySupervised Contrastive Feature Selection,WCFS)方法.该方法包括两个核心步骤
13、:(1)使用大规模弱标记数据对模型进行预训练,预训练利用实例相似性以及稀疏学习方法获取的每个类标记类属属性恢复缺失标记;(2)对预训练模型再进行调整.受自监督对比学习的启发14-15,设计了一种弱监督对比学习策略,其目的在于通过构造正负实例,充分利用相同类实例之间的相似性和不同类实例之间的差异性来改进 k 近邻机制,最终达到选择优质特征的目的.本文的主要贡献:(1)提出一种面向弱多标记特征选择的弱监督对比学习(WCFS)框架,考虑到标记空间的不完备性,设计了一种弱监督预训练策略,通过利用实例相似性以及稀疏学习方法获取的每个类标记类属属性来恢复不完备的标记空间.(2)为了改进 k 近邻机制,引入
14、对比学习,挖掘少量人工标记数据中潜在的类间对比模式,能够充分有效地利用相同类实例之间的相似性以及不同类实例之间的差异性,削弱噪声数据带来的负面影响,减少模型对多标记数据人工标注的依赖度,提升模型的特征选择性能.(3)在 10个标准数据集中与目前先进的多标记算法进行对比,实验结果表明本文算法具有较好的特征选择效果.1 相关工作 多标记学习在众多领域中都具有广阔的应用背景,但同时也存在巨大的挑战,数据的高维性和标记缺失等问题是目前多标记学习的研究热点.针对类属属性学习和标记缺失,学者们已提出了大量的学习算法.利用类属属性进行多标记学习可以有效处理数据高维性.Zhang and Wu16与吴磊和张敏
15、灵17提 出 基 于 类 属 属 性 的 多 标 记 学 习 算 法(MultiLabel Learning with Label Specific Features,LIFT),先将 kmeans 聚类技术应用于每个标记的正负训练样本,然后利用 SVM(Support Vector Machine)对多标记分类进行建模,在解决多标记分类问题上取得了显著成效.然而这种算法忽略 86第 1期王津等:基于弱监督对比学习的弱多标记特征选择了标记相关性的影响,因此 Huang et al18通过特征选择的方式直接学习类属属性,提出类属属性提 取 学 习(Learning LabelSpecific F
16、eatures and ClassDependent Labels,LLSFDL),通过设计优化框架来学习每个标记的低维数据表示,并利用成对相关性考虑共享特征.Zhang et al19提出类属 属 性 和 多标记联合学习(MultiLabel Learning with Label Specific Features by Resolving Label Correlations,MLFC),该算法的关键是设计一个优化模型来分配特征权重,同时构建附加特征来考虑标记之间的相关性.标记的类属属性是一组与该标记相关性最强的特征子集,因此,标记的类属属性能为多标记学习提供更有价值的信息.考虑到实际任务中获得完整的标记空间是非常困难的,因此,在缺失大量标记的环境下,根据多标记信息熵、线性回归和标记一致性等理论的多标记特征选择算法被提出.例如,Zhu et al20运用鲁棒的线性回归模型选择最具区分性的特征,并 在 特 征 选 择 的 同 时 恢 复 缺 失 标 记.Wang et al21定义了多标记信息熵和多标记互信息两个新概念,并运用特征交互进行特征选择.针对弱监督分类学习,Vapnik