基于深度学习的标签噪声学习算法综述

资源描述

1、2023 03 10计算机应用,Journal of Computer Applications2023,43(3):674-684ISSN 10019081CODEN JYIIDUhttp：/基于深度学习的标签噪声学习算法综述伏博毅1，2，彭云聪1，2，蓝鑫1，2，秦小林1，2*（1.中国科学院成都计算机应用研究所，成都 610041；2.中国科学院大学计算机科学与技术学院，北京 100049）（通信作者电子邮箱）摘要：在深度学习领域中，大量正确标注的样本对于模型的训练和学习至关重要。然而，在实际的应用场景中，标注数据的成本很高，同时标注的样本质量会受人工标注的主观因素或工具技术的影响，

2、在标注过程中无法避免标签噪声的产生。因此，现有的训练数据都存在一定的标签噪声，如何有效地训练带标签噪声的训练数据成为了研究的热点。围绕基于深度学习的标签噪声学习算法，首先详细阐述了标签噪声学习问题的来源、分类和影响；然后依照机器学习的不同要素分析了基于数据、损失函数、模型、训练方式的四种标签噪声学习策略；随后提供了各种应用场景下学习标签噪声问题的基础框架；最后，给出一些优化思路，并展望了标签噪声学习算法面临的挑战与未来的发展方向。关键词：标签噪声；半监督学习；监督学习；深度学习；损失函数中图分类号：TP183 文献标志码：ASurvey of label noise learning algo

3、rithms based on deep learningFU Boyi1，2，PENG Yuncong1，2，LAN Xin1，2，QIN Xiaolin1，2*（1.Chengdu Institute of Computer Application，Chinese Academy of Sciences，Chengdu Sichuan 610041，China；2.School of Computer Science and Technology，University of Chinese Academy of Sciences，Beijing 100049，China）Abstract:

4、In the field of deep learning，a large number of correctly labeled samples are essential for model training.However，in practical applications，labeling data requires high labeling cost.At the same time，the quality of labeled samples is affected by subjective factors or tool and technology of manual la

5、beling，which inevitably introduces label noise in the annotation process.Therefore，existing training data available for practical applications is subject to a certain amount of label noise.How to effectively train training data with label noise has become a research hotspot.Aiming at label noise lea

6、rning algorithms based on deep learning，firstly，the source，classification and impact of label noise learning strategies were elaborated；secondly，four label noise learning strategies based on data，loss function，model and training method were analyzed according to different elements of machine learnin

7、g；then，a basic framework for learning label noise in various application scenarios was provided；finally，some optimization ideas were given，and challenges and future development directions of label noise learning algorithms were proposed.Key words:label noise;semi-supervised learning;supervised learn

8、ing;deep learning;loss function0 引言深度学习以大规模数据集为前提，在图像分类、目标检测、文本分析等领域取得了显著的成功，而成功的关键在于现有的海量标记数据集，如 MS COCO（MicroSoft Common Objects in Context）1和ImageNet2-3等大规模数据集。然而，实际场景中收集高质量的大规模数据集既耗时又昂贵。为降低成本，构建数据集的过程会利用某种程度的自动标注或众包标注，而这些技术本质上容易出错4，从而引入带有标签噪声的低质量数据。此外，Northcutt 等5发现，在大型通用数据集如ImageNet上也存在标签噪声，Im

9、ageNet验证集中存在多达2 916个标签错误，占总验证集的6%。研究表明，尽管深度学习网络在对标签噪声的处理上相对稳健6-7，但这些强大的模型依然存在噪声过拟合的情况，极大地降低了模型的泛化性能。此外，如果标签噪声大量出现，它们可能会破坏当前模型的评价体系。例如，各行业从业者依赖于带有噪声的真实数据集，如果用它们进行训练、验证，可能会得出错误的模型。目前标签噪声问题已经越来越受到重视，因为它们可以显著影响学习到的分类器的准确性8-10。如何从含有标签噪声的数据集中学习成为现代深度学习任务的一项重要研究。因此越来越多的学者开始针对噪声数据进行研究，遗憾的是，传统的正则化技术，例如数据增强11

10、、Dropout12等方式，并没有很好地处理标签噪声问题。即使上述所有正则化技术都被激活，在干净数据和有噪声数据上训练的模型之间的测试精度差距仍然很大。在存在噪声标签的情况下，模型如文章编号：1001-9081（2023）03-0674-11DOI：10.11772/j.issn.1001-9081.2022020198收稿日期：20220222；修回日期：20220518；录用日期：20220526。基金项目：全国科学院联盟合作项目（中国科学院成都分院-重庆市科学技术研究院）；中科院STS区域重点项目（A类）（KFJ-STS-QYZD-2021-21-001）；四川省科技计划资助项目（201

11、9ZDZX0006）。作者简介：伏博毅（1998），女，湖南岳阳人，硕士研究生，CCF 会员，主要研究方向：标签噪声、图像语义理解、目标检测；彭云聪（1998），男，四川成都人，硕士研究生，CCF会员，主要研究方向：统计机器学习、图像语义理解、小样本学习；蓝鑫（1998），女，福建龙岩人，硕士研究生，CCF会员，主要研究方向：深度学习、图像语义理解、目标检测；秦小林（1980），男，重庆人，研究员，博士，CCF会员，主要研究方向：自动推理、人工智能。第 3 期伏博毅等：基于深度学习的标签噪声学习算法综述何获得良好的泛化能力充满了挑战性。本文介绍了最新的标签噪声学习技术的进展，以缓解标签噪声带来

12、的影响。本文首先详细阐述了标签噪声学习问题的来源、分类和影响，然后依据机器学习的不同要素将它归纳为基于数据的标签噪声学习算法、基于损失函数的标签噪声学习算法、基于模型的标签噪声学习算法与基于训练方式的标签噪声学习算法，有助于对算法进行评价；接着提供了一个带标签噪声样本学习的基础框架，分析了各种应用场景下标签噪声问题的处理策略，以便众多相关研究者参考和借鉴；最后，对标签噪声学习技术进行总结，给出了一些优化思路，并展望了标签噪声学习算法面临的挑战与未来的发展方向。1 标签噪声 1.1问题描述标签噪声问题可以定义为在有监督学习下，假设带噪数据集为D=()x1，y1，()x2，y2，()xn，yn(X

13、，Y)n，噪声分布（未知）为(X，Y)n，目标是寻找最佳的映射函数f：X Y13。损失函数常用于评估分类器的性能，可以定义损失函数L()f(x)，y以衡量分类器的预测性能。在D上的经验风险R定义为：RD(f)=1ni=1nL()f()xi，yi（1）经验风险最小化结果为：f=argminfRD(f)（2）大部分研究采用随机噪声对标签噪声建模，可以分类为对称标签噪声和非对称标签噪声；而实际上数据标注错误往往取决于实例和识别的难度，存在实例相关噪声14-15。标签噪声模型可表述为：y?n=|i，i 1，2，k，i yn，probability i ynxn，i=xnyn，p

14、robability()1-xn（3）对称标签噪声可以理解为真实标签yn以相同的概率xn，i=被翻转为其他标签i。非对称标签则是真实标签yn以不同概率xn，i被翻转为其他标签i，而真实标签yn会以更高的概率被标注为某一特定类标签，即1-xn xn；且某个类更有可能被错误地标注为特定的标签，即i yn，j yn，xn，i xn，j。对称标签噪声的生成过程完全随机，生成的错误标签与真实标签和实例特征都不相关，而实例相关噪声生成的错误标签只与实例特征相关，依赖额外的较强的假设，某个类更有可能被标注为与特征相关的噪声标签，即p()|y?nyn，xn p()|y?nyn。如果一个损失函数L()f(x)，

15、y满足式（4），那么该损失函数是对称的。常数C表示遍历所有类别的总损失和。具有对称性的损失函数，具有一定的抗噪能力16。i=1kL()f(x)，i=C；x X，f（4）基于噪声标签模型和以上不同噪声标签的定义，对于一个对称损失函数L(f(x)，y)，噪声情况下的经验风险R可以表示为：RL(f)=ED|()1-xL()f(x)，y+i yx，iL()f(x)，i（5）对称标签噪声的经验风险R为：RL(f)=ED|()1-L()f(x)，y+k-1i yL()f(x)，i=()1-kk-1RL()f+k-1i=1kL()v，i（6）其中，RL()f为干净数据集的经验风险。对于对称标签噪声，i=1k

16、L(v，i)是一个常数，其中，v是一个固定向量。当()1-k()k-1 0即 0。RL(f)=ED|()1-yL()f(x)，y+i yy，iL()f(x)，i=i=1KL()f(x)，i ED()1-y-EDi y()1-y-y，iL()f(x)，i（7）但是，对于带噪数据集，仅通过经验风险最小化来处理标签噪声往往不够，因为损失函数L()f(x)，y的对称条件限制过多，无法找到凸函数，导致优化困难，且经验风险最小化不足以处理标签噪声的多样性。因此接下来将会从数据本身、损失函数的修改、模型结构以及训练方式介绍一些其他的标签噪声处理方法。1.2标签噪声的来源实际场景中标签噪声的一大来源是网页爬取等各种自动标注方法17-18。标签噪声还存在于诸多应用场景：在线查询19，在查询某一个目标的图像时，存在不属于同一个类的噪声样本；众包标注20中存在的非专业标注带来了噪声标签；对抗性攻击21会在原始样本中加入噪声以生成对抗性样本；医学图像22的数据本身存在不确定性的医疗任务，领域专家给出的不同的诊断结果存在标签噪声。从含有标签噪声的数据集中学习已经成为深度学习应用的一个发展方

展开阅读全文

基于深度学习的标签噪声学习算法综述_伏博毅.pdf