1、2023 年第 3 期计算机与数字工程收稿日期:2022年8月4日,修回日期:2022年9月13日基金项目:国家自然科学基金重点项目(编号:61836008)资助。作者简介:吴亮,男,硕士研究生,研究方向:目标检测、深度学习等。梁振,男,博士,副教授,研究方向:智慧医学。张燚鑫,男,博士,副研究员,研究方向:计算机视觉,迁移学习。王子磊,男,博士,副教授,研究方向:计算机视觉、机器学习、人工智能等。1引言目标检测作为车辆自动驾驶的核心技术,也是计算机视觉的基础任务,广泛应用于工业检测1、智能驾驶2、医学图像诊断3等诸多领域,具有重要的现实意义。在实际的交通场景下,由于采集的数据通常呈现长尾分布
2、,训练时分类器各类别性能失衡,导致检测精度下降问题。因此解决样本不平衡带来的性能损失问题是交通多目标检测算法的关键,也是目标检测领域的研究重点。目前主流的数据集(例如Pascal VOC4和COCO5等)经过人工筛选后,各类别的样本数量相对均衡。交通场景下的数据通常呈现长尾分布,各类别样本数量失衡,导致检测器出现精度损失。性能损失主要来自两个方面:首先,训练集中没有充足的尾部类别(样本很少的类)样本,难以让模型在训基于多级学习的长尾分布下交通多目标检测吴亮1,2梁振1张燚鑫2王子磊1,2(1.安徽医科大学生物医学工程学院合肥230000)(2.合肥综合性国家科学中心人工智能研究院合肥23000
3、0)摘要现有检测算法在复杂交通环境下受到长尾分布的影响,存在各类别性能难以平衡而导致精度下降的问题。因此,论文提出基于类别均衡的多级学习算法。首先在分类器上进行改进,采用多级分组分类的方式,实现较为平衡的类别学习过程。然后,引入基于多头注意力机制的特征分组方式,完成不同粒度语义信息的融合和特征提取。最后,为缓解组间的样本不平衡,构造了Logit联合调整方式,对两级类别输出进行调整。实验证明,论文提出的算法能有效缓解交通场景下的类别不平衡,提高了目标检测的准确性和鲁棒性。关键词多目标检测;长尾分布;注意力机制;类别不平衡中图分类号TP391DOI:10.3969/j.issn.1672-9722
4、.2023.03.012Multi-level Learning-based Multi-objective Detection of TrafficUnder Long-tail DistributionWU Liang1,2LIANG Zhen1ZHANG Yixin2WANG Zilei1,2(1.School of Bio-Medical Engineering,Anhui Medical University,Hefei230000)(2.Institute of Artificial Intelligence,Hefei Comprehensive National Science
5、 Center,Hefei230000)AbstractExisting detection algorithms are affected by the long-tail distribution in complex traffic environments,and sufferfrom the problem of accuracy degradation due to the difficulty of balancing the performance of each category.Therefore,this paperproposes a multi-stage learn
6、ing algorithm based on category balancing.Firstly,the classifier is improved by using multi-level grouping classification to achieve a more balanced category learning process.Then,a feature grouping approach based on a multi-headedattention mechanism is introduced to complete the fusion and feature
7、extraction of semantic information with different granularity.Finally,to alleviate the sample imbalance between groups,the Logit joint adjustment method is constructed to adjust the two-levelcategory output.Experiments prove that the algorithm proposed in this paper can effectively alleviate the cat
8、egory imbalance in traffic scenes and improve the accuracy and robustness of object detection.Key Wordsmulti-target detection,long-tailed distribution,attention mechanism,class-imbalanceClass NumberTP391总第 401期2023 年第 3期计算机与数字工程Computer&Digital EngineeringVol.51No.3599第 51 卷练过程中充分学习尾部类别的特征6,引起尾部类的精度
9、下降;其次,训练集中的头部类别(具有许多样本的类)的样本占较多比例,模型的分类器会偏向于头部类。当前长尾学习的主流方法是数据重采样和代价敏感学习。数据重采样旨在通过对训练数据中尾部类的样本进行多种采样,让各类样本数量接近。Wang等6提出的动态课程学习采用一种动态采样策略,在训练过程的后期根据动态策略采用更多的尾部类样本,让模型学习数量相近的不同类别样本。Kang等8提出的LWS通过多个不同的采样策略训练表征模块和分类器,以获得泛化性更好的表征模块和更加平衡的分类器。代价敏感学习策略则是通过提高损失函数中尾部类别损失的权重,平衡分类器头部类和尾部类的性能。Tan等9发现尾部类的正负样本的梯度不
10、平衡现象,设计了基于梯度抑制的类别均损失(EQL)。在此基础上,EQLv210采用基于梯度统计的权重再引导机制,在训练过程中动态调节每个类别的梯度,以缓解类别不平衡。通过这两种方式都可以有效缓解头部类对尾部类的抑制,但由于分类和检测任务有着本质区别,在直接应用时会有难以兼容的问题,并且这类方法是以牺牲头部类性能1112为代价来改善尾部类性能,以实现提升模型性能。为缓解头部类和尾部类的直接竞争关系,可以采用分组的方式,即根据各类别样本数量将类别划分为互不相交的若干组,通过不同分类器来进行组内的分类,以达到组内各类别样本数量的平衡,缓解头部类对尾部类的抑制程度。这种分组的方式需要构造多个分类器,单
11、一的特征提取器输出的分类特征不够精细,不能满足分类器的需要,所以额外针对不同组的样本进行精细化特征提取。此外,根据样本数量将类别分组的方式会导致各组间的样本不平衡,则可以通过Logit调整13进行解决。综上所述,本文提出一种基于多头注意力机制与类别均衡的长尾检测算法。首先,本文设计了一个类别均衡的多级分类器,通过对原始类别进行分组,得到粗粒度与细粒度的二级类别标签。具体地,将训练样本数相近的目标类别放入同一组,形成组内的细粒度类别,不同的组则构成粗粒度类别。进行不同粒度类别预测,完成平衡的学习过程。其次,构建基于多头注意力机制的特征分组重融合模块。通过多头自注意力机制提取候选框特征(Regio
12、n of Interest Feature,RoI特征)的细粒度信息,获得精细化特征,以帮助分类器提升性能。最后,在多级分类器的基础上进行Logit联合调整,以抑制类别组间的不平衡程度。本文在两个长尾交通数据集上的实验结果表明,与其他长尾学习方法相比,本文方法在mAP性能指标上有较为显著的提升,说明了本文方法可以更好地应用于实际交通场景的多目标检测任务。2基于多级学习的模型本文改进的模型结构如图1所示,主要包括类别均衡的多级分类器(Muti-level Granularity Classifier,MGC)和基于多头注意力机制的特征分组重融合模块(Group-feature Re-fusion
13、 Module,GRM)。特征图特征分组重融合模块GRM多级分类器MGC类别分数p?F回归坐标R位置回归器提议特征c候选框特征x特征分组重融合模块GRMx多头自注意力模块MSMf1fkfGe1ekeGc多级分类器MGC分类器分类器1分类器GPCPF1PFkPFG类别分数p?F类别分数p?FLogit联合调整PF精细化特征细粒度分类特征特征融合拼接细粒度分类器粗粒度分类器图1基于多级学习的检测模型结构2.1多级分类器MGC针对分类器各类别性能难以平衡的问题,本文采用多级分组的方式进行解决。具体地,首先将分类过程解耦成多级分类方式,得到粗粒度类别PC和细粒度类别PF。通过粗粒度类别与坐标的匹配计算
14、,得到正负样本,用于计算粗粒度类别损失、细粒度类别损失和坐标回归损失。粗粒度分组过程是根据训练的样本个数将所有K个类别分为G组,通过式(1)将第j(jK)个类别分到第k组:slkM()j sk,k0(1)这里M()j是训练集中类别j的样本数量,slk和sk是第k组最小和最大样本数的超参数。通过设置slk+1=sk,以确保每一组之间类别没有重叠,每个类别只能分配给一个组。G和sk根据数据特点进行经验设置,以确保组内的类别包含相似的训吴亮等:基于多级学习的长尾分布下交通多目标检测6002023 年第 3 期计算机与数字工程练样本总数。这种方式将类别划分为若干不相交的组,有相似数量样本的类别在组内竞
15、争,有显著不同样本数量的类别在训练过程中相互隔离。MGC结构如图1右下角,包含G个细粒度分类器、一个粗粒度分类器和Logit联合调整,每个分类器由全连接层、归一化层和ReLU激活层组成。通过GRM模块得到的精细化特征fk(kG)和提议特征c进行融合,得到分类特征ek。ek作为细粒度分类器k的输入,得到预测分组PFk,最后将G个分类器输出的预测分组拼接,得到细粒度类别预测PF。另外,将提议特征c直接通过粗粒度分类器,得到粗粒度预测PC,同时通过位置回归器得到回归坐标R。最后将PF与PC进行Logit联合调整后处理,得到类别分数P?F,P?F就是最后的类别预测输出。2.2分组特征重融合模块GRM本
16、文构建了基于多头注意力机制的分组特征重融合模块,提取不同组样本的精细化特征,为多级分类器提供输入。首先构建一个基于通道注意力、空间注意力14和细化注意力机制的多头注意力模 块(Multi-head Self-attention Module,MSM)。MSM是由1个通道注意力模块与1个空间注意力模块顺序串联,G个细化注意力模块并行构成,如图2,下面分别介绍3个模块。多头自注意力模块MSM通道注意力模块空间注意力模块x细化注意力模块kxfk G矩阵乘法矩阵加法图2MSM的结构图1)通道注意力机制模块可以抑制类别无关特征,选择重要特征,结构如图3。具体是对特征进行维度置换后,输入两层感知机中,最后在激活前进行维度置换反转,得到注意力权重特征wc,然后wc和x相乘得到x。通道注意力模块多层感知器激活函数维度置换CWHWHCx维度置换反转WC图3通道注意力模块结构图2)空间注意力模块可以增加对重点区域的关注度,提取关键特征,结构如图4。将由通道注意力模块得到的特征x作为输入,首先做一个基于通道的全局最大池化和全局平均池化,再将结果拼接。最后通过卷积与激活得到注意力权重特征ws。空间注意力模块卷