基于改进Transformer的细粒度图像分类模型

资源描述

1、第 60 卷第 2 期/2023 年 1 月/激光与光电子学进展0210013-1研究论文基于改进 Transformer的细粒度图像分类模型田战胜，刘立波*宁夏大学信息工程学院，宁夏银川 750021摘要细粒度图像具有不同子类间差异小、相同子类内差异大的特点。现有网络模型在处理过程中存在特征提取能力不足、特征表示冗余和归纳偏置能力弱等问题，因此提出一种改进的 Transformer图像分类模型。首先，利用外部注意力取代原 Transformer模型中的自注意力，通过捕获样本间相关性提升模型的特征提取能力；其次，引入特征选择模块筛选区分性特征，去除冗余信息，加强特征表示能力；最后，引入融

2、合的多元损失，增强模型归纳偏置和区分不同子类、归并相同子类的能力。实验结果表明，所提方法在 CUB-200-2011、Stanford Dogs和 Stanford Cars三个细粒度图像数据集上的分类精度分别达 89.8%、90.2%和 94.7%，优于多个主流的细粒度图像分类方法，分类结果较好。关键词细粒度图像分类；Transformer；外部注意力；特征选择；多元损失中图分类号 TP391.4 文献标志码 A DOI：10.3788/LOP220453Fine-Grained Image Classification Model Based on Improved Transforme

3、rTian Zhansheng,Liu Libo*School of Information Engineering,Ningxia University,Yinchuan 750021,Ningxia,ChinaAbstract For the characteristics of subtle differences between various subclasses and large differences between same subclasses in a fine-grained image,the existing neural network models have s

4、ome challenges in processing,including insufficient feature extraction ability,redundant feature representation,and weak inductive bias ability;therefore,an enhanced Transformer image classification model is proposed in this study.First,an external attention is employed to replace the self-attention

5、 in the original Transformer model,and the models feature extraction ability is enhanced by capturing the correlation between samples.Second,the feature selection module is introduced to filter differentiating features and eliminate redundant information to improve feature representation capability.

6、Finally,the multivariate loss is added to improve the models ability to induce bias,differentiate various subclasses,and fuse the same subclasses.The experimental findings demonstrate that the proposed methods classification accuracy on three fine-grained image datasets of CUB-200-2011,Stanford Dogs

7、,and Stanford Cars reaches 89.8%,90.2%,and 94.7%,respectively;it is better than that of numerous mainstream fine-grained image classification approaches.Key words fine-grained image classification;Transformer;external attention;feature selection;multivariate loss1引言细粒度图像分类作为区分同一父类下不同子类的研究任务，通常用于识别不同

8、种类的鸟、狗、汽车等。细粒度图像具有类间差异小和类内差异大的特点，区分性特征通常存在于局部区域，难以提取和捕获，极具挑战性1-2。针对以上问题，研究人员提出了基于强监督的分类方法，其中极具代表性的有 Part R-CNN3，该类方法虽然分类精度较高，但过分依赖人工标注信息，缺乏实用性。目前，以 B-CNN4、RA-CNN5、DVAN6等为代表的弱监督方法成为主要研究趋势，通过改进卷积神经网络（CNN）模型来提高分类精度。张志刚等7改进 ResNeXt508，改进后的方法在野生菌分类任务中取得较好的分类结果。王彬州等9通过在 RA-CNN中引入基于多重注意力机制的方法增强模型的特征提取能力，但该

9、类模型存在因感受野较小无法捕获长距离依赖关系的问题，导致模型的特征提取能力受到限制10。Vision Transformer（ViT）模型由 Dosovitskiy等11于 2020 年提出，通过自注意力（SA）模块捕获长收稿日期：2022-01-05；修回日期：2022-02-28；录用日期：2022-03-14；网络首发日期：2022-03-24基金项目：宁夏自然科学基金（2020AAC03031）、国家自然科学基金（61862050）通信作者：*0210013-2研究论文第 60 卷第 2 期/2023 年 1 月/激光与光电子学进展距离依赖关系，提取图像全局特征，分类准确率明显得

10、到提高。但 ViT模型只能捕获单个图像样本内像素间的相关性，导致输出特征提取能力不足，且参数量较大12。此外，ViT 模型使用末层 Transformer 输出的class patch作为最终特征表示，存在大量冗余，导致区分性特征表示能力不佳13。虽然ViT克服了 CNN无法捕获长距离依赖的缺点，但其归纳偏置的能力较弱14。综上，本文以 ViT 为基础，提出基于改进Transformer 的细粒度图像分类模型（TransFC）。主要贡献：采用外部注意力（EA）模块12代替自注意力模块，同时捕获单个样本内的长距离依赖关系和样本之间的潜在相关性，增强特征表示能力的同时降低原模型

11、参数量；在模型当中引入特征选择（FS）模块13，在提取并融合区分性区域特征的同时去除冗余特征；引入一种融合的多元损失13-14，以扩大不同子类差异，缩小相同子类差异，并使模型具有归纳偏置的能力。在3个公用细粒度数据集上通过与原模型及主流弱监督分类方法进行对比实验，结果表明所提方法具有较好的分类结果。2Vision Transformer概述Vision Transformer 采用多层 Transformer 架构完成特征提取过程，每层内部均使用自注意力作为特征函数，并利用后层 Tansformer对前层特征函数的输出进行特征细化，逐渐捕获到图像全局特征。该模型架构如图 1所示。首先，采用不重

12、叠方式将图像x RH W C划分为patch序列xp RN(P P C)，H W为图像的分辨率，C为通道数，P P和N=HW/P2分别为 patch 的分辨率和数量；之后，利用可学习线性映射向量E R()P P C D将每个 patch 映射到 D 维空间，再将分类向量xclass R1 D添加到 patch序列首部，用于集成全局特征；最后，利用Epos R()N+1 D为每个 patch赋予位置特征后得到首层 Transformer 的输入。首层Transformer的输入为Z0=xclass；x1pE；x2pE；xNpE+Epos。（1）Z0

13、输入第一层 Transformer后，分别经具有残差结构15的多头自注意力（MSA）模块和多层感知机（MLP）模块进行特征提取，数据在输入这两个模块之前均利用 Layernorm（LN）进行标准化。Transformer的内部结构如图 1右侧所示。为提取更为精细有效的特征，ViT 采用多层Transformer架构细化前层的输出特征，即Z=MSALN(Z-1)+Z-1，=1，L，（2）Z=MLPLN(Z)+Z，=1，L，（3）式中：为层数；Z和Z分别为数据经第层 MSA 和MLP 模块后的结果。通过在多层 Transformer中进行流动处

14、理，输入图像的全局特征被逐渐精细化并聚合到 class patch 中。因此，对末层输出的 class patch（Z0L）进行 LN 处理，即y=LN(Z0L)，得到最终的全局特征y，将 y输入分类器中进行分类预测、损失计算、反向传播，最终完成模型的训练。3所提方法3.1TransFC模型整体结构使用滑动窗口取代 ViT 中的不重叠方式，生成图像 patch 序列，以解决分割边缘特征后难以提取的问题。设图像分辨率为H W，patch 数量 N 计算方式为N=H-P+SSW-P+SS。（4）TransFC 的整体架构如图 2 所示。首先在 patch序列末尾添加一个xdis

15、R1 D用于计算多元损失；然后将每个 Transformer 层内部的自注意力替换为外部注意力；再采用特征选择模块对末层 Transformer的输入进行筛选，去除冗余特征；最后利用末层Transformer的输出从多方面计算损失并融合。图 1Vision Transformer架构Fig.1Framework of Vision Transformer0210013-3研究论文第 60 卷第 2 期/2023 年 1 月/激光与光电子学进展3.2引入外部注意力自注意力机制作为 ViT 中的主要特征提取方法，详细架构如图 3

16、所示。首先，将输入特征图F RN d线性映射为Qquery RN d、Kkey RN d和Vvalue RN d，其中N为像素数量，d 为特征图维度，并利用Qquery和Kkey计算得到注意力权重矩阵，具体计算过程为A=()i，j=Softmax(Qquery KkeyT)，（5）式中：A RN N为注意力权重图；()i，j为第 i个像素和第 j 个像素之间的相似度。对A和Vvalue进行矩阵相乘，再和F进行残差连接后即得到最终的输出特征，表达式为Fout=FA Vvalue，Fout RN d。（6）以上计算过程中，式（5）利用枚举的方式计算同一样本内像素点之间的相关性，忽略了样本间的潜在相关性，导致模型特征提取能力不足12；单个样本内大多数像素点只和其他少数像素点之间有相关性，枚举的计算方式造成大量冗余计算，导致模型参数量较大16。为解决自注意力存在的问题，本文引入 Guo 等提出的具有线性结构的外部注意力12，通过两个可学习的外部记忆单元使模型可以同时捕获样本内和样本间相关性，增强模型特征提取能力，同时减少模型参数量，详细结构如图 4 所示。首

展开阅读全文

基于改进Transformer的细粒度图像分类模型_田战胜.pdf