1、基金项目:国家自然科学基金(61462072,61662062)收稿日期:2021-05-11 修回日期:2021-06-05 第 40 卷 第 4 期计 算 机 仿 真2023 年 4 月 文章编号:1006-9348(2023)04-0362-05融合掩模和注意机制的 CNN 图像分类算法李 伟1,2,黄鹤鸣1,2(1.青海师范大学计算机学院,青海 西宁 810008;2.藏语智能信息处理与应用国家重点实验室,青海 西宁 810008)摘要:为了更好地抑制卷积神经网络在图像分类训练过程中出现的过拟合现象,提高图像分类精度和算法的稳定性,提出了融合掩模和注意机制的 CNN 图像分类算法。算法
2、使用去噪神经网络提取的去噪深度特征,作为深度 CNN 网络模型总框架的输入,基于掩模预训练方法训练网络模型;再使用不同注意类型的激活函数,在标准图像库 Corel-1000 上充分进行实验。实验结果表明:使用基于去噪神经网络的掩模预训练方法,不仅较大程度提升了图像分类效果,而且整个模型的性能更趋于稳定和健壮。加入混合注意机制后,实验效果得到进一步提升。算法通过降低图像背景噪声和深度特征噪声的干扰,能有效抑制训练过程中出现的过拟合现象;且不同注意类型激活函数的作用不尽相同,其中混合注意机制的实验效果最优。关键词:卷积神经网络;过拟合;掩模操作;注意机制;预训练;去噪深度特征中图分类号:TP183
3、 文献标识码:BCNN Image Classification Algorithm Based on Fusionof Mask and Attention MechanismLI Wei1,2,HUANG He-ming1,2(1.School of Computer Science and Technology,Qinghai Normal University,Xining Qinghai 810008,China;2.State Key Laboratory of Tibetan Intelligent Information Processing and Application,X
4、ining Qinghai 810008,China)ABSTRACT:In order to suppress the over-fitting phenomenon of convolution neural network in the training processof image classification and improve the accuracy of image classification and the stability of algorithm,a CNN imageclassification algorithm based on fusion of mas
5、k andattention mechanism is proposed.The algorithm was used to trainthe network model based on mask pre-training method,and the denoising neural network was used to extract the de-noising deep features as the input of the overall framework of deep CNN network model.Then,experiments were car-ried out
6、 on the standard image database Corel-1000 using different attention activation functions.The experimental re-sults show that using the pre-training method based on mask not only improves the image classification effect,but al-so makes the performance of the whole model more stable and robust;at the
7、 same time,after adding the mixed atten-tion mechanism,the experimental results are better.By reducing the interference of image background noise and deepfeature noise,the algorithm can effectively suppress the over-fitting phenomenon in the training process;And differ-ent attention activation funct
8、ions have different effects,among which the mixed attention activation function has thebest effect.KEYWORDS:CNN;Over-fitting;Mask;Attention mechanism;Pre-training;Denoising deep feature1 引言近年来,随着大数据和硬件计算能力的发展,神经网络在各个领域不断取得了突破性进展1。卷积神经网络(Con-volution Neural Networks,CNNs)作为一种带有卷积计算的深层前馈型神经网络(Feedforw
9、ard Neural Networks),可以更好地获取图像的空间位置等相关特征2,3。2017 年,陈玉石等人提出使用不同的卷积神经网络提取异构特征的图像分类模型4;Bartunov 等人在 2018 年将注意力机制应用于卷积神263经网络来提取图像特征5,注意力机制通过引入新的参数来弥补模型的拟合能力;2019 年,王培森等人认为单一的注意力机制不能充分提取图像的特征信息6,故提出多通道视觉注意力机制的全卷积网络分类模型;同年,Li 等人提出了双交叉熵损失函数概念,并将其应用到 CNNs 结构7,该模型在小样本汽车库上取得了不错的分类效果;2020 年 9 月,Pathak 等人将深度迁移
10、学习算法应用于 CNNs,搭建出基于深度迁移学习的 2019 新冠肺炎病毒分类模型,并在此模型中使用十倍交叉验证来防止过拟合现象8;同年 12 月,张祥东等人提出了一种结合扩张卷积与注意力机制的三维-二维串联卷积神经网络模型9,利用三维卷积提取图像特征的同时,并采用二维卷积进一步提取高级空间语义信息,再通过引入扩张卷积增大卷积核感受野,构建了多尺度特征提取结构,最后,利用注意力机制使网络关注到较重要特征,并抑制噪声和冗余信息,有效提高了小样本训练条件下的分类精度。经过不断地发展研究和改进,CNN 具有良好的扩展性和鲁棒性。利用 CNN 进行图像分类时,能够比较快速且全面地提取空间位置相关特征,
11、但会产生过拟合、梯度爆炸或梯度消失等问题。Dropout 技术有效缓解了网络过拟合问题,本研究受图像自身特性的启发,提出了一种融合掩模和注意机制的 CNN 图像分类算法:使用基于掩模的预训练方法突出前景目标物体和去噪神经网络提取的去噪深度特征,降低了图像背景噪声和深度特征噪声的干扰,从而促使网络模型总框架更加稳定。并使用三种不同注意类型的激活函数进行充分实验,进一步提升了算法的性能。实验结果表明:将其算法应用于 Corel-1000 图像库时,分类精确度有了较大提升。2 网络模型为了更好地读取图像内容信息和提高图像分类精确度,构建了如图 1 所示的深度 CNN 网络模型总体框架。该框架模型共有
12、四个卷积层:去噪深度特征层、深度特征解释层、特征抽象表示层、特征高级表示层。卷积层后各跟随一个池化层,池化是缩小高、长方向上的空间运算。后面是三层全连接层,相邻层的神经元全部连接在一起,输出的数量可以任意决定。最后采用应对多分类问题的 softmax 函数进行分类10-12,其计算公式如下yk=exp(ak)ni=1exp(ai)(1)exp(x)是表示 ex的指数函数,假设输出层共有 n 个神经元,计算第 k 个神经元的输出 yk。softmax 函数的分子是输入信号 ak的指数函数,分母是所有输入信号的指数函数的和。图 1 中的去噪深度特征层由一个输入层和两个卷积层构成,用于提取去噪深度特
13、征。CNN 的卷积层依赖于网络分层学习上下文不变特征4:空间位置信息,这在图像分类和图 1 深度 CNN 网络模型总体框架图像检索中都特别有用。图 2 去噪神经网络结构3 融合掩模和注意机制的 CNN 图像分类算法的核心思想3.1 基于掩模的预训练方法在神经网络的学习和训练过程中,由于特征维度比较高而训练样本有限,过拟合问题不可避免。同时,神经网络希望模型对没有包含在训练数据里的未观测数据也可以进行363正确的识别。因此,在搭建复杂有效的网络模型时,寻找有效抑制过拟合的方法很重要。本研究受图像自身特性的启发,提出了一种融合掩模的预训练方法。这种方法通过降低图像背景噪声的干扰,不仅可以对训练过程
14、中出现的过拟合现象起到一定程度的抑制作用,而且更有助于提高算法的稳定性和健壮性。图像掩模处理是将原图中的每个像素和掩膜中的每个对应像素进行与运算。比如 1&1=1,1&0=0 等。一个 33 的图像与 33 的掩模进行运算,得到结果图 3。图 3 图像的掩模处理过程图基于掩模预训练方法的具体步骤是:首先,对图像做掩模处理,去掉背景,突出前景的目标物体,如图 4 所示;其次,使用掩模后的图像对网络进行首次预训练;最后,使用完整图像对神经网络进行第二次预训练。图 4 图像掩模处理后的效果图基于掩模预训练方法中掩模图像的算法,用伪代码描述如下:Begin原始图像像素值存于矩阵 OG;二值化掩模矩阵数
15、组 MA;掩模后图像像素值存于矩阵 MG;for(i=0;ilen(OG);i+)for(j=0;j 0)0(xi,c 0)(2)通道关注 f2对所有通道内的每个空间位置的像素点执行 L2 标准化,达到移除空间信息的目的。f2的计算公式如下f2(xi,c)=xi,cxi,c(xi,c 0)0(xi,c 0)|(3)空间关注 f3的作用与通道关注 f2相反,对每个通道的所有特征图进行标准化,移除通道信息仅保留空间信息。f3的计算公式如下f3(xi,c)=xi,c-meancstdc(xi,c 0)0(xi,c 0)|(4)在式(2)-(4)中,i 表示所有空间位置,c 表示所有通道,meanc和
16、 stdc分别表示第 c 个通道的均值和标准差,xi表示第 i 个空间位置的特征向量。4 实验结果及分析4.1 实验参数与图像库实验使用的是 Corel 公司所提供的标准图像素材库Corel-1000,有 10 类子集,共包含 1000 幅图像。并且,网络模型中不同卷积层的参数设置如表 1 所示。表 1 各卷积层中的参数层数核数量核尺寸步长填充132551026455103128331041283310 在本研究中,使用交叉熵误差函数作为模型的损失函数18。同时,要使损失函数最优化,需要用到优化方法,实验采用 Adam 优化器19,其更新步长的步骤可总结如下1)计算时刻 t 的梯度gt=J(t-1)(5)2)计算梯度的指数移动平均数:mt=1mt-1+(1-1)gt(6)3)计算梯度平方的指数移动平均数:vt=2vt-1+(1-2)g2t(7)463 4)对梯度均值 mt进行偏差纠正:mt=mt/(1-t1)(8)5)对梯度方差 vt进行偏差纠正:vt=vt/(1-t2)(9)6)更新参数,默认学习率=0.001:t=t-1-mt/vt+()(10)其中,=10-8,避免除数为 0。4