1、信息通信基于生成对抗网络的半监督语义分割方法研究吕阳阳2(1.三峡大学,计算机与信息学院,湖北宜昌4430 0 2;2.湖北省建筑质量检测装备工程技术研究中心,湖北宜昌4430 0 2)摘要:作为计算机视觉领域的一大热点和重要技术,图像语义分割在实现图像分割的基础上,增加了对图像的高层次语义理解。我们注意到,已有的基于生成对抗网络和半监督学习的图像语义分割中,对于处理场景复杂,具有多个对象等特殊图片时效果不佳。针对以上问题,文章提出一种新的基于生成对抗网络和半监督学习的图像语义分割模型,使用GAN作为网络主干,并在生成器引入双流注意力机制,使得模型能够辨别更深层次的语义信息,提高生成器分割精度
2、。实验结果表明我们的模型,在7 5%、50%、2 5%、12.5%四种不同的标签占比数据集上,都有了明显的性能提升。关键词:生成对抗网络;语义分割;双流注意力模型中图分类号:T391Semi-Supervised Semantic Segmentation Method Based on Generation Countermeasure Network(1.College of Computer and Information,Three Gorges University,Yichang,Hubei 443000,China;2.Hubei Construction Quality Tes
3、ting Equipment Engineering Technology Research Center,Yichang,Hubei 443000,China)Abstract:As a hotspot and important technology in the field of computer vision,image semantics segmentation increases thehigh-level semantic understanding of images on the basis of image segmentation.We have noticed tha
4、t the existing semanticssegmentation based on generation of antagonistic networks and semi-supervised learning does not work well with special pic-tures such as complex scenes,multiple objects,etc.To solve the above problems,this paper presents a new image semantics seg-mentation model based on the
5、generation of antagonistic network and semi-supervised learning.GAN is used as the backboneof the network,and a dual-stream attention mechanism is added to the generator to enable the model to distinguish deeper sem-antic information and improve the segmentation accuracy of the generator.The experim
6、ental results show that our model has asignificant performance improvement on datasets with 75%,50%,25%,12.5%different labels.Key words:Generative adversarial network,Semantic segmentation,Dual-stream attention mechanism0引言图像语义分割是计算机视觉领域的重大课题之一,图像语义分割和传统的分割任务不同,通常分割任务主要目的在于找出主体目标对象及其区域,类似于“抠图”。而语义分割
7、技术相比复杂很多,通常语义分割任务需要处理多个对象或者处理多个具有相同语义的对象其主要目的是为图像中每一个像素指定一个像素类。对于多数语义分割模型来说,输入一张需要分割的图像,会得到一张掩码图。每个掩码代表着不同的对象,为直观表现分割结果,通常把每个掩码对应不同颜色。经过多年发展,图像语义分割有着非常广阔的应用前景(自动驾驶2 7 、医学图像处理36 8.、卫星图像处理5,12 等)。如今基于深度学习的全监督学习语义分割方法中FCN4是最受欢迎的研究之一。虽然FCN模型在许多语义分割任务中表现良好,但多数任务需要大量像素级标注数据进行训练。为减轻数据标注的任务量,我们引入了以GAN(Gener
8、ativeAdver-sarialNetwork)为框架的半监督图像语义分割方法,从而通过从不同尺度的特征图中学习判别模式,来实现语义分割的效果。同时,为了在保证模型对于特征关键部分的提取和强调能力的前提下获得更强的灵活性,我们对于网络结构也进行了一定的调整。具体来说,我们选用Deeplabv3+4作为模型GAN的生成器,在其编码器和解码器之间,增加了一个双流注意力机制,即基于位置的注意力模块和基于通道的注意力模块。其中,基于位置的注意力模块可以捕获特征图的任意两个位置之间的空间依赖,基于通道的注意力模块可以利用所收稿日期:2 0 2 3-0 2-2 6作者简介:吕阳阳(198 8-),男,山
9、东聊城人,研究生,硕士,主要研究方向:深度学习与图像处理。732023年第0 5期(总第2 45期)文献标识码:A文章编号:2 0 9 6-9 7 59(2 0 2 3)0 5-0 0 7 3-0 5LV Yangyang?有相关位置的空间信息,来建模通道的相关性,维持不同通道之间的映射关系。1相关工作作为计算机视觉领域的一大热点和重要技术,图像语义分割在实现图像分割的基础上,增加了对图像的高层次语音理解。根据是否需要标签以及标签的数量,语义分割可以分为全监督学习、半监督学习和弱监督学习等类别。1.1基于全监督学习的语义分割基于全监督学习的语义分割的代表研究包括全卷积网络族(Fully Con
10、volution Networks、FCNs)1314.1,U-Ne t l 7 等。其中,FCNs一般采用编码器-解码器结构,前者通常是某一个预训练的网络框架(VGG、Re s Ne t 等),而解码器则负责将编码器学习到的特征从高维度空间映射到图像像素上。通过用卷积层替换CNN中的全连接层,FCNs不仅可以处理任意维度的输入图像,同时由于其使用了反卷积进行上采样,使其在处理中间数据时,可以将维度对齐到输入维度,不会因为一步步卷积而减小分辨率,从而导致细粒度信息的缺失。SegNet创造性地在解码器的结构上引入了池化索引来实现上采样,使得高频的细节特征得到了更好的保留。而U-Net正如他的名字
11、一样,整体的网络结构是一个U型的,由一个捕获上下文信息的收缩路径,和一个对称的拓展路径组成。得益于少量的参数和网络深度,U-Net的计算速度非常快。1.2基于半监督学习的语义分割文献18 使用CNN对分类和分割两个任务做了解耦,以Changjiang Information&Communications便利用图像级和像素级标注信息对分类和分割分别进行训练。自我监督118,19 是较早被提出的半监督学习方法之一,文献2 0 即提出了一中新的混合匹配(mix-and-match)的方法进行数据增强并实现预训练。在CNN的基础上,R-CNN12创造性地结合了区域投票和CNN框架,同时实现了目标检测和
12、语义分割。其核心在于引入了一个支持向量机(SVM),来对CNN的输出进行分类,然后对每个区域进行投票,这样的缺点在于非常费时间。因此,更多基于R-CNN的半监督模型也相继被提出,其中不乏FasterR-CNN22和MaskR-CNN23这样著名的模型。1.3基于弱监督学习的语义分割弱监督方法存在多种不同级别的监督,其中基于图像级别的标注是监督力度最弱的一种方法。虽然弱监督训练出来的模型与全监督,半监督训练的模型存在不小的差距,不过其泛化能力会更强。文献2 4 使用了一个从简单到复杂的三层网络框架,第一层是初试DCNN,第二层是增强 DCNN,第三层是更强的DCNN。随着网络深度的增加,模型的分
13、割性能也得到了提升,但响应的,消耗了大量的时间和资源。文献2 5 同样也是在 DCNN上进行的改进,使用 Hypotheses-Cnn-Pooling(HCP)来评估分类得分,同时使用了一种新的交又熵损失。1.4 对抗性学习文献2 6 等提出了一种学习生层生成模型的对抗性方法,他们的GAN从固定的(高斯)分布中获取样本,并通过确定性可微深度网络将该样本转换为训练样本的分布。对抗性网络用语定义一个损失函数,以巧妙避开了明确评估或近似函数的需要。该模型被训练成最佳地区分来自经验数据分布的样本和来自深度生成模型的样本。同时,生成模型也被训练,以最小化判别器的准确性。在后续工作中,文献2 7 提出了许
14、多能够稳定地合成真实图像的生成模型,他们使用了深度反卷积网络,通过上采样逐步地构建图像。文献2 8 也使用拉普拉斯金字塔训练一系列GAN模型,能够生成细节更加精细的图像。文献2 9 考虑了图像修复的问题,其中图像的缺失部分必须从观察部分预测,与语义分割密切相关。其以输入图像为条件确定地产生标签概率,结合回归损失和对抗性损失两项,以解决逐像素回归可能导致的模糊问题(因为逐像素回归不适用于输出中的高阶正则性)。一些作者已经表明,卷积分类网络产生的图像,可以通过人类无法察觉的方式,操纵自然图像或非自然图像来合成。这与GAN有关,因为他们试图通过干扰CNN的输入来降低CNN性能。在GAN中,这些干扰通
15、过生成网络进一步被反向传播,以提高生成器性能。2研究方法本研究采用生成对抗网络进行半监督语义分割,网络模型主要由生成器和判别器组成,生成器为分割网络,判别器评估生成的分割图与原图的差异性。2.1生成器生成器部分,我们使用了wide-dropout结构,以减少网络深度,同时增大网络宽度,这样可以避免梯度消失的问题,同时由于网络更宽,模型能够学习更多维度的特征,一定程度上增加了表征能力。同时,生成器部分引入了Deeplabv3+网络,该网络将空间金字塔池化模块引入到深度神经网络中。以往的研究多是通过对输入的特征图使用多尺度的卷积核或池化,以及多种感受吕阳阳:基于生成对抗网络的半监督语义分割方法研究
16、野,才能够编码出多尺度的环境信息。但Deeplabv3+能够将多尺度特征和恢复空间信息相结合,虽然仅仅是在Deeplabv3的基础上加入了解码器模块去细化分割效果,但进一步探索了Xception模型并且将深度可分离卷积应用在空洞空间金字塔池化以及解码器模块中,从而构造出了更快和更强的encoder-de-coder网络。相比传统卷积,空洞卷积扩大了感受野,使其能够检测分割更大的实例目标,另一方更高的分辨率也提高了目标定位的精准性。同时,空洞卷积可以捕获多尺度的上下文信息。空洞卷积是一个能够有效控制深度神经网络输出特征图分辨率的工具,同时能够调整卷积核的感受野从而捕获多尺度信息,是标准卷积的一个拓展。在一个二维卷积中,对于卷积输出的特征y上的每一个位置i以及对应的卷积核,输入x,空洞卷积的计算如下:K-1xi+r wKk=0Deeplabv3+的编码器主体是一个DCNN,输出层利用一个11卷积替换全连接层,这样一来,能够融合多通道的特征知识,增强特征的非线性表达。在解码器上,对压缩两次的初步有效特征层利用11卷积调整通道数,再和编码器的输出上采样结果进行堆叠,完成后,进行两次深度可分离卷