多尺度特征融合与新型判别器的无监督分割

资源描述

1、Computer Engineering and Applications计算机工程与应用2023，59（7）工厂在智能化升级过程中，有很多应用场景需要用到语义分割算法。而在工业应用场景中，摄像机采集到的图像通常具有对比度低、亮度不均等特点。因此，如何对工业图像进行准确的语义分割，成为了近年来的研究热点。传统图像处理算法难以对低对比度图像进行有效的语义分割，而深度学习技术的出现有效的解决了这一问题。Shelhamer等人1使用卷积层取代神经网络中的全连接层，提出全卷积网络（fully convolutional network，FCN），该网络可以接受任意尺寸图像作为网络输入，以全监督训练的方

2、式实现了语义分割。Ronneberger 等人2提出了编码与解码阶段相互对称的U-Net网络，并在两阶段对应层级之间引入跨层连接进行特征融合，在医学影像语义分割领域取得了良好的效果。Chen 等多尺度特征融合与新型判别器的无监督分割韩宗桓1，刘名果1，李珅2，陈立家1，田敏1，兰天翔1，梁倩11.河南大学物理与电子学院，河南开封 4750042.开封平煤新型炭材料科技有限公司，河南开封 475004摘要：工厂在智能化升级过程中，有很多应用场景需要用到语义分割。然而使用全监督语义分割方法需要耗费大量人力成本进行样本标注，所以研究无监督语义分割方法很有必要。针对本地某碳素厂石墨电极压印字符的

3、语义分割问题，提出了一种无监督语义分割方法CycleGAN-Seg。结合跨层连接和空洞空间池化金字塔（ASPP）的思想，构建了新型多尺度特征融合生成器，加入了改进的注意力模块以提升网络性能。同时提出一种新的U形判别器对重构图像进行判别。在石墨电极表面压印字符数据集语义分割实验中，MIoU值可达70.81%，分割效果基本满足识别需要，有望在该工业场景中替代全监督学习方法，以节省人工标注成本，达到快速训练和部署的目的。关键词：多尺度特征融合；注意力模块；无监督分割；表面压印字符文献标志码：A中图分类号：TP391.41doi：10.3778/j.issn.1002-8331.2111-0459Un

4、supervisedSegmentationAlgorithmBasedonMulti-ScaleFeatureFusionandNovelDiscriminatorHAN Zonghuan1,LIU Mingguo1,LI Shen2,CHEN Lijia1,TIAN Min1,LAN Tianxiang1,LIANG Qian11.School of Physics and Electronics,Henan University,Kaifeng,Henan 475004,China2.Kaifeng Pingmei New Carbon Materials Technology Co.,

5、Ltd.,Kaifeng,Henan 475004,ChinaAbstract：In the process of intelligent upgrading of factories,there are many application scenarios that need to use semanticsegmentation algorithms.However,the use of fully supervised semantic segmentation methods requires a lot of labor costfor sample labeling,so it i

6、s necessary to study unsupervised semantic segmentation methods.Aiming at the semanticsegmentation of characters imprinted by graphite electrodes in a local carbon factory,an unsupervised semantic segmentationmethod CycleGAN-Seg is proposed.Combining the idea of cross-layer connection and atrous spa

7、tial pooling pyramid（ASPP）,a novel multi-scale feature fusion generator is constructed,and an improved attention module is added toimprove the network performance.At the same time,a new U-shaped discriminator is proposed to discriminate the recon-structed images.In the semantic segmentation experime

8、nt of the imprinted character dataset on the graphite electrodesurface,the MIoU value can reach 70.81%.The semantic segmentation effect basically meets the recognition needs,and itis expected to replace the fully supervised learning method in this industrial scenario to save the cost of manual annot

9、ationand achieve the purpose of rapid training and deployment.Key words：multi-scale feature fusion;attentional module;unsupervised segmentation;surface imprint characters基金项目：国家自然科学基金（61901158）；河南省高等学校重点科研项目（19A520015）；河南省科技厅项目（202102210121，212102210500）；开封市重大科技专项（20ZD014，2001016）。作者简介：韩宗桓（1996），男，硕

10、士研究生，研究方向为迁移学习及语义分割；刘名果（1984），通信作者，男，博士，副教授，研究方向为深度学习与演化计算及其在电子设计智能化中的应用，E-mail：lium-。收稿日期：2021-11-24修回日期：2022-01-26文章编号：1002-8331（2023）07-0152-111522023，59（7）人3-6提出了DeepLab系列网络，该网络的空洞空间池化金字塔（atrous spatial pooling pyramid，ASPP）结构采用不同扩张率的扩张卷积提取图像各个尺度的特征进行融合，使得分割精度较之前网络大幅提升。Badrinar-ayanan等人7为了使深度学习技

11、术更好地应用于自动驾驶领域，提出了SegNet网络。Enet8大幅提升了网络分割速度。Zhao等人9所提PSANet将注意力模块引入了语义分割领域。Wang等人10首次将自注意力模块引入语义分割任务。Visin等人11结合CNN与RNN的特性，提出了 ReSeg网络。Li等人12在 ReSeg基础上进行改进，提出了LSTM-CF网络。马冬梅等人13在网络深层特征图中融合了浅层信息，提高了语义分割精度。宋廷强等人14提出的 AS-Unet通过对图像低层特征进行筛选，改善了遥感影像的分割效果。以上网络均采用全监督的方式进行训练，这就使得工业应用中表面压印字符图像的分割需要大量人工标注的训练样本。无

12、监督语义分割可以节省大量人力成本，具有巨大的应用价值。然而表面压印字符图像具有对比度低、亮度不均等特点，无监督语义分割方法想要达到较为理想的分割效果，实现难度很高，本文针对这一问题进行了研究。Goodfellow等人15提出了生成对抗网络（generative adversarial networks，GAN）。GAN网络由生成器 G（generator）和判别器 D（discriminator）两部分构成。生成器G旨在生成逼近真实分布的图像，判别器D旨在判别输入图像的真实性。判别器D与生成器G交替训练，双方互相博弈，最终趋于纳什均衡16，网络收敛。杨培健等人17将空洞卷积引入鉴别网络，从而有

13、效提升了鉴别网络的分辨能力。Pei等人18提出的多对抗域适应网络（multi-adversarial domain adaptation，MADA）使用多个判别器从多维度对齐两域特征，实现了高精度的域适应语义分割。Luo等人19提出的（category-level adversarial network，CLAN）在对抗学习框架里引入了联合训练的思想，解决了传统域适应方法中的语义不一致性和负迁移等问题。Wang等人20提出的（patch-based output space adversarial learning，pOSAL）实现了视杯与视盘的无监督分割，在医学领域取得了巨大成功。Wang

14、等人21提出的（boundary and entropy-drivenadversarial learning，BEAL）网络同时从图像的熵和前景边缘的角度优化对齐两域数据特征。Araslanov 等人22提出的（self-supervised augmentation consistency，SAC）网络使用动态生成伪标签的方法来约束分割网络的训练。由于GAN网络无法实现对输出的有效控制，Zhu 等人23提出循环式生成对抗网络（cycle-consistentgenerative adversarial network，CycleGAN）。CycleGAN为网络输入及其重构图像构造循环一致性

15、损失函数约束网络模型的训练，实现了对生成器输出的有效控制。该网络广泛应用于图像风格迁移领域。本文根据CycleGAN无监督训练的特点，再结合语义分割网络的最新思想，提出一种表面压印字符无监督分割算法CycleGAN-Seg，创新点如下：（1）改进 CycleGAN 的框架结构，使用两个结构不同的生成器以实现两域间特征差异较大图像的风格迁移，使其满足语义分割任务需要。提出多尺度特征融合生成器，用于对输入图像进行语义分割。并对Woo等人24所提注意力模块（convolutional block attentionmodule，CBAM）进行了改进，将通道注意力模块中两个全连接网络缩减至一个，减少了

16、参数量，提升了分割性能。（2）基于U-Net提出一种U形判别器，并对循环一致性损失函数进行了改进。U形判别器对重构图像进行判别，输出一张与原图尺寸相同的真实性概率图，表征重构图像中各像素点的真实性。该图作用于循环一致性损失函数，为生成器提供像素级别的反馈。该网络在石墨电极表面压印字符数据集上测试集平均交并比（mean intersection over union，MIoU）达到了70.81%，基本满足后续识别需要，实现了表面压印字符无监督分割，节约了大量人工标注成本。1CycleGAN-Seg网络整体设计如图1所示，所提算法的总体思路为：将拟分割的图片（源域图片，此处为石墨电极表面压印字符图片）风格迁移为目标域（黑白文本图片）的风格，再使用Otsu算法25进行阈值分割。风格迁移的过程事实上是图像语义分割的一个重要步骤。采用CycleGAN风格迁移方法，无需对源域和目标域图片进行配对，且目标域图片可以通过计算机自动生成，这就省去了人工标记的成本。上述设计思路的难点在于，如何达到或接近有监督分割的精度。原始CycleGAN采用完全对称的一对生成器，难以对两域间特征差别较大的图像进行高精度

展开阅读全文

多尺度特征融合与新型判别器的无监督分割_韩宗桓.pdf