1、基于空间特征的生成对抗网络数据生成方法孙 磊 杨 宇*毛秀青 汪小芹 李佳欣(战略支援部队信息工程大学 郑州 450001)摘 要:传统的生成对抗网络(GAN)在特征图较大的情况下,忽略了原始特征的表示和结构信息,并且生成图像的像素之间缺乏远距离相关性,从而导致生成的图像质量较低。为了进一步提高生成图像的质量,该文提出一种基于空间特征的生成对抗网络数据生成方法(SF-GAN)。该方法首先将空间金字塔网络加入生成器和判别器,来更好地捕捉图像的边缘等重要的描述信息;然后将生成器和判别器进行特征加强,来建模像素之间的远距离相关性。使用CelebA,SVHN,CIFAR-10等小规模数据集进行实验,通
2、过定性和盗梦空间得分(IS)、弗雷歇距离(FID)定量评估证明了所提方法相比梯度惩罚生成对抗网络(WGAN-GP)、自注意力生成对抗网络(SAGAN)能使生成的图像具有更高的质量。并且通过实验证明了该方法生成的数据能够进一步提升分类模型的训练效果。关键词:生成对抗网络;空间金字塔网络;特征加强;特征图中图分类号:TP183;TN03文献标识码:A文章编号:1009-5896(2023)06-1959-11DOI:10.11999/JEIT211285Data Generation Based on Generative Adversarial Networkwith Spatial Featu
3、resSUN Lei YANG Yu MAO Xiuqing WANG Xiaoqin LI Jiaxin(PLA Strategic Support Force Information Engineering University,Zhengzhou 450001,China)Abstract:Traditional Generative Adversarial Network(GAN)ignores the representation and structuralinformation of the original feature when the feature map is lar
4、ge,and there is no remote correlation betweenthe pixels of the generated images,resulting image quality is low.To improve the quality of the generatedimages further,a method of data generation based on Generative Adversarial Network with Spatial Features(SF-GAN)is proposed.Firstly,the spatial pyrami
5、d network is added into the generator and discriminator tocapture the important description information better such as the edge of the images.Then the features of thegenerator and discriminator are strengthened to model the remote correlation between pixels.Experiments areperformed with small-scale
6、benchmarks(CelebA,SVHN,and CIFAR-10).Compared with improved training ofWasserstein GANs(WGAN-GP)and Self-Attention Generative Adversarial Networks(SAGAN)by qualitativeand quantitative evaluation of Inception Score(IS)and Frechet Inception Distance(FID),the proposed methodcan generate higher quality
7、images.The experiment proves that the generated images can improve the trainingeffect of the classified model further.Key words:Generative Adversarial Network(GAN);Spatial pyramid network;Feature strengthen;Featuremaps 1 引言随着人工智能技术的不断发展,越来越多的下游任务相继涌现,例如分类1、人脸识别2、目标检测3,4等,而这些任务大都依赖大量的数据,包括图像、语音、文本等数据
8、。但是在现实世界中,对于医疗、安全、航空、脑电等特殊领域数据获取较为困难,成本极高。数据量的匮乏会对模型的训练产生极大的负面影响,因此,需要通过数据生成技术生成较为接近真实数据的虚假数据,从而提升模型的训练效果。在计算机视觉领域,图像生成技术一直以来都是研究的热点问题。传统的生成模型有受限玻尔兹曼机(Restricted BoltzmannMachines,RBM)5、深度信念网络(Deep BeliefNetwork,DBN)6、变分自编码器(Auto-EncodingVariational bayes,AEV)7等,此类方法计算复杂且生成效果有限。2014年Goodfellow等人8提出了
9、基于博弈论的 收稿日期:2021-11-17;改回日期:2022-01-10;网络出版:2022-02-03*通信作者:杨宇第45卷第6期电 子 与 信 息 学 报Vol.45No.62023年6月Journal of Electronics&Information TechnologyJun.2023生成模型,即生成对抗网络(Generative AdversarialNetwork,GAN),它使用生成器和判别器进行对抗训练,通过反向传播更新网络的权值,易于计算且效果显著,极大推动了图像生成领域的发展,但是训练过程极不稳定。卷积神经网络(ConvolutionalNeural Networ
10、k,CNN)9已经广泛应用于深度学习领域,经典的深度卷积生成对抗网络(Deep ConvolutionGenerative Adversarial Networks,DCGAN)10将传统GAN的多层感知机替换为CNN,将CNN引入生成器和判别器,该模型进一步提升了GAN的学习能力,提高了生成图像的质量,但是存在着训练不稳定,易产生模式坍塌的现象。2017年由Arjovsky等人11提出的瓦瑟施泰因生成对抗网络(Wasser-stein Generative Adversarial Network,WGAN)用Wasserstein距离取代詹森-香农(Jensen-Shannondiverge
11、nce,JS)12距离,这样能更好地衡量两个分布之间的散度,在一定程度上缓解了GAN训练不稳定的问题,但是此算法并没有让判别器真的限制在1-利普希茨函数(1-Lipschitz function)13内,并没有严格给出Wasserstein距离的计算方法。由Gulrajani等人14提出的梯度惩罚生成对抗网络(improved training of Wasserstein GANs,WGAN-GP)属于WGAN的增强版,用梯度惩罚实现了对判别器的近似1-利普希茨函数限制,使得GAN训练更加稳定,收敛更快,同时能够生成更高质量的样本,但是它只对于梯度的模大于1的区域的x作出了惩罚,并没有从根本
12、上解决判别器的1-利普希茨函数限制问题。Zhang等人15提出了将注意力机制与GAN融合的自注意力生成对抗网络(Self-Attention GAN,SAGAN),该改进模型可以很好地处理长范围、多层次的依赖,生成更精细、更协调的图像,但是依然存在建模像素之间远距离相关性能力弱的问题。文献16提出一种空间金字塔注意力网络以探索注意力模块在图像识别中的作用,它通过横向添加空间金字塔模块方式增强基础网络的性能。丁斌等人17提出了一种基于深度生成对抗网络的海杂波数据增强方法,通过改进传统的GAN框架来训练生成器和判别器。曹志义等人18提出了一种改进的GAN模型来进行人脸还原算法,但是缺点是需要基于大
13、量的训练样本。虽然如今已经衍生出了各种GAN的模型,但是依然存在生成的图像不清晰、质量不高等问题。而且一些GAN模型大都需要基于大量的训练样本,而在一些特殊领域,数据集的获取较为保密和艰难,所以如何在小样本的基础上,生成质量更高的图片是本文的研究重点。本文的主要贡献有:(1)提出一种基于空间特征的生成对抗网络数据生成方法,在小样本的基础上进行图像数据的生成,在生成更高质量图像的同时不会引入较大的时间开销。(2)将梯度惩罚损失函数引入对抗训练,使得训练过程更加稳定,更能快速收敛。(3)在CelebA,SVHN以及CIFAR-10数据集上进行大量对比实验,并且使用经典盗梦空间得分(Inceptio
14、n Score,IS)、弗雷歇距离(Frechet Incep-tion Distance,FID)定量评估验证了所提方法的有效性。并且设计了分类实验进一步验证了本文生成的图像数据能够提升已有深度模型的训练效果。2 相关工作 2.1 生成对抗网络GAN由生成器和判别器组成,生成器试图捕捉学习数据集中的真实分布,判别器在与生成器的不断对抗中提升判别图像真伪的能力,两者是一个不断博弈对抗的过程。GAN示意图如图1所示。GDGZDD图1为GAN的基本结构示意图,其中生成器记为,判别器记为,的输入为来自隐空间的随机变量,输出生成的样本,其训练目标是提高生成样本与真实样本的相似度,使其无法被所判别。的输
15、入为真实样本和生成样本,最后输出判别结果为真或假,其训练目标是分辨真实样本与生成样本。原始GAN的目标函数为minGmaxDV(D,G)=Expdata(x)logD(x)+Ezpz(z)log(1 D(G(z)(1)pdata(x)pz(z)D(x)pz(z)pdata(x)DD(x)D(G(z)D(G(z)其中,代表真实样本的分布,代表生成样本的分布,是真实图像的概率,是一个01的实数。训练目标为最小化与之间的距离,最大化 判别样本的准确率。由式(1)可知训练判别器的过程中期望最大化目标函数使输出的概率趋近于1,使输出概率值趋近于0;当对生成器进行训练时期望最小化目标函数,即输出概率趋近于
16、1,使生成器生成的图像无法被判别器判别真伪。当对抗训练进行到最后时理 图 1 GAN结构示意图1960电 子 与 信 息 学 报第 45 卷想情况下判别器对生成图像以及真实图像的输出概率值都接近于0.5,此时判别器将无法判断生成器所生成图像的真伪,生成器将可以很好地拟合数据集的真实分布,生成以假乱真的图像。2.2 深度卷积生成对抗网络DCGAN将CNN引入生成器和判别器,借助CNN更强的拟合与表达能力,很大程度上提高了生成图像的能力,其思路主要使用了原始GAN模型的基础理论。DCGAN相比于原始的GAN改进包含以下几个方面:(1)取消了所有的池化层,生成器中使用转置卷积19进行上采样;(2)除了生成器的输出层和判别器的输入层之外,在网络其他层上都使用了批量归一化(BatchNormalization,BN)20;(3)生成器中除了最后一层均使用整流型线性单元(Rectified Linear Unit,ReLU)21作为激活函数,最后一层使用双曲正切(hyperbolic Tangent,Tanh)22激活函数;判别器中除了最后一层均使用渗漏整流型线性单元(Leaky ReLU)23作