1、收稿日期:2022-11-23基金项目:江西省教育厅科学技术研究基金(KJLD14021)和江西省教育厅重点教改课题(JXJG1821)资助项目通信作者:周勇(1971),男,江西南昌人,副研究员,主要从事数据库、数据挖掘和人工智能方面的研究 E-mail:zhou_yong126 com刘鹤,周勇,潘翼,等 结合多尺度特征和多维注意力的人脸风格转换 J 江西师范大学学报(自然科学版),2023,47(1):69-76LIU He,ZHOU Yong,PAN Yi,et al The face style conversion combining multiscale feature fusi
2、on and multi-dimensional attention J Journal of Jiangxi Normal University(Natural Science),2023,47(1):69-76文章编号:1000-5862(2023)01-0069-08结合多尺度特征和多维注意力的人脸风格转换刘鹤,周勇*,潘翼,张金桃(江西师范大学计算机信息工程学院,江西 南昌330022)摘要:针对 StarGANv2 模型生成的人脸图像存在风格重建效果不佳、人脸纹理不够自然等现象,该文提出结合多尺度特征和多维注意力的人脸风格转换模型 1)将多尺度特征融合模块 PSConv 嵌入 Sta
3、rGANv2生成器内,提高了模型对图像特征的提取能力;2)提出了多维注意力模块 MDConv,并将该模块嵌入 Star-GANv2 判别器内,从而提高了模型对真假人脸图像的判别能力 与 StarGANv2 方法在 CelebA-HQ 数据集上进行对比实验的结果表明:该方法生成的人脸图像风格更美观,纹理细节更自然,学习感知图像相似度(LPIPS)的值也得到了提升关键词:人脸风格转换;人脸属性合成;多尺度特征融合;多维注意力中图分类号:TP 391 4文献标志码:ADOI:10 16357/j cnki issn1000-5862 2023 01 090引言人脸作为身份识别的关键信息,在计算机视觉
4、领域中引起了广泛的关注 近年来,人脸合成技术1 发展迅速,在影视娱乐、公安侦查、虚拟现实等应用领域中发挥了较大的作用 在人脸合成技术中,人脸风格转换源于人脸属性合成,是对人脸的若干属性进行编辑,转换其表现形式,其中属性指具有明确语义信息的特征,如发型、肤色、年龄等 最初对人脸属性合成往往局限在年龄修改(如人脸老化等 2),随着生成对抗网络(generative adversarial networks,GAN)3 的发展,可实现对指定的属性转换Li Mu 等4 构建了属性转换网络和图像增强网络,在保留输入人脸身份前提下,实现了面部属性的平滑合成 Liu ujie 等5 借助残差网络 esNet
5、6 的思想,通过学习输入图像和生成图像的差异来实现对属性的控制,并且采用 2 个不同的生成器实现特定属性的不同表现形式的互相转换(如佩戴眼镜和未佩戴眼镜等)但上述方法都只对单个属性进行改动,并且由于属性间具有较强的关联,无关属性容易随之改动,属性合成较难控制2018 年,Y Choi 等7 提出了 StarGAN,仅用 1个生成器实现了多个属性之间的转换,并且加入属性分类误差,以实现无关属性的保留,但生成图像精度较差 随后,Liu Ming 等8 基于目标属性标签和源属性标签之间的差异,利用选择性传输单元的跳跃连接,显著提高了生成图像的精度和视觉效果 为了挖掘隐式空间和人脸属性之间的内在联系,
6、ShenYujun 等9 提出了 InterFaceGAN,通过子空间投影对人脸属性特征进行解耦,顺利完成了语义化的人脸编辑 2021 年,Yang Guoxing 等10 在样式转换器中引入了正交性约束,将属性相关的样式代码与不相关的样式代码分离,取得了较好的属性转换效果Wang Huipo 等11 通过迭代遍历非线性潜在空间实现了更平滑的属性转换 2022 年,S Khodadadeh等12 采用神经网络来改变潜在空间内属性编码,极大程度地保留了输入人脸的身份特征和其他无关第 47 卷 第 1 期江西师范大学学报(自然科学版)Vol 47 No 12023 年 1 月Journal of
7、Jiangxi Normal University(Natural Science)Jan 2023属性上述人脸属性合成方法实现了对人脸属性不同精细程度的控制 为使属性合成更加多样化,借助风格迁移13 思想,T Karras 等14 提出了 StyleGAN,实现了人脸风格融合,并陆续提出了改进版本15-16,此模型虽获得了较高的生成人脸质量,但在风格混合时混合的是潜在向量生成的人脸风格,无法对指定输入人脸图像进行风格转换 而 StarGANv217 将人脸风格定义为人脸的独特风格外观,可视作多个属性特征的集合,性别用“域”表示,可极大程度保留人脸身份的前提,实现了对输入人脸的域内或跨域多样化
8、风格转换 然而在实验中发现,StarGANv2模型生成的图像存在风格重建效果不佳、人脸纹理细节不自然的现象1相关理论1 1生成对抗网络生成对抗网络作为目前最热门的生成模型,不用关注隐藏变量服从任何基础分布,仅通过生成器和判别器彼此对抗博弈进行训练,使得生成器学习到样本的分布,其基本模型结构如图 1 所示 首先将高斯噪声 z 输入生成器 G 中,生成虚假数据 G(z),然后分别将真实数据 x 和虚假数据 G(z)输入判别器 D 中,输出判别的真假情况 其中 G 不断学习数据的分布,争取伪造出难辨真伪的数据;而 D 的目的是要不断提高自身分辨真假的能力,当鉴别力足够强无法判断数据是真实数据还是生成
9、数据时,就获得了一个学习到真实数据分布的生成器 在图像转换领域中,GAN 与变分自编码器 VAE19、流模型GLOW20 等其他生成模型相比,其特有的对抗博弈形式能得到更清晰、更逼真的图像图 1生成对抗网络基本结构1 2多尺度特征融合在利用卷积神经网络进行特征提取时,为了融合不同尺度的特征信息,常常用到多尺度特征融合其中常见网络结构分为 2 种,一种是串行的跳层连接网络结构,如 FCN21、U-Net22 等,其主要思想在于通过融合不同层级的特征图,以便综合低层位置信息和高层语义信息;另一种是并行多分支网络结构,如 Inception23、MixConv24 等,它是通过多个卷积分支分别对输入
10、数据进行特征提取再融合,这些卷积分支可设置不同的卷积核大小、扩张率等在这 2 类结构中,并行结构的优势在于能在同一个卷积层中获取不同大小的感受野,在融合后传入下一层,从而在提高模型的能力和计算量中取得平衡 如典型结构 MixConv 通过对卷积核施加不同的核大小进行分组卷积,以获取不同尺度的特征信息,但每一组的输出仍为单尺度特征 而 PSConv(poly-scale convolution)25 利用特征图分组交换,结合不同扩张率的扩张卷积,使得每组输出都包含多尺度的特征 因此,本文将多尺度特征融合模块PSConv 嵌入 StarGANv2 模型中,以实现多尺度特征融合1 3多维注意力在计算
11、机视觉中,注意力机制的基本思想在于让系统能像人的视觉一样,学会获取需要重点关注的区域,从而提高模型的性能 按照注意力机制应用的维度,主要分为空间注意力、通道注意力和混合注意力近年来,动态卷积使用越来越广泛,注意力机制在 CNN 中得到了较大发展,如 CondConv26 和 Dy-Conv27,它们在 n 个卷积核上应用注意力机制,对核空间的整个卷积核赋予动态特性,其精度较高,但忽略了对其他 3 维(输入通道、卷积核空间和输出通道)的注意力关注;全维动态卷积(ODConv)28 改善了这个问题,利用并行卷积策略,在沿核空间的所有维度建立注意力机制,但增加了一定的计算量 为了减少运算负担,同时获
12、取对关键维度的注意力关注,本文提出多维动态注意力模块 MDConv(Multi-dimensional dynamic convolution),并将其嵌入 Star-GANv2 模型中,以期获取图像特征的多维注意力2MFMA-StarGANv2 整体结构本文模型整体结构是基于 StarGANv2 多域风格转换模型,整体架构如图 2 所示,其中 G 是生成器,D 是判别器,E 是风格编码器,F 是映射网络在此模型结构中,域代表性别,分为男性和女性,可进行域内或跨域的人脸风格转换 在 G 转换图像前,需要接收输入图像和风格码 生成人脸图像方式分为参考图像引导转换和潜码引导转换,这 2种转换方式的
13、区别在于风格码的来源不同 前者利用的风格码是通过将参考图像和对应性别(0 代表07江西师范大学学报(自然科学版)2023 年女性,1 代表男性)输入 E 中生成而来的,使得生成图像具备了与参考图像类似的风格;后者利用的风格码是通过将潜码和指定性别输入 F 生成而来的,使得生成图像具有对应性别的随机风格 E 和 F 都有 2 条输出分支,在训练或测试中,E 和 F 通过输入性别来确定输出分支,从而生成目标性别的风格码如图 2 所示,生成图像采用了参考图像引导转换方式,实现了跨域人脸风格转换,使得生成图像具备了输入人脸图像重要的结构特征(如脸型、五官等),既保留了“身份 ID”,同时也具备与参考人
14、脸图像类似的风格特征(如发型、肤色等)图 2MFMA-StarGANv2 人脸风格转换模型3MFMA-StarGANv2 生成器3 1MFMA-StarGANv2 生成器结构在进行图像转换前,生成器需要对输入图像进行下采样操作,目的是解耦人脸风格特征和人脸结构特征 此时,融合不同尺度的人脸特征具有重要意义,因此将 PSConv 模块嵌入 StarGANv2 模型生成器中间层内,如图 3 所示 为了对输入图像风格进行转换,下半部分中间层和上采样层借助了风格迁移方法 AdaIN13,通过在每层输入内容图特征和风格图特征(在图 3 中用风格码 style 表示),以实现多层次的风格表征3 2PSCo
15、nv 模块PSConv 模块包含 3 个卷积分支,分别用 gd-Conv、shift_gdConv 和 mask_Conv 表示(见图 4)输入特征图 XW H C(其中 W=H)按通道分成了标号为 1 4 的 4 组 虚线框内包含对应卷积分支的卷积核,3 个分支分别进行卷积,最后将卷积结果相加,为了保持 3 个卷积前后尺寸一致,设 stride为 1,kernel_size 为 3,padding 的值保持和 dilation 的值一致 其中 gdConv 和 shift_gdConv 的共同点在于都使用了分组卷积和扩张卷积29,并包含了 C/4 个3 3 C 的卷积核 但不同之处是在 sh
16、ift_gdConv 进行卷积操作之前,将 X 的前2 组和后2 组进行交换,得到特征图 X 本文设置不同的扩张率 2 和 3 这 2部分卷积输出结果分别为 gi和 si,i 1,2,3,4,分别代表对输入的第 i 个特征分组的卷积输出结果mask_Conv 将卷积核按个数分成了标号为 的 4 组,每组包含 C/4 个 3 3 C 的卷积核 为了减少计算负担,屏蔽了一半卷积核参数,使其权值为 0,图中浅色方块代表被屏蔽的区域 因此,标号为、的卷积核分别对应输出标号为 m13、m13的2个特征分组,代表着对输入的 1、3 特征分组的联合卷积结果;标号为、的卷积核分别对应输出标号为 m24、m24的 2 个特征分组,代表着对输入的 2、4特征分组的联合卷积结果图 3MFMA-StarGANv2 生成器结构17第 1 期刘鹤,等:结合多尺度特征和多维注意力的人脸风格转换因此,3 个卷积结果按特征值位置相加输出尺寸仍为 W H C 特征图,如下式所示:Y=gdConv(X)+shift_gdConv(X)+mask_Conv(X)(1)综上可知,通过对 shift_gdConv 设置分组交换以