1、2023,59(7)视频人脸替换是将人脸从源视频转换到目标视频并同时保持目标视频中的光照、背景以及人脸的肤色和面部表情的任务。由于视频人脸替换技术在娱乐、隐私和训练数据生成方面存在巨大应用价值,吸引了大量的关注。目前,视频人脸替换方法主要是对视频逐帧进行图像人脸替换。图像人脸替换方法主要分为两类:一种是基于三维人脸模型的方法,另一种是基于二维图像的方法。基于三维人脸模型的人脸替换方法主要对三维人脸模型进行重建,并以其作为面部纹理的传输媒介将重建的原图像人脸替换到目标图像人脸上完成换脸。文献1-2根据人脸图像使用姿态估计并进行三维模型建基于双重注意力和光流估计的人脸替换方法魏玮,张鑫,朱叶河北工
2、业大学 人工智能与数据科学学院,天津 300401摘要:视频人脸替换中的关键问题是如何更好地重建人脸图像、融合图像和保证视频的连续性,为了提升重建图像和人脸掩模质量,解决视频播放不自然问题,提出一种基于双重注意力机制和光流估计的自动人脸替换方法。人脸重建网络以生成对抗网络为主体,为了提升网络的特征提取能力,在人脸重建网络中引入双重注意力模块,并使用深度可分离卷积替代模块中部分卷积,降低引入模块增加的网络计算量。针对人脸重建后前后帧时间域关系丢失的现象,添加一种基于光流估计的视频帧处理模块和平滑视频帧方法。实验结果表明,该方法相比FaceSwap、DeepFakes和FaceShifter替换方
3、法能够更好地保持目标视频人脸的颜色、姿态和表情,使视频具有更好的连续性,提升人脸替换视频质量。关键词:视频人脸替换;生成对抗网络;双重注意力;光流估计文献标志码:A中图分类号:TP391doi:10.3778/j.issn.1002-8331.2111-0408Face Replacement Method Based on Dual Attention and Flow EstimationWEI Wei,ZHANG Xin,ZHU YeSchool of Artificial Intelligence,Hebei University of Technology,Tianjin 30040
4、1,ChinaAbstract:The key problem of automatic video face replacement is how to reconstruct face image,fuse image and ensurethe continuity of video.In order to improve the quality of reconstructed image and segmentation mask and solve the problemof unnatural video playback,an automatic face replacemen
5、t method based on dual attention mechanism and optical flowestimation is proposed.The face reconstruction network is mainly based on generative adversarial network.In order toimprove the feature extraction capability of the network,the dual attention module is introduced into the face reconstruction
6、network,and the depthwise separable convolutions is used to replace part of the convolution in the module to reduce thenetwork computation increased by the introduction of the module.Aiming at the loss of the time domain relation of thefront and back frames after face reconstruction,a video frame pr
7、ocessing module based on optical flow estimation and avideo frame smoothing method are added.Experimental results show that,compared with FaceSwap,DeepFakes andFaceShifter replacement methods,this method can better maintain the color,posture and expression of the target video,make the video have bet
8、ter continuity,and improve the quality of face replacement video.Key words:video face replacement;generated adversarial network;dual attention;optical flow estimation基金项目:国家自然科学青年基金(61806071);中国科学院自动化研究所模式识别国家重点实验室开放课题(201900043);河北省高等学校科学技术研究项目(QN2019207,QN2020185);河北省自然科学基金面上项目(F2019202381,F201920
9、2464,F2020202025,F2021202030)。作者简介:魏玮(1960),男,硕士生导师,CCF会员,研究方向为图像处理与模式识别;张鑫(1997),男,硕士研究生,研究方向为图像处理与模式识别、计算视觉;朱叶(1989),女,讲师,研究方向为数字图像处理、图像篡改取证、深度学习,E-mail:。收稿日期:2021-11-22修回日期:2022-01-26文章编号:1002-8331(2023)07-0143-09Computer Engineering and Applications计算机工程与应用143Computer Engineering and Application
10、s计算机工程与应用2023,59(7)模,对不同角度的人脸图像进行替换。该类方法对不同角度人脸的重建效果很好,但缺点也很明显:计算量大、重建过程较为复杂。基于二维图像的替换方法主要生成与目标图像姿态、表情等一致而与源图像身份相同的二维人脸图像,将其无缝融合至目标图像上完成换脸。文献3-4使用卷积神经网络来完成面部的重建工作,但该类方法容易受到姿态、发型等因素的影响,导致重建图像质量较差。DeepFakes采用自编码器的方法,该自编码器包含一个编码器和两个解码器,通过使用一个编码器将人脸图像进行编码,两个解码器分别解码成两个不同的人脸,当人脸图像被公共编码器编码,经过与该图像训练阶段不同的另一解
11、码器解码后,将被重建为当前解码器解码的人脸,进而完成人脸替换,但该类方法人脸替换的图像细节较差。随着生成对抗网络(generative adversarial network,GAN)的发展,其在图像生成领域展现出强大的生成能力,利用GAN进行人脸图像生成已成为一种趋势。文献5提出了一个新颖的基于生成对抗网络的图像编辑系统,该图像编辑系统可以使用自由形式的掩膜、草图和颜色作为输入对人脸图像进行编辑。文献6提出了一种基于三维人脸模型和生成对抗网络的人脸替换方法 FSGAN。文献7提出一种基于 GAN 的换脸方法FaceShifter,解决人脸替换面部遮挡情况下重建效果不佳的问题。由于视频人脸替换
12、是综合人脸重建、人脸融合和视频合成等步骤的任务,虽然这些基于GAN的人脸替换方法取得了很好的图像重建效果,但这些研究大多关注人脸重建而忽略了其他步骤对人脸替换视频的影响,使得人脸融合使用的分割掩模不佳导致脸部周围产生伪影、颜色匹配较差等融合效果不佳等问题;逐帧重建破坏了原有的视频连续性而导致的视频播放不自然等问题。为了进一步提升重建图像和分割掩模质量,改善人脸融合效果,并解决人脸替换视频播放不自然问题,本文提出一种基于双重注意力机制和光流估计的视频人脸替换方法。通过对隐编码进行约束,限制隐编码的稀疏性,增强生成器泛化能力;引入双重注意力模块提升人脸重建网络的特征提取能力;最后增加光流估计网络,
13、结合中间流与前后帧信息设计出一种基于平滑视频帧方法,二次重构图像建立帧时间域关系,提升视频流畅度。1基于双重注意力和光流估计的自动人脸替换本文提出的人脸替换网络结构如图1所示,该方法由人脸重建网络和光流估计网络两部分组成。人脸重建网络以GAN为主体,生成器部分由类似变分自编码器(variational auto-encoder,VAE)结构组成。为了提升人脸重建网络的人脸图像重建效果与人脸掩模质量,在编码器、解码器与判别器中,分别增加了双重注意力模块。为了解决由于人脸重建后的图像前后帧之间连续性信息丢失而导致视频出现抖动、闪烁等问题,增加光流估计网络,并提出一种平滑视频帧方法。本文提出的人脸替
14、换方法不仅以源人脸图像进行相应的人脸重建网络训练,并且将目标图像作为光流估计网络进行训练得到中间流信息。进行人脸替换时,先以目标人脸图像为人脸重建网络的输入在空间域重构,最后以重建后图像作为光流估计网络的输入在时间域重构,最终按目标视频原格式合成最终人脸替换视频。GeneratorDiscrimi-natorReconstructedfacexMSource facexLrecEncoderDecoderMaskLKLzxLPLLadv(a)人脸重建网络Backward warpingSA-IFBlock2SA-IFBlock1SA-IFBlock0SA-IFNetYn-1Yn+1LdisFn
15、+1nFn-1nY?nYnLFE(b)光流估计网络图1人脸替换网络结构Fig.1Structure of face replacement network1442023,59(7)1.1基于双重注意力的人脸重建网络如图2所示,本文提出了一种基于双重注意力改进的生成对抗网络人脸重建模型,该模型主要由生成器、判别器组成。其中,生成器部分由类似VAE的编码器和解码器组成。编码器的输入为256256分辨率的人脸图像,编码器由5个ConvBlock和1个双重注意力模块组成,每个ConvBlock中含有卷积核大小为3、步长为2的卷积层、ReLU激活层和IN(instance normalization)层
16、组成。输入经过每个ConvBlock后,输出的通道数依次递增分别为64、128、256、512、1 024。编码器通过不断卷积获得更高级的编码信息。在最后一个ConvBlock后,将提取到的高维信息进行铺平。为了提升生成器的泛化能力,本文引入了类似VAE隐编码的结构,增加了和两个分支,使用重参数化技巧8,使隐编码z服从高斯分布,并为网络添加KL损失,限制隐编码的稀疏性。重参数化技巧表示为:z=+(1)其中N(0,I),表示对位元素乘法。解码器由 4 个 UpSampingBlock、1 个残差块、1 个ConvBlock 和 2 个分支的卷积层组成。每个 UpSam-plingBlock由上采样层、填充层、卷积层和IN层组成,输出的通道数依次递减分别为512、256、128、64。为了防止随着网络深度增加导致网络退化问题,经过不断上采样后,添加残差模块。最后经过双重注意力模块,再分别使用2个分支的卷积层,得到通道数为3的重建图像和通道数为1的人脸掩模。判别器由3个ConvBlock、1个双重注意力模块和1个卷积层组成。判别器以256256分辨率的真实源人脸图像和重建人脸图像为输入,输入