1、第 43卷 第 1期2023年 3月光 电 子 技 术OPTOELECTRONIC TECHNOLOGYVol.43 No.1Mar.2023基于深层特征嵌入的高分辨率人脸图像重建缪志辉1,张永爱2,林志贤2,林坚普1(1.福州大学 先进制造学院,福建泉州 362200;2.福州大学 物理与信息工程学院,福州 350116)摘 要:提出了一种基于深层特征嵌入的高分辨率人脸图像重建方法,利用预训练的 Style-GAN2生成对抗网络模型作为人脸图像生成器,并将深层特征嵌入到 StyleGAN2的 W+空间中,通过梯度下降法优化 w+向量,并将优化后的 w+向量输入到 StyleGAN2 中生成分
2、辨率为 1 0241 024的重建人脸图像。实验结果表明,重建图像与对应真实人脸图像不仅在视觉上有着较高的相似性,且在同一特征提取网络下,LFW 和 ColorFeret数据集的重建图像在 FAR 为 0.1%时型评估 TAR 分别为 96.04%和 100.00%,并且在两种不同的活体检测程序下的通过率分别达到了88.67%和 74.67%。所提方法在实现重建高分辨率人脸图像的同时,与真实人脸图像的特征相似度方面也表现优秀。关键词:人脸图像重建;深层特征;生成对抗网络;梯度下降中图分类号:TP391 文献标志码:A 文章编号:1005-488X(2023)01-0017-09High Res
3、olution Face Image Reconstruction Based on Deep Feature EmbeddingMIAO Zhihui,ZHANG Yongai,LIN Zhixian,LIN Jianpu(1.School of Advanced Manufacturing,Fuzhou University,Quanzhou Fujian362200,CHN;2.School of Physics and Information Engineering,Fuzhou University,Fuzhou 350116,CHN)Abstract:A method based
4、on deep feature to reconstruct face images was proposed in this paper.The deep features were first embedded into the W+space of StyleGAN2,and the embedded w+vec-tor was optimized by gradient descent and fed into a pre-trained StyleGAN2 model to generate face im-age with resolution of 1 0241 024.The
5、experimental results showed that the reconstructed images had high visual similarity with the corresponding real face images.When using the same extraction net-work,the type-evaluation TAR of the reconstructed images from LFW and ColorFeret datasets was 96.04%and 100.00%respectively when the FAR was
6、 equal to 0.1%,and the pass rates of live-DOI:10.19453/ki.1005-488x.2023.01.004收稿日期:2022-09-26基金项目:国家重点研发计划(2021YFB3600603);福建省自然科学基金(2019J01221,2020J01468);福建省教育厅中青年教师教育科研项目(JAT210030)作者简介:缪志辉(1998),男,硕士研究生,研究方向为数字图像处理技术、人工智能技术;(E-mail:)张永爱(1977),男,研究员,研究方向为数字图像处理技术、3D显示技术;林志贤(1975),男,教授,研究方向为显示技术、
7、电路与系统、数字图像处理技术;林坚普(1989),男,讲师,研究方向为新型显示技术、人工智能技术、3D立体显示技术。(E-mail:)通讯作者研究与试制光 电 子 技 术第 43卷ness detection were 88.67%and 74.67%in two products.The proposed method could reconstruct face images in high resolution and achieve high feature similarity between real and generated face imag-es.Key words:fac
8、e image reconstruction;deep feature;generative adversarial network;gradient de-scent引 言近年来,深度学习技术的不断发展使其在许多生物特征识别和计算机视觉应用中取得了巨大的成功。生物特征识别是指根据个体的生物和行为特征(如面部,指纹、声音等)对个体进行身份识别。其中,由于基于深层卷积神经网络的人脸识别算法具有高效性、稳定性和便捷性等特点,人脸识别因此成为生物特征识别中的热门邻域,得到了广泛的应用1-3。通常考虑到存储人脸图像所需的空间以及安全性,拥有人脸识别应用的互联网公司一般并不会直接存储人脸图像在他们的数据
9、库中,而是存储通过深层卷积神经网络提取的人脸深层特征数据,通过对比深层特征之间的相似性进行身份识别。同时,深层特征也能够被重建为人脸图像直观反映用户的外貌信息,而深层特征能够何种程度上重建出人脸图像对其保护工作的研究具有重大价值。早期基于深层特征重建人脸图像主要使用传统优化算法,如爬山算法4和径向基函数回归法5。随着深度学习的发展,基于深度学习的方法也被用于人脸图像重建,Zhmoginov等人6使用神经网络来反转 FaceNet网络7提取的低维人脸特征,同时生成图像,并在优化嵌入损失函数中加入了基于特征提取模型的中间层构建的额外正则化损失。Cole 等人8利用面部身份特征对姿态、照明和表情的不
10、变性,将重建问题定位为从特征向量到均匀照明、正面、中性表情的人脸映射,通过学习从面部识别网络提取的特征生成面部关键点和纹理实现图片重建。Mai等人9提出一种基于深层特征的邻域反卷积 神 经 网 络(Neighborly De-convolutional Neural Networks,NbNet),使用生成对抗网络(Generative Adversarial Networks,GAN)合成的人脸图像以及两个标准人脸数据集对 NbNet进行训练,利用反卷积的上采样能力实现人脸图像重建。上述方法只能重建出低分辨率图像,且重建图像中均有伪影,很容易被人眼辨别为人工合成图像,虽然重建图像与原图像在特
11、征相似度上接近,却很难通过人脸活体检测程序。由于 GAN 在图像生成方面有着优秀的 表 现10-12,因 此 被 作 为 图 像 重 建 的 另 一 种 思路13-14,Dong 等人15使用 StyleGAN2 模型16生成人脸,利用随机向量生成图片并将图片输入到特征提取网络中得到特征向量,以此生成大量的 Style-GAN2 输入到深层特征的向量对,然后使用这些数据训练从特征向量映射到 StyleGAN2 输入向量的一个全连接网络,从而生成重建人脸。该方法虽然使用了 StyleGAN2作为图像生成器,能够生成高分辨率无伪影的图像,但是由于训练数据分布的不平衡性且映射向量维度较高,使得生成图
12、片在视觉效果上与真实图像的相似性较差,且从二者提取的深层特征之间的距离也较大。文章提出了一种基于深层特征重建高分辨率人脸图像的算法,使用 StyleGAN2作为人脸图像生成器重建人脸,将人脸深层特征嵌入 StyleGAN2的W+空间,通过梯度下降法优化 w+向量后生成重建人脸图像,并搭建了一个模拟人脸识别系统的框架,利用重建的人脸图像访问该模拟框架,从而评估重建人脸的有效性。1 基于深层特征嵌入的高清人脸图像重建1.1嵌入空间的选择生成对抗网络在图像生成方面有着丰富的应用,DCGAN 在原始 GAN 图像加入 CNN 卷积层进行图像转换,但生成图像的分辨率较低,为 256256,且生成人脸图像
13、质量不稳定,很容易生成面部扭曲的人脸图像,因此不适合作为重建人脸的图像生成器。PGGAN 中加入了渐进增大特征图的方式训练生成图像,虽然生成人脸图像的质量较高,分辨率能够达到 1 0241 024,但是由于采用逐级生成图片,没有对各层分别增添控制,导致其控制生成图像的特征的能力非常有限,输入向量在某一维度上的细微变化就可能生成完全不一样的图片,使18第 1期缪志辉,等:基于深层特征嵌入的高分辨率人脸图像重建得图像重建算法难以收敛。而 StyleGAN2 不仅生成图像的质量高且分辨率为 1 0241 024,并对生成网络中的每一级特征图都增添控制,输入向量的微小变化也不会造成生成图像的明显变化,
14、因此文章采用在 Flickr-Faces-High-Quality(FFHQ)高清人脸数据集上预训练好的 StyleGAN2 模型作为重建人脸的图像生成器,根据已知的深层特征向量重建出与真实人脸图像在视觉上相似的人脸图像。图 1为 StyleGAN2生成网络结构图,初始向量 zZ,Z为符合标准正态分布的 1512 维向量空间,z 向量经过 8 层全连接层后得到解纠缠的 1512 维 W 向量空间,w 向量(wW)经过复制并通过 lerp函数插值后组成一个 18512维的 W+向量空间,这里 lerp函数的定义如下:lerp(w,w+,weight)=w +(w+-w )weight(1)其中w
15、 为 StyleGAN2 训练过程中记录下的平均 w 向量,weight 为区间0,1之间的实数,用于控制其返回值受w 影响的偏移程度,该函数能够约束w+向量中的每个维度向量的分布,从而防止生成扭曲失真的图像。随后 w+向量的每个维度经过 Af-fine 层后得到生成图像的风格样式y=(ys,yb)并输入 AdaIN 层生成图像的特征图,从而控制生成图像,AdaIN层操作定义为:AdaIN(x,y)=ys(x-()x()x)+yb(2)其中 x 为特征图,不同的 AdaIN 层生成的特征图用于控制生成图像的不同特征,顶层分辨率最低,主要控制生成图像中人脸的姿态,面部朝向等,而分辨率越高的层,对
16、图像的控制越细微。在 Style-GAN2生成图像过程中,先生成低分辨率图像,然后再逐渐生成高分辨率图像,从而实现对生成图像特征的逐层控制。由上可知,StyleGAN2 生成网络中有多个可供选择的嵌入空间,分别为 Z、W、W+,文中考虑将深层特征向量嵌入到某一潜在空间中以生成重建人脸图像。实验对比了将深层特征分别嵌入这三个空间后的重建图像,实验结果如图 2所示,由图可知Z 空间对最终生成图像的风格样式最不敏感,重建出的人脸图像与原图差异较大,W 空间虽然能够重建出图像的部分特征,但在面部轮廓,肤色以及发型上的表现较差,而 W+空间重建的图像在五官以及发型上的重建效果明显优于前二者。根据 Style-GAN2生成网络的结构可知,w+向量直接影响了生成图像的特征图以控制最终生成图像的风格样式,因此文章选择将深层特征向量嵌入到 StyleGAN2的 W+向量空间中直接跳过 Z 空间以及 W 空间,通过优化 w+向量生成重建人脸。1.2特征嵌入方法将向量或者图像嵌入到 StyleGAN2 的潜在空间17有两种方法:一种是训练一个将输入数据映射到潜在空间的神经网络模型,通过训练好的 Style-