1、2023-05-10计算机应用,Journal of Computer Applications2023,43(5):1571-1577ISSN 1001-9081CODEN JYIIDUhttp:/基于重构误差的无监督人脸伪造视频检测许喆,王志宏,单存宇,孙亚茹,杨莹*(公安部第三研究所 网络空间安全技术研发基地,上海 200031)(通信作者电子邮箱)摘要:目前有监督的人脸伪造视频检测方法需要大量标注数据。为解决视频伪造方法迭代快、种类多等现实问题,将时序异常检测中的无监督思想引入人脸伪造视频检测,将伪造视频检测任务转为无监督的视频异常检测任务,提出一种基于重构误差的无监督人脸伪造视频检测
2、模型。首先,抽取待检测视频中连续帧的人脸特征点序列;其次,基于偏移特征、局部特征、时序特征等多粒度信息对待检测视频中人脸特征点序列进行重构;然后,计算原始序列与重构序列之间的重构误差;最后,根据重构误差的波峰频率计算得分对伪造视频进行自动检测。实验结果表明,在FaceShifter、FaceSwap等人脸视频伪造方法上,与LRNet(Landmark Recurrent Network)、Xception-c23等检测方法相比,所提方法的检测性能的曲线下方面积(AUC)最多增加了27.6%,移植性能的AUC最多增加了30.4%。关键词:人脸伪造检测;无监督学习;时序异常检测;生成模型;人脸特征
3、点中图分类号:TP391.4;TP274 文献标志码:AUnsupervised face forgery video detection based on reconstruction errorXU Zhe,WANG Zhihong,SHAN Cunyu,SUN Yaru,YANG Ying*(Research and Development Base of Cyberspace Security Technology,The Third Research Institute of The Ministry of Public Security,Shanghai 200031,China)
4、Abstract:The current supervised face forgery video detection methods need a large amount of labeled data.In order to solve the practical problems of fast iteration and many kinds of video forgery methods,the unsupervised idea in temporal anomaly detection was introduced into face forgery video detec
5、tion,the face forgery video detection task was transformed into unsupervised video anomaly detection task,and an unsupervised face forgery video detection method based on reconstruction error was proposed.Firstly,the facial landmark sequence of continuous frames in the video to be detected was extra
6、cted.Secondly,the facial landmark sequence in the video to be detected was reconstructed based on multi-granularity information such as deviation features,local features and temporal features.Thirdly,the reconstruction error between the original sequence and the reconstructed sequence was calculated
7、.Finally,the score was calculated according to the peak frequency of the reconstruction error to detect the forgery video automatically.Experimental results show that compared with detection methods such as LRNet(Landmark Recurrent Network)and Xception-c23,the proposed method has the AUC(Area Under
8、Curve)of the detection performance increased by up to 27.6%,and the AUC of the transplantation performance increased by 30.4%.Key words:face forgery detection;unsupervised learning;temporal anomaly detection;generative model;facial landmark0 引言 随着深度生成技术的快速发展,机器自动内容生成水平不断提高,其中人脸伪造更是内容生成中的热门技术,在短视频、游戏
9、直播、视频会议等领域得到了广泛应用。但具备极高欺骗性的深度伪造引发了诸多争议,如色情视频换脸、人体图像合成等,带来了潜在的社会信任和社会安全问题。因此如何自动高效地检测伪造视频成为迫切需要解决的问题,吸引了国内外研究人员的广泛关注。目前人脸伪造视频检测主要被建模成有监督的分类任务,包括基于单帧的分类检测和基于多帧的分类检测。前者主要利用异常颜色、眼睛牙齿细节等特征在单帧内实现伪造视频检测1-6;后者则对视频中的眨眼频率、表情变化等时序信息进行建模7-13。基于多帧的方法相较于单帧,性能都有不同程度的提高,证明了时序信息的引入对提升检测精度的重要性。然而当前工作仍存在两个主要问题:一是由于深度伪
10、造方法不断地迭代更新、种类繁多,而现有的监督检测算法训练依赖的标注数据需要相应的伪造模型生成,这些伪造模型大多没有开源,复现难度大,训练成本高,极大地增加了检测模型的训练和更新成本;二是基于深度卷积网络提取特文章编号:1001-9081(2023)05-1571-07DOI:10.11772/j.issn.1001-9081.2022040568收稿日期:2022-04-24;修回日期:2022-06-17;录用日期:2022-06-17。基金项目:国家重点研发计划项目(2021YFB3101405)。作者简介:许喆(1993),男,安徽滁州人,研究实习员,硕士,CCF会员,主要研究方向:自然
11、语言处理、时序异常检测、人脸伪造检测;王志宏(1990),男,江苏泰兴人,助理研究员,博士,CCF会员,主要研究方向:自然语言处理、事件挖掘、网络公害治理;单存宇(1993),男,江苏大丰人,研究实习员,硕士,CCF会员,主要研究方向:图像识别、数据挖掘;孙亚茹(1993),女,山东菏泽人,研究实习员,硕士,CCF会员,主要研究方向:自然语言处理、数据挖掘;杨莹(1981),女,河南商丘人,副研究员,博士,CCF会员,主要研究方向:大数据分析、信息安全。第 43 卷计算机应用征的方法虽然性能良好但训练成本高,进一步提高了伪造检测模型的应用门槛。因此,需要一个平衡性能和成本的伪造检测方法。为解决
12、上述问题,在文献 10 研究的基础上,本文将伪造视频中不自然的表情和面部动态行为视为异常,引入时序异常检测任务中相关研究成果,设计了一种基于人脸特征点的无监督视频人脸伪造检测模型。主要思路是采用无监督方法重构正常视频的人脸特征点,然后通过比较重构误差的异常,判断视频的真伪。相较于目前有监督的检测模型,一方面,本文方法只需要正常视频作为训练数据,不需要任何伪造方法生成的带标注的伪造视频;另一方面,本文未使用深度卷积神经网络(Convolutional Neural Network,CNN)提取特征,仅采用主要人脸特征点,可以很好地保留视频人脸行为模式信息,同时减少训练时间,提高训练效率。本文的主
13、要工作包括:1)将时序数据异常检测方法引入人脸伪造视频检测中,将人脸伪造视频检测任务转为无监督的异常检测任务。2)提出一个全新的无监督的人脸伪造视频检测框架。本文方法无需任何标注数据,首先基于偏移特征、局部特征、时序特征等多粒度信息重构待检测视频中人脸特征点序列;然后通过计算原始序列与重构序列的重构误差对伪造视频进行自动检测。3)在人脸伪造视频标准数据集上进行了大量的对比实验,结果表明本文方法可以有效检测多种类型的伪造视频,同时具有训练时间短、实现简单的特点,大幅减少了训练和使用成本。1 相关工作 1.1人脸伪造检测目前人脸伪造视频检测主要被建模成有监督的分类任务,大多数工作都集中在基于单帧的
14、伪造检测方法上。一部分工作通过人工选择关键特征后作进一步检测,如 Matern等1通过颜色异常、脸部阴影和眼睛牙齿缺失的细节来判断真伪。更多的工作使用 CNN 自动抽取特征,如:Afchar等2认为微观的信息容易受到噪声的干扰,而宏观的信息不能很好地捕捉伪造细节,因此提出了基于介观的方法;Qian等3提出的F3-Net(Frequency in Face Forgery Network)在 CNN 提取的特征基础上进一步提取频域特征;Li等4通过检测替换人脸时的融合边界存在的噪声和错误来判断真伪,达到了良好的性能;汤桂花等5针对现有检测方法在有角度及遮挡情况下存在的真实人脸误判问题,通过提高面
15、部关键点定位准确度改善了由于定位误差引起的面部不协调,进而降低了真实人脸误判率;翁泽佳等6则引入领域对抗分支,所提模型能够抽取鲁棒性更强、泛化能力更高的特征。尽管目前基于单帧方法的效果良好,但是它们并没有充分利用视频的时序信息,所以最近越来越多的工作关注基于多帧的方法。其中一部分是基于人类自身的生理特征,如:李旭嵘等7通过基于 EfficientNet的双流网络检测模型在良好的准确率基础上提高了对抗压缩的能力;Li等8通过检测眨眼频率的异常作判断;Yang等9基于人脸特征点的中心区域和整体朝向不一致 作 区 分;Sun 等10提 出 的 LRNet(Landmark Recurrent Net
16、work)则通过门控循环网络捕捉人脸特征点序列中不自然的表情和面部异常变化。相较于人工选择的特征,利用CNN 提取特征的应用更广泛,如 Gera 等11和 Sabir 等12都利用 CNN 提取单帧特征,再用长短期记忆(Long Short-Term Memory,LSTM)网络提取时序特征;Gu 等13设计了两个非常复杂的模块分别捕捉空间不一致性和时序不一致性,达到了目前最优的性能。但是上述基于深度卷积网络特征的方法往往结构复杂、训练时间长。此外,现有的监督检测算法训练依赖的标注数据需要相应的深度伪造方法生成,由于伪造方法不断地迭代更新、种类繁多,而且大多没有开源,复现训练难度大、成本高,这极大地提高了检测模型的应用门槛。1.2时序异常检测时序异常检测是从正常的时间序列中识别异常的事件或行为的任务。由于该任务获取标记数据成本高昂,因此文献 14-15 的有监督方法应用有限,所以目前大多数研究集中在无监督方法上。文献 16-17 中利用 LSTM网络构建时序特征来预测异常。Zong等18提出自动编码器和高斯混合模型相结合的方法,通过自动编码器计算序列关键信息的编码表示,再用高斯混合模型