基于循环推理网络的人脸关键点检测算法

资源描述

1、2023 年 2 月 25 日第 7 卷第 4 期现代信息科技Modern Information Technology Feb.2023 Vol.7 No.491912023.022023.02收稿日期：2022-10-08基于循环推理网络的人脸关键点检测算法王兴（北京中电普华信息技术有限公司，北京 102208）摘要：人脸关键点检测是计算机视觉任务中研究的一个重要话题。但目前的人脸关键点检测算法只能有效地提取人脸的表观信息，未能充分挖掘人脸的结构信息。为了解决上述问题，提出了循环推理网络用于人脸关键点的检测，通过分批次循环递归地学习人脸结构信息和人脸表观信息，使得神经网络能有效地提取人脸

2、的结构信息。通过在AFLW2000-3D数据集的实验表明，文章的算法优于其他经典的人脸关键点检测算法。关键词：人脸关键点检测；人脸表观信息；人脸结构信息；神经网络中图分类号：TP391.4 文献标识码：A 文章编号：2096-4706（2023）04-0091-04Face Landmark Detection Algorithm Based on Recurrent Inference NetworkWANG Xing(Beijing China-Power Information Technology Co.,Ltd.,Beijing 102208,China)Abstract:Face

3、landmark detection is an important topic in computer vision tasks.However,the current face landmark detection algorithm can only effectively extract the face apparent information,but not fully explore the structural information of the face.In order to solve the above problems,a recurrent inference n

4、etwork is proposed to detect the landmark of the face.The neural network can effectively extract the structural information of the face by learning the structural information and the apparent information of the face recursively in batches.Experiments on AFLW2000-3D datasets show that the proposed al

5、gorithm outperforms other classical face landmark detection algorithms in this paper.Keywords:face landmark detection;face apparent information;face structure information;neural network0 引言随着深度学习的不断发展，计算机视觉成为深度学习领域的研究的热点问题。3D 人脸重建1，2和人脸关键点3，4 是计算机视觉中两个基本且高度相关的任务。近几十年来，这两个任务相互促进，取得了令人瞩目的成果。Blanz 等5提

6、出了一种基于主成分分析（PCA）的 3D 人脸可变形模型（3DMM）。3DMM 是一种基于统计参数模型，它将 3D 人脸近似为形状和纹理的线性组合，包括形状参数和纹理参数，形状参数又包括身份参数和表情参数。通过参数的线性组合可以更好地处理具有不同姿势和光照的 2D 人脸图像。然而，当人脸在强光下或存在较大姿态时，存在大量不可见的表观信息，导致回归的组合参数误差较大。在姿势非常大的情况下，光照和大姿势的影响会降低网络性能。为了解决极端环境下光照和大姿态的影响，Lee6，Qu7和 Liu8建议丢弃在大姿势中自遮挡的关键点，将其作为缺失数据处理，有效提取人脸模型的表观信息，从而提高回归的准确性。这种

7、方法只增强了人脸的表观信息，没有考虑人脸的几何结构信息。Feng9认为 3D 人脸关键点的变化与 3D 人脸重构形状的变化是一致的，因此他们提出了将人脸关键点检测和 3D 人脸重建的协同工作。在协同工作时，将人脸关键点的位置变化信息作为 3D 人脸重建的先验信息进行人脸重建的回归任务。DOI:10.19850/ki.2096-4706.2023.04.023这种方法虽然考虑了人脸结构信息，但是通过级联回归进行回归是非常耗时的。在上一个工作中，为了解决极端情况光照、大姿态和耗时的问题，提出了一种用于人脸地标检测与重建（GSRN）的图结构推理网络10，11。当人脸被遮挡时，被遮挡部分的表观信息缺失

8、，神经网络无法利用表观信息对齐人脸关键点。但上述工作中，存在无法充分学习人脸的结构信息。为了解决上述问题，本文提出了循环推理网络为人脸关键点对齐和人脸重建。通过分批次的循环地进行人脸结构信息和进行人脸表观信息的学习，更有效的提取了人脸的结构信息和表观信息。循环推理网络的结构图，如图1所示。本文的贡献如下：（1）针对在无约束的自然环境下，存在遮挡和大姿态自遮挡的问题，本文提出了循环推理学习网络，通过分批次的形式将人脸结构信息与人脸的表观信息循环的学习，更有助于神经网络提取人脸的结构信息和表观信息。（2）通过大量实验证明，本文的算法在人脸检测的精度都有所提升，并且提出的方法可以有效地处理遮挡和大姿

9、态场景下的人脸关键点。1 方法介绍1.1 网络结构为了解决目前的人脸关键点检测算法只能有效的提取人脸的表观信息，未能充分挖掘人脸的结构信息的问题，提出92922023.022023.02第 4 期现代信息科技了循环推理网络用于人脸关键点的检测，通过分批次循环递归的学习人脸结构信息和人脸表观信息，使得神经网络能有效的提取人脸的结构信息。循环推理网络主要分为两个部分：人脸表观信息提取和人脸结构信息提取。人脸表观信息提取部分主要提取人脸的表观信息和部分人脸结构信息；人脸结构信息主要进行人脸的五官结构的提取。人脸表观信息提取包括四个损失函数：加权参数距离成本 Lwpdc12、点距离损失函数 Lossv

10、dc12、LossWing13和图结构损失 Lossgra10，11。人脸结构信息是通过 Lossgra10，11损失函数进行人脸五官结构信息的提取。通过批次的不同，神经网络循环提取人脸的结构信息和表观信息，使神经网络更能充分挖掘人脸的结构信息。网络流程示意图如图 2 所示。DAMD-Net3DMM3D Parameters Prediction3D Model Prediction3D Model GT3D Landmark Prediction3D Landmark GT3D Graph Prediction3D Graph GT3D Graph GTEpoch为奇数时Epoch为偶数时P

11、oseIdExpS,AId,AExp?LwpdcPgtV(Pgt)LWingP?V(P)?V68(P)?V68(P g)LossvdcLossgraLossgraVigtVigtVipreVipre图 1 循环推理网络结构图Conv1Layer1Layer2Layer3Layer4Layer5Layer6Layer7SE-netConv8_allConv9_allConv8_grapConv9_grapImagesPose_all,Id_all,Exp_allPose_grap,Id_grap,Exp_grap代表输入图片代表网络共享结构层代表表观和结构信息提取层代表人脸结构信息提取层SE-n

12、etSE-netSE-netSE-netSE-netSE-net图 2 网络结构示意图给定一张输入图片 X，首先将图片送入 DAMD-Net 网络提取人脸的表观和结构特征。提取的特征可以表示为：F=Wc*X其中*表示一系列扩张卷积、稠密网络、空间注意力和通道注意力等操作，Wc表示所有参数。F 代表 DAMD-Net提取的特征。Pose_all,Id_all,Exp_all=f(F)Pose_grap,Id_ grap,Exp_grap=f(F)其中 Pose_all代表表观姿态参数，Id_all代表表观身份参数，Exp_all代表表观表情参数；Pose_grap代表结构姿态参数，Id_ gra

13、p代表结构身份参数，Exp_grap代表结构表情参数。这些参数通过 3DMM 模型可以得到人脸重建模型 Vall和 Vgrap：其中 AId代表身份基，AExp代表表情基。将重建的人脸模型中根据固定的索引选取相应的点就可以得到 68 个人脸关键点 V68_all和 V68_grap：V68_all=Vallind,;,;V68_grap=Vgrapind,;,;其中 ind 代表人脸关键点在人脸重建模型中的索引，总共有 68 个。将 68 个关键点进行图结构的建立得到 Lossgrap 11，12。1.2 损失函数当训练批次为奇数时，仅采用图结构损失函数 Lossgrap，该函数可以有效提取人

14、脸的结构信息：Lossgra=Lossglo+Losspart其中，代表权重掩码，1。当训练批次为偶数时，采用加权参数距离成本 Lwpdc、点距离损失函数 Lossvdc、LossWing13和图结构损失 Lossgra10，1193932023.022023.02第 4 期组合 Loss：Loss=Lwpdc+Lossvdc+LossWing+Lossgra2 实验分析实验中采用的硬件环境是 RTX 3070 系列显卡进行网络的训练。数据流的处理采用的是 12 核 Intel（R）Xeon（R）Platinum 8255C CPU 2.50 GHz。使用 ubuntu18.04 的操作系统，

15、使用 Python 3.8 以及 PyTorch 1.9.0-GPU 版本。2.1 数据处理及实现细节循环推理网络的输入是一张二维图，该图像的面部 ROI由人脸检测器定位。本文采用 Dlib SDK 进行人脸检测。首先将检测到的人脸边框放大 0.25 倍，裁剪人脸 ROI 的正方形图像块，并将其缩放到 120120。神经网络输出两个 62位参数，分别是表观约束侧的输出参数和结构约束侧的损失函数。其中前 12 个参数代表姿态参数，中间 40 个参数代表身份参数，后 10 个参数代表表情参数。这些参数通过3DMM 模型得到三维的人脸模型，然后通过相应的索引得到 3D 人脸关键点，最后通过三维人脸关

16、键点得到图结构表示结构。当批次为偶数时，通过参数约束损失函数、人脸重建损失函数、三维人脸关键点损失函数和图约束损失函数来完成模型参数的优化。当批次为奇数时，通过图结构损失函数进行网络的优化。对于超参数，设置的超参 batchsize 大小为 128，采用自适应随机梯度下降法（Adam）。总训练60 个批次，前 15 个批次的学习率为 0.002，后面每 15 个批次就衰减为原来的 0.2。本文的训练数据集采用的是 300W-LP14，测试数据集采用的是 AFLW2000-3D15。2.2 评价标准本文采用归一化平均误差和累积曲线误差两种方式的两种评价标准进行算法的评价。为了验证本文算法的有效性，在归一化平均误差和累积曲线误差评价中，本文通过和多个经典的深度学习方法进行了比较和分析。平均误差比较：本文采用了归一平均误差作为人脸关键点检测的评价标准之一。平均误差计算公式为：其中 di表示图片检测框的对角线距离，N 表示图片个数，fi表示尺度因子，Ri表示旋转矩阵，Vi指人脸关键点，ti为平移向量，Id，Exp分别表示身份参数和表情参数。为真实值。对于平均误差而言，平均误差越小则表明算法的准

展开阅读全文

基于循环推理网络的人脸关键点检测算法_王兴.pdf